天池竞赛小试牛刀:工业蒸汽预测
本文是个人参加天池竞赛的一些自己的经验,与大家做一个分享,希望能对刚开始玩天池的小伙伴有所帮助!竞赛背景:利用火力发电的基本原理
本文是个人参加天池竞赛的一些自己的经验,与大家做一个分享,希望能对刚开始玩天池的小伙伴有所帮助!
竞赛背景:利用火力发电的基本原理:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。研究发现在这一系列的能量转化中,锅炉蒸汽量的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量、锅炉床温、床压,炉膛温度、压力,过热器的温度等。那么,根据这些数据,我们是否能预测产生的蒸汽量,从而提高发电效率?
数据可见:
https://tianchi.aliyun.com/competition/entrance/231693/introduction?spm=5176.12281973.1005.3.3dd54c2aeJueDl目的:根据经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),预测产生的蒸汽量。
项目过程思路:
1. 此项目为有监督学习,首先对收集的数据进行描述性分析,为下一步数据清洗做准备;
2. 利用可视化工具对数据进行可视化分析、做出大量的实验、找到数据噪点并进行清洗,将处理好的训练数据进行划分;
3. 分别建立多个机器学习回归模型,然后利用机器学习算法进行建模,训练算法;(项目中使用了随机森林、逻辑回归、岭回归、支持向量机、XGBOOST、集成算法(stacking)等算法技术)
4. 测试算法,使用交叉检验来测试不同的模型,分析哪个效果最好;
5. 使用算法,进行预测;
以下为代码:
拿到数据,第一个就是看数据咯~但看半天看不明白怎么办,那就画图吧!给大家看看我画过的图~
离线测试:mse_train = 0.13232387222107403;
score = 0.8510047447073116
这里采用了stacking集成方法,最近才开始使用,但是其实在线成绩还没有我做过单模型调参后的好,目前还没有想到是为什么,我怀疑是不是自己模型搭配不是很好,还在摸索中,希望有大佬指点。。。
然后给出目前最好成绩:
成绩一般~和排行榜前面的大佬查了远了,这个项目还没有做什么特征提取,特征处理,估计加上这一步还能上升一些。
最后不得不说,理论结合实践才是王道,光看代码,写点小算法,没有做实打实的项目进步快。
有空再更新~~~