跳转至

数据分析精选文章

本文总阅读量次 ,原创教程,严禁转载

数据分析

数据分析简明学习路线

数据分析能力,未来会越来越重要。之前推送过很多篇相关文章,基于此再扼要总结,广义上数据分析的学习路线,此处数据分析我延伸到建模部分,只为了从宏观上更清楚的认识,数据分析和数据建模是如何从零到上线,并应用于生产实践与指导中的。

数据分析思维贯穿始终,前几天推送过数据分析必知的 9 种思维

有了数据才能分析,数据获取方法至关重要,常见的:公司大数据平台,通过爬虫获取,第三方数据接口,公开的数据集等。爬虫常用框架Beautiful Soup,requests,urllib模块,lxml包,正则技术,html结构,对于动态网页爬取JS必不可少。

数据爬取后就要存储它,一般数据量,MongoDB,Mysql,大数据量Hive和Spark,实时查询ES弹性数据库等。

下一步,数据预处理,包括数据转化 data transform:数据标准化、离散化等;数据清洗:异常值、缺失值、数据不均衡处理;数据集成:多个数据源规整到一起:merge,join等。

然后,数据分析,先拿excel折腾一回,函数分三类:SUM为代表聚合类、VLOOK为代表查询类、IF为代表逻辑类;数据再多的,拿Pandas分析一番,做做EDA(探索性分析),再大的使用Spark分析。

EDA后,会提出一些针对性的问题,尝试去建模,借助统计学工具,机器学习(传统的十几种常用算法)、深度学习(几个经典网络模型)开展回归、聚类分析,进而确定模型的各个参数,完成学习和建模。

得到模型上线部署后,要想业务人员看懂,还得要数据可视化,制作各种报表,这些才是对外交流的材料。

最后讲给业务人员,确保能够给他们解释清楚。应用到生产中后,业务和客户会不断反馈,然后我们再去不断迭代模型,再上线,再收到反馈,一直循环往复下去。

顺便说一句,模型的可解释性挺重要,趋向简单化,更容易解释给用户,实际项目中会省去很多麻烦。

数据分析相关文章

csv 文件读写乱码问题的一个简单解决方法

挺狗血的问题读入csv文件分隔符问题

Pandas 中 nan, extract, round 使用总结

数据切片和掩码索引,这个陷阱困扰过你吗

数据预处理缺失值可视化处理

蒙特利尔的自行车骑行数据分析

找出异常值的两种方法