极客时间《数据分析45讲总结》


1.前言

该讲主要引导读者从全局去了解什么是数据分析?为什么做数据分析?怎么去做数据分析?答案就是:掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所以说数据是个全新的视角。数据分析如此重要,它不仅是新时代的“数据结构 + 算法”,也更是企业争夺人才的高地。 谈到数据分析,我们一般都会从3个方面入手:

数据采集 – 数据源,我们要用的原材料

数据挖掘 – 它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值(所谓的商业智能BI)

数据的可视化 – 数据领域中的万金油,直观了解数据分析结构

  数据分析的三驾马车的关系如下:

  img

  下面来大致认识下这三驾马车:

2.数据采集:

数据的采集,主要是和数据打交道,用工具对数据进行采集,常用的数据源,如何获取它们。在专栏里,后续会将介绍如何掌握“八爪鱼”这个自动抓取的神器,它可以帮你抓取 99% 的页面源。也会教读者如何编写 Python 爬虫。掌握 Python 爬虫的乐趣是无穷的。它不仅能让你获取微博上的热点评论,自动下载例如“王祖贤”的海报,还能自动给微博加粉丝,让你掌握自动化的快感。

  img

3.数据挖掘:

数据挖掘,它可以说是知识型的工程,相当于整个专栏中的“算法”部分。首先你要知道它的基本流程、十大算法、以及背后的数学基础。

掌握了数据挖掘,就好比手握水晶球一样,它会通过历史数据,告诉你未来会发生什么。当然它也会告诉你这件事发生的置信度是怎样的。

  img

4.数据可视化

 为什么说数据要可视化,因为数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。这是一个非常重要的步骤,也是我们特别感兴趣的一个步骤。

数据可视化的两种方法:

  •  Python :在 Python 对数据进行清洗、挖掘的过程中,很多的库可以使用,像 Matplotlib、Seaborn 等第三方库进行呈现。

  •  第三方工具:如果你已经生成了 csv 格式文件,想要采用所见即所得的方式进行呈现,可以采用微图、DataV、Data GIF Maker 等第三方工具,它们可以很方便地对数据进行处理,还可以帮你制作呈现的效果。

     img

数据分析包括数据采集、数据挖掘、数据可视化这三个部分。乍看你可能觉得东西很多,无从下手,或者感觉数据挖掘涉及好多算法,有点“高深莫测”,掌握起来是不是会吃力。其实这些都是不必要的烦恼。个人觉得只要内心笃定,认为自己一定能做成,学成,其他一切都是“纸老虎”哈。

再说下,陈博在文章中提到的如何来快速掌握数据分析,核心就是认知。我们只有把知识转化为自己的语言,它才真正变成了我们自己的东西。这个转换的过程就是认知升级的过程。

  img

  我本人也是很赞同这种说法,简单一句就是“知行合一”

  总结

  • 记录下你每天的认知  
  • 这些认知对应工具的哪些操作
  • 做更多练习来巩固你的认知

文章作者: Leon
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Leon !
评论
 上一篇
机器学习系列之决策树算法(09):ID3、C4.5、CART、随机森林、bagging、boosting、Adaboost、GBDT、xgboost算法总结 机器学习系列之决策树算法(09):ID3、C4.5、CART、随机森林、bagging、boosting、Adaboost、GBDT、xgboost算法总结
最近心血来潮,整理了一下和树有关的方法和模型,请多担待! 决策树首先,决策树是一个有监督的分类模型,其本质是选择一个能带来最大信息增益的特征值进行树的分割,直到到达结束条件或者叶子结点纯度到达一定阈值。下图是决策树的一个简单例子 按照分割
下一篇 
机器学习系列之决策树算法(01):决策树特征选择 机器学习系列之决策树算法(01):决策树特征选择
1.什么是特征选择【特征选择】顾名思义就是对特征进行选择,以达到提高决策树学习的效率的目的。 【那么选择的是什么样的特征呢?】这里我们选择的特征需要是对训练数据有分类能力的特征,如果一个特征参与分类与否和随机分类的结果差别不大的话,我们就说
  目录