不知轩分享 http://blog.sciencenet.cn/u/sunday80 要么读书,要么旅行,身体和心灵总有一个要在路上。

博文

数据科学家养成手册——阅读笔记

已有 616 次阅读 2020-9-4 13:41 |个人分类:读万卷书|系统分类:科研笔记

图书规格

【 书 名 】数据科学家养成手册
【 作 者 】高扬
【 ISBN 】978-7-121-31304-2
【 出版社 】电子工业出版社
【出版时间】2017-05 第一版

笔记

读书的效率相对于听课、看视频要低得多,而多维的知识体系通过单维的文字表达出来,也给理解带来了挑战。然而,唯其有这种挑战,才需要读者进入深度思考状态,使读书成为一个推敲、琢磨、设问和破解的过程。不经过这个过程,我们所学到的知识一般来说只能是浮于表面的,很难达到“知其然知其所以然”的高度。可以说,到目前为止,读书作为一种学习手段,依然是其他方式无法取代的。 


科,会意字,“从禾从斗,斗者量也”,所以“科学”一词取义“测量的学问”。这里所说的“测量的学问”本身就有一种精确性的含义,再上到“学问”的范畴,就带有比较严格的推敲色彩了,而经得住推敲的东西通常体系性比较强,能够相互支撑,自圆其说。这就是“科学”这个词的字面含义。 


符号如果想被认定为数据,就必须承载一定的信息。信息很可能因场景而定,因解读者的认知而定,所以,符号是否能作为数据使用,解读者的主观视角具有决定性作用。解读者是否能够正确解读信息,将直接导致相应的符号是否能够被认定为数据。 


统计计算是一种最为朴素、客观的认知方式。这种认知方式其实是人类潜意识的产物,其出现时间远远早于统计学作为一门完整的学科出现在人类历史舞台的时间。 


古今中外,各行各业,尤其是手工业、工业、制造业,如果要发展,就必须做到低成本迅速扩张。如果要低成本迅速扩张,就必须做到标准化。
标准化的好处显而易见——输入的内容是标准的,操作的内容是标准的,那么输出的内容就是标准的,这对输出成果的性状与预期一致有极高的保障作用。 


数据作为信息的载体,通过在介质上的落地和传输,以及数据之间体系性的计算,给人类带来了“消除不确定性,降低试错成本”的巨大利益。 


在任何时刻,我们都不能说我们“看到”的一切就是一切,因为我们的感知能力相对这无垠的宇宙是那么有限。
这就是人类在不断改进自己认知条件的过程中常常遭遇的困惑,也是人类不断改进自己认知条件的最大动力。 


我们遇到的实际问题中会夹杂着许多跨学科的因素,如果生搬硬套理论来解决问题,通常会得到和期望的结果相去甚远的不良后果。这是理论研究中维度精简和实际研究中维度爆炸的矛盾给我们带来的困扰。 


数据不论是间接来源还是直接来源,一定要建立在足够可信的基础上。如果对数据的信任程度不够,不建议盲目地开展分析,因为分析结果通常会变得不可靠。
这里指的不是误差,误差是客观存在的,也无法避免。这里说的是数据来源、统计口径、记录方式等的可信度问题。 


  • 穷举法。这种方式最原始、最笨重,但也最简单,它同样是一种人与生俱来的解决问题的思维方式。

  • 分治法的应用在生产中更为普及,而且这种思路可以说同样是浑然天成——也是人类自己处理复杂问题的逻辑。人类在碰到一个庞大而复杂的问题时同样会想:这个问题可不可以分解成多个简单一些的小问题?每个问题获解了,整体就获解了。

  • 回溯法(探索与回溯法)是一种选优搜索法,又称“试探法”。核心思路是,按选优条件向前搜索,以达到目标。当搜索到某一步时,发现原先的选择不优或达不到目标,就退回一步重新选择。

  • 贪心法这种方式也是人类本身所拥有的。就是在每一步向前试探的时候都找到当前的“最优解”,其他的解(分支)一概不看——在有限的视野寻找最优解作为行动纲领。

  • 迭代法不是一个算法,而是一类算法的解题思路。迭代法的核心思路就是用步步逼近的方式来接近理论上的精确值,只要发现当前的试探值已经收敛到一个满足场景要求的误差精度,就可以判断迭代结束,并将这个试探值作为求解的目标值。这种方法可以使很多无法直接求解的问题得到一个足够精确的近似解。 


以前的算法大都是为了解决一个模型上确定的问题,由人直接编写,由计算机根据算法的指示一步步执行顺序、循环、分支这样的流程逻辑来处理输入的数据。而机器学习要解决的问题是,通过设计算法,对输入的数据进行归纳,然后根据归纳的结果进行相应的响应输出,这是二者最大的区别。这种方式很像人类学习客观事物的过程,所以得名“机器学习”。 


在算法学里,从微观到宏观,贯穿着处理问题的哲学思想。变通处理,化无穷为有穷,化复杂为简单,化有中心为无中心,时空互化,统筹有限资源——对这些思想的贯彻,尤其是在更为宏观层面的理解与运用,往往会有事半功倍的效果。
面对纷繁变化的算法,不要过早陷入细枝末节,还是应该本着从干到枝、从枝到叶的逐步深入的原则来学习。算法在整个数据科学体系里也是最能体现“厚积薄发”的一个分支学科,在研究说过程中一定要注意积累、归纳和总结。 


统计的目的就是将大量离散的数据经过统计计算,形成集中性的指标或者粗粒度单位。从本身的目的来说,统计将大量复杂的数据个体宏观特征化,简化了数据解读者对认知对象的了解过程。换句话说,数据统计的意义主要在于数据画像,节约阅读时间。 


分析究其本质,就是通过对事物的感知及对比、类比、推测、反证等各种研究方法得到事物规律的过程。既然如此,凡是帮助人们逼近事物规律的认知过程都应该算作分析,或者说,凡是有助于消除不确定性的与数据互动的行为都应该算作分析 


数据可视化与分析是整个大数据落地过程中较为靠后的环节,通常伴随着很多的配色技巧、展示技巧,以及分析人员自身的行业背景和从业知识。在整个决策制定之前,所有数据层面的产出都应该在这个环节进行充分的呈现。 




http://blog.sciencenet.cn/blog-455749-1249265.html

上一篇:未来简史——阅读笔记
下一篇:精准表达——阅读笔记

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-10-21 13:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部