xbinbzy的个人博客分享 http://blog.sciencenet.cn/u/xbinbzy

博文

数据分析在身边

已有 2652 次阅读 2015-6-28 10:30 |个人分类:数据分析|系统分类:观点评述| 大数据, 数据分析

       大数据一词越来越火,现在都到“烂”的地步,不提这词感觉跟不上这个时代。一直在比较以前的数据分析跟现在提到的大数据分析,到底有什么样的联系。此篇博文做一个记录:

   打开新浪或者腾讯新闻,看见这样的新闻:

第一个维度

    肯定有人会去点击查看详情,有人忽略而过。如果说我们记录每个人的操作行为,以及获取他的职业信息,如此我们就形成了如下的数据表格:

     根据常识,绝大部分点击的人是医疗工作者。如果提出的问题是:在人群中,医疗工作者对于此条新闻的关注度与非医疗工作者是否存在明显差异?这样的问题跟新药与旧药的效果有显著差异,新化肥的增产效果显著是一样的吧。从数学理论的角度来看,知道了类别信息(此例中是职业),相当于是Y,知道了变量信息(此例中是查看新闻与否),要做的是根据x去分析Y1与Y2是否有显著差别,可用到的分析方法就是常听到的t检验,或者u检验,或者X2检验;

第二个维度

     接着上例,在现实中,很多不是医疗工作者,但家人或者朋友是医疗工作者的对此新闻也会产生关注度,如此将样本分为医疗工作者和非医疗工作者有些不妥,需要增加类别,也即会形成Y3,Y4。。。Yn:

    这样Y的类别多起来了,是否让你想起了方差分析...

第三个维度

    继续上例分析,医院的领导或者相关负责人士,他们获取消息的途径其实并不是依靠互联网,而是在会议或者其他渠道上早已获得消息,这样情形下,但根据一个变量(x)会丢失掉一部分信息, 如此需要增加x变量的个数,形成了x1、x2...xn

       这样就形成了多个Y与若干个X的数据表,要利用多个X将多个Y进行区分,这个时候,回归、神经网络、支持向量机、贝叶斯就开始大显身手了...

第四个维度

       假设不知道类别信息,只知道每个人的工作单位、职业、年龄、对特殊新闻的关注程度,如何知道人群当中到底存在那几类人,那么欧式距离,K-均值这些东西就要派上用场了,形成如下的结果:

第五个维度

      这是收集你点击新闻的信息,假设把你在淘宝、天猫、亚马逊等的购物信息,把你在新浪、腾讯等的新闻关注、微博关注,把你在微信的公众号关注,把你在大众点评、美团上的信息收集...整个中国网上人群,整个世界网上人群收集起来,那么它的数据量、数据复杂程度,数据可以分析的维度是不是想想就觉得...“哇,太多数据了”

      这些是不是就具备了“大数据”的4个基本特征,在这个数据集里头突然发现没有Y,但很多东西有可以做为Y;以前研究的问题,貌似在基于这么庞大数据量下提出的问题有很大差异,提示看问题角度得变了。

      t检验、方差分析会过时吗?神经网络、贝叶斯和支持向量机还能继续用吗?这取决于要研究的问题,数据量的增加在一定程度会让结果更为精确。

生活在悄然变化中

       有看到浏览器记录你的浏览记录,经常给你发推荐信息

       有看到亚马逊时常给你推荐书籍

       数据的时代,让你我无处可藏,但是却让生活越来越便捷

       。。。

     






https://blog.sciencenet.cn/blog-306699-901104.html

上一篇:Counsyl的模式与技术
下一篇:灵芝的水提物对小鼠肠道菌群的影响
收藏 IP: 112.95.52.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-23 16:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部