闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

大数据与小数据(131209) 精选

已有 14532 次阅读 2013-12-9 08:54 |个人分类:网络|系统分类:科研笔记| 大数据, 小数据

大数据与小数据(131209

闵应骅

 

   这个题目有点怪,现在大家都热炒大数据,你这里怎么又来了个小数据?计算机行业的人谈大数据是指大数据技术;生命科学领域的人谈大数据是指生命科学领域的大数据分析;各行各业的人都需要用自己的专长分析自己行当的大数据。很少有人想到,其实小数据也非常有用。

   昨天我有点胃痛,于是想:前天和大前天有何不同呢?啊!明白了,我每天喝一两酒,前天喝的酒不同,换了一个牌子,可能就是这个新牌子的酒引起我胃痛。这个小数据提供了我分析健康情况的依据。老年人的身体情况全靠自己感觉。康奈尔大学的纽约校园计算机科学教授Deborah Estrin说,她父亲去年死去的前几个月,从他的数字社会脉动中看到了信号的异常。他停止了发电子邮件,不去超级市场买食物,到附近散步的距离也越来越短,而从心脏病科医师那里看不出他这种逐渐衰弱的状态,因为从心电图看不出来。那天,在急诊室,医生也没看出来一个90岁老人在脉搏或电子病历上的异常,但从社会脉动图上看,他却和几周前完全不同。所以,我们需要用日常小数据得到更多的警示和洞察。这可以看作是一种新的医学证据。这启发了她开始研究小数据。

   研究个人数据可以用于了解人们某方面的情况。譬如在医学领域,Deborah Estrin提出所谓mHealth,就是用移动装置做医疗和公共卫生。mHealth就是要开发一种体系结构,集成个人使用特定应用程序的数据,以帮助医疗服务人员提出推荐建议。她对于小数据的定义是your row of their data.”(他们数据的你那一行)。如果把你使用信息的移动用法、有线用法、公用程序的用法、电子商务行为、搜索行为、社会媒体、电子邮件、智能汽车使用数据、游戏、音乐、视频等等组合起来,可以看出什么?如果分析年老的父母的这些集成数据,又可以看到他们的健康和幸福感方面的什么信息?是否可以通过这些集成的数据,比较不同的医学治疗方案?譬如数据跟踪能说明你散步可以走多远,你多早离开家,可以表明关节炎药物治疗效果如何。

   有人说只有侵犯人家隐私才能有此机会。Estrin的目的是开发一个应用的生态系统,个人可以运行他/她自己的数据流之集合,称之为他们自己的个人数据资料室。她希望最后我们能够允许个人数据跟踪。个人数据应用程序接口可以产生实时的个人数据APP。这里的挑战性问题是:

1.获取数据

2.处理和去扰噪音和多种格式的数据

3.个人电子资料室的安全模式

4.APP样机试验床

   我们听到了很多关于大数据、基因组学和智能设备将改变医学,但是,小数据对卫生保健的作用值得注意。小数据从个人数字跟踪来。它描绘你自己随时间变化的健康情况,由一个新的云端APP产生,它可以连续地隐私地分析追踪你工作、购物、睡眠、吃饭、锻炼和通信等情况。

   从日常生活到社会网络,检索引擎,在线游戏和电子商务,我们每天存取和使用它们,留下了我们的足迹,聚集和分析我们的数字轨迹,以服务市场,改进服务,和广告,提高系统性能。但是,至今没有一个服务想到把这些数据提供给个人,没有一个媒体,重新包装以我有用的方式,提供给我,关于我的数据。这种广泛而又高度私人的数据集可以从我的数字行为中分析出我的健康情况。不是说要用APP做医学诊断,也不是担当医生或爱人的角色,而是提高个人基于数据的洞察力,譬如早期的毛病警告或者精力逐渐改进的效果。可以把这个称为个性化的社会脉动,一个脉动表明个人幸福感的微妙而有意义的变化,和你的朋友和亲人分享。当病人或用户得知了为我服务的这些数据,我可以补充自己认购的APP。假如一个APP帮助我的医生断言我近两星期的药物剂量比原来的剂量好,该APP可以根据我的数字轨迹自动分析、位置和词汇数据,来建造一个我的日常活动的比较图,或者从运行我的移动跟踪的APP看到药物对我的早期关节炎真的减少了早上的僵硬,帮助我每天更快、更早出外,较少需要坐下歇一会儿。许多慢性病天天有变化,与许多复杂因素有关,而且因人而异,变好、变坏都是缓慢的。所以,一个人很难靠自己的记忆追踪新治疗方法的效果。但是,相同的健康状况在我们的日常行为里有症候和不良反应,而这些日常行为可以变成数据。这可能使人不安,但我们自己应该可以为了自己的目的而追踪自己。就像老年人现在也用功能手机和因特网,而这恰恰是数字跟踪的潜在资源。这些证据已经存在,不需要新的硬件,但需要去噪,从杂乱的数据源提取真实的内容。所以,首要任务是数据解放,即以丰富的APP市场和服务,从移动和网络服务取得数据。

   国内也有一些公司老总提到过小数据,但他们说的小公司用不了海量数据,可以巧用小数据;也可以用数据来分析并改善销售和市场行为,数据同样也可以用来给顾客提供更好的服务;也可以利用数据分析所得的结论,来实时激发一些提醒框,以方便顾客在订阅一些虚拟服务时的方便。如此等等。但还没有人从科研的角度,提出不但大数据的科研和开发大有可为,小数据也有许多科研和开发可为。科研人员应该善于从各种不同角度提出挑战性的问题。有些人就是反对科研钻空子,但是,科研钻空子提出问题是必要的,不应该光是随大势,跟着走。中国知识分子喜欢 follow,你看即使我介绍小数据,也要把一个外国人抬出来,不然就更没说服力了。




https://blog.sciencenet.cn/blog-290937-748258.html

上一篇:未雨绸缪话安全(131202)
下一篇:大小数据和中西医(131216)
收藏 IP: 159.226.43.*| 热度|

37 李伟钢 张忆文 彭思龙 许培扬 王贤文 武夷山 杨华磊 徐迎晓 赵凤光 刘洋 王统领 徐晓 薛宇 米春桥 任磊 陈辉 褚昭明 李阳 苏晓路 邱嘉文 周春雷 仲银鹏 肖振亚 胡传圣 张智才 蔡小宁 王启云 俞立 黄秋华 刘钢 张利华 黄河宁 JIANHUN yunmu ahmen rosejump dulizhi95

该博文允许注册用户评论 请点击登录 评论 (51 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 01:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部