||
昌盛老师这段时间蛮开心,因为他的键值对程序用得越来越得心应手,现在他给自己的小系统取了一个新名字,那就是“小数据管理系统”。看到“小数据”三个字,我脑海里立刻浮现出很多年前大数据技术刚刚兴起时闵应骅先生写的系列小数据文章。再次回看应骅先生的“大数据与小数据”博文,依然觉得很有意思。在文章中,应骅先生首先提出自己写的这个题目“有点怪”,为什么怪呢?
应骅先生坦言:“这个题目有点怪,现在大家都热炒大数据,你这里怎么又来了个小数据?”然后,他提出了自己的观点:“计算机行业的人谈大数据是指大数据技术;生命科学领域的人谈大数据是指生命科学领域的大数据分析;各行各业的人都需要用自己的专长分析自己行当的大数据。很少有人想到,其实小数据也非常有用。”
什么是小数据?小数据到底有什么用呢?应骅先生先通过一个发生在自己身上的实例回答了这两个问题:“昨天我有点胃痛,于是想:前天和大前天有何不同呢?啊!明白了,我每天喝一两酒,前天喝的酒不同,换了一个牌子,可能就是这个新牌子的酒引起我胃痛。这个小数据提供了我分析健康情况的依据。老年人的身体情况全靠自己感觉。”看到这里,你是否理解了什么是小数据及其作用呢?
为了更清晰的阐述自己的观点,应骅老师又举了一个发生在另外一个国度发生的类似的实例:“康奈尔大学的纽约校园计算机科学教授Deborah Estrin说,她父亲去年死去的前几个月,从他的数字社会脉动中看到了信号的异常。他停止了发电子邮件,不去超级市场买食物,到附近散步的距离也越来越短,而从心脏病科医师那里看不出他这种逐渐衰弱的状态,因为从心电图看不出来。那天,在急诊室,医生也没看出来一个90岁老人在脉搏或电子病历上的异常,但从社会脉动图上看,他却和几周前完全不同。”看了上述两个实例,现在,你理解的小数据及其作用又是什么呢?
当时应骅先生的观点是“所以,我们需要用日常小数据得到更多的警示和洞察。这可以看作是一种新的医学证据。”之后他又进一步简介了Deborah Estrin当时的一些研究成果和思考:“研究个人数据可以用于了解人们某方面的情况。譬如在医学领域,Deborah Estrin提出所谓mHealth,就是用移动装置做医疗和公共卫生。mHealth就是要开发一种体系结构,集成个人使用特定应用程序的数据,以帮助医疗服务人员提出推荐建议。她对于小数据的定义是“your row of their data.”(他们数据的你那一行)。如果把你使用信息的移动用法、有线用法、公用程序的用法、电子商务行为、搜索行为、社会媒体、电子邮件、智能汽车使用数据、游戏、音乐、视频等等组合起来,可以看出什么?如果分析年老的父母的这些集成数据,又可以看到他们的健康和幸福感方面的什么信息?是否可以通过这些集成的数据,比较不同的医学治疗方案?譬如数据跟踪能说明你散步可以走多远,你多早离开家,可以表明关节炎药物治疗效果如何。”话题谈论这里,应骅先生随即又抛出了一个新的问题,那就是小数据与个人隐私问题。
小数据虽好,但是如果用于网络,那数据安全如何保障?“有人说只有侵犯人家隐私才能有此机会”如果Deborah Estrin要继续自己的研究,那就不得不面对”小数据与个人隐私问题“。虽然”Estrin的目的是开发一个应用的生态系统,个人可以运行他/她自己的数据流之集合,称之为他们自己的个人数据资料室。她希望最后我们能够允许个人数据跟踪。个人数据应用程序接口可以产生实时的个人数据APP。“初衷很好,但是要继续研究不仅要解决上述安全问题,可能还会涉及到一些当时看来很有挑战性的问题,比如”1.获取数据;2.处理和去扰噪音和多种格式的数据;3.个人电子资料室的安全模式;4.APP样机试验床“等。
针对小数据在卫生保健领域的作用,在回答“数据获取”问题时,应骅先生提出“小数据从个人数字跟踪来。它描绘你自己随时间变化的健康情况,由一个新的云端APP产生,它可以连续地隐私地分析追踪你工作、购物、睡眠、吃饭、锻炼和通信等情况。”但这个新的云端APP到低像什么样子?谁来提供呢?“从日常生活到社会网络,检索引擎,在线游戏和电子商务,我们每天存取和使用它们,留下了我们的足迹,聚集和分析我们的数字轨迹,以服务市场,改进服务,和广告,提高系统性能。但是,至今没有一个服务想到把这些数据提供给个人,没有一个媒体,重新包装以我有用的方式,提供给我,关于我的数据。。”现在7年过去了,这样的服务出现了吗?为什么没有出现呢?应骅先生想要的新的云端APP到底是什么样子的呢?
“这种广泛而又高度私人的数据集可以从我的数字行为中分析出我的健康情况。不是说要用APP做医学诊断,也不是担当医生或爱人的角色,而是提高个人基于数据的洞察力,譬如早期的毛病警告或者精力逐渐改进的效果。可以把这个称为个性化的社会脉动,一个脉动表明个人幸福感的微妙而有意义的变化,和你的朋友和亲人分享。当病人或用户得知了为我服务的这些数据,我可以补充自己认购的APP。假如一个APP帮助我的医生断言我近两星期的药物剂量比原来的剂量好,该APP可以根据我的数字轨迹自动分析、位置和词汇数据,来建造一个我的日常活动的比较图,或者从运行我的移动跟踪的APP看到药物对我的早期关节炎真的减少了早上的僵硬,帮助我每天更快、更早出外,较少需要坐下歇一会儿。许多慢性病天天有变化,与许多复杂因素有关,而且因人而异,变好、变坏都是缓慢的。所以,一个人很难靠自己的记忆追踪新治疗方法的效果。但是,相同的健康状况在我们的日常行为里有症候和不良反应,而这些日常行为可以变成数据。这可能使人不安,但我们自己应该可以为了自己的目的而追踪自己。就像老年人现在也用功能手机和因特网,而这恰恰是数字跟踪的潜在资源。这些证据已经存在,不需要新的硬件,但需要去噪,从杂乱的数据源提取真实的内容。所以,首要任务是数据解放,即以丰富的APP市场和服务,从移动和网络服务取得数据。”
最后,应骅先生根据自己观察到的国内研究现状“国内也有一些公司老总提到过小数据,但他们说的小公司用不了海量数据,可以巧用小数据;也可以用数据来分析并改善销售和市场行为,数据同样也可以用来给顾客提供更好的服务;也可以利用数据分析所得的结论,来实时激发一些提醒框,以方便顾客在订阅一些虚拟服务时的方便。如此等等。“从科研的角度提出”不但大数据的科研和开发大有可为,小数据也有许多科研和开发可为。科研人员应该善于从各种不同角度提出挑战性的问题。有些人就是反对科研钻空子,但是,科研钻空子提出问题是必要的,不应该光是随大势,跟着走。”
在回过头来看看昌盛老师编写的“小数据管理系统”,不得不佩服他的是,他已经在行动了,虽然离应骅先生的“一种新的云端APP”蓝图还有一段距离,但是来日方长,只要愿意持续琢磨,相信有一天梦想会成真。
呵呵,您相信梦想么?如果相信,可以一起追梦~
【拓展阅读】闵应骅.科学网.大数据与小数据.链接地址:http://blog.sciencenet.cn/blog-290937-748258.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 19:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社