|
大数据分析自动化
据MIT网站2016年10月21日Larry Hardesty新闻报道,利用新的算法,数据科学家可以在几天内完成数据分析,而传统上需要几个月。
去年,麻省理工学院的研究人员提出了大数据分析的关键一步的自动化的系统:“特征集的选择”,或选择对进行预测有用的数据特征。在几个数据科学竞赛中,该系统的表现优于大多数的人类竞争对手,并只花了几个小时,而不是几个月来执行其分析。
本周,在IEEE的科学数据和先进的分析方法国际会议上,麻省理工学院研究小组的两篇论文介绍了大数据分析的过程大多数其余部分自动化。
第一篇论文描述了分析随时间变化的数据的通用框架。它将分析过程分为三个阶段:标记数据,突出可以提供给机器学习系统的数据点;分割数据,确定时间序列的数据点相关的问题; “特征化”数据,该步骤去年由研究者介绍过。
第二篇文章介绍了一种新的语言,用于描述数据分析问题和一组算法,这些算法以不同的方式自动重组的数据,以确定数据可能对哪些类型的预测问题有用。
按照麻省理工学院信息与决策系统实验室首席研究科学家、该三篇论文的资深作者Kalyan Veeramachaneni的说法,行业研究员带来的真实数据分析问题工作,增长了他的团队的经验。
Veeramachaneni和Kanter在2015的秋天成立了一称为Feature Labs(特征实验室)的公司,将数据分析技术的商业化。Kanter现在是公司的首席执行官, Benjamin Schreck是首席数据科学家。
由Schreck和Veeramachaneni开发的新语言,被称为Trane,利用它可将数据科学家定义预测问题所需要时间,从几个月减少到几天。Kanter, Veeramachaneni,以及特征实验室的另一员工Owen Gillespie,还发明了一种方法,与标记-段-特征化(LSF)过程一样。
要了解标签和分割的意义,假设将若干癫痫患者的脑电图(EEG)数据提供给数据科学家,并要求确定数据中可能会出现癫痫发作的信号的模式。
第一步是识别表示癫痫发作的脑电峰值信号。下一步是提取每个癫痫发作之前的一个段的脑电信号。为了比较,也应提取离癫痫发作远处的相似的长度“正常”段的信号段。然后将信号段标记为是或不是癫痫发作前,机器学习算法可以用这些信息,来识别表明癫痫发作的模式。
在他们的LSF的论文中,Kanter, Veeramachaneni 和Gillespie定义了描述标签和分割问题的通用数学框架。例如,数据可能并不是EEG(脑电)数据,而是特定的公司的客户的购买信息,问题可能是从客户的购买历史,无论他或她有可能购买一个新产品。
用于预测的目的的相关的数据,可能不是在一定的时间跨度一个客户的行为,而是每当他或她的新购买三个商品时候。该框架是足够灵活,以适应不同的规格。但一旦产生这些规格,研究的算法自动进行相应的分割和标签。
利用Trane,时间序列数据表示在表中,其中列包含测量和它们产生的时间。Schreck和Veeramachaneni定义一些可以对行或列进行的操作。行操作类似于确定一行中的测量是否大于某个阈值数,或将其提高到特定的幂。列操作是类似于在列中的连续测量之间的差异,或所有的测量求和,或只考虑第一个或最后一个。
Trane对数据表进行遍历,通过操作组合,列举数据大量潜在的可以问的问题,例如,是,在连续行的测量值之间的差异是否超过某一特定值,或是否有任何行其数据的平方等于一个特定的数的平方。
“也许最重要的是,这是它使我们能够以标准的方式表达预测问题的重要一步,这样你就可以与其他分析师分享,从问题的细节进行抽象,”美国宇航局喷气推进实验室高级研究员、人工智能和机器学习的研究者Kiri Wagstaff说。“我希望这可能会导致改进任何领域的专家和数据分析员的之间的合作关系。因为现在的领域专家,如果他们可以学习,并愿意使用这种语言,可以比他们目前能够做的更精确的方式说明他们的问题。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 02:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社