|
【域外动态】大数据,“大”有讲究
——院校研究面临重重困难与挑战
谈到大数据,可能听起来很“丰满”,但在高等教育中进行大数据分析的现实却很“骨感”。院校研究面临的问题和挑战主要来自于大数据的6V特性(速度velocity、变化variety、数量volume、准确度veracity、验证能力verification和价值value)。尽管研究人员在如何定义大数据方面还没达成共识,但他们对于大数据的6V特性的看法却趋于一致——处理速度快、类型多样化、数据体量大、准确度高、验证性强、应用价值大。
在2013年出版的《大数据》一书中有这样的定义:大数据——一场将改变我们生活、工作和思考的革命。Mayer-Schonberger 和 Cukier用“现在”、“更加”以及“繁杂”来形容大数据的特性。
Daniel(2015)则额外补充了高等教育大数据的有效性、准确性和验证性这三个特性。随着大数据对商业、市场和社会本质的改变,它最终必将会改变高等教育。大数据“现在、更加、繁杂”的本质要求院校研究行业采用新的商业模式。为了提高大数据的准确性和验证性,就需要院校研究人员提高或获得新的数据管理和分析能力。大数据包罗万象的性质决定了大数据分析不能在传统的院校研究范围内进行。我们需要建立一个全新的能覆盖整个大学,精心策划的数据分析网络。这个数据分析网络要以院校研究为主导,但不能作为大数据分析的唯一单位。
一、数据处理的大容量以及高速度要求为院校研究提供新型商业模式
传统的院校研究分析主要基于人口普查数据,强调数据的准确性、一致性和可靠性。而大数据分析是基于交易/操作数据,即数据是自现在/今天/昨天起,而不是一个固定的日期。以学习管理系统(LMS)为例,它每天生成千兆字节的数据,告诉我们谁做了什么,学习了哪些课程,花费了多长时间。当这些活动的数据没有在每天/每周的基础上捕获时,LMS数据的价值就算不是完全消除,也将大大降低。访问和使用事务数据将是院校研究在其传统业务模式上的第一个突破。除了传统的人口学调查和简单的数据之外,院校研究的新业务模型还需要接受不断变化和繁杂的交易数据。传统的院校研究分析倾向于把一个学术项目,一个系,一个学院或者一个机构作为分析的基础单元。而在大数据中,分析主要是基于个人的。特意将数据分析根植于个人而不是一个单元是院校研究对其传统的商业模式的另一大突破。以预测学生课程学习是否成功为例,如果我们使用学生的背景特征和他们学习活动的前两周数据来预测他们的课程学习成功情况,那么学生的日常活动和课程结果之间的模式和关系就会被嵌入到日常活动中。我们需要每天收集LMS交易数据,将数据与来自其他来源的变量联系起来,并使用不同的时间戳(timestamps)来检测影响课程成功的相关因素。正如我们认为学生校园活动多如牛毛,收集的数据信息也同样之多,在这过程中要将大量的LMS同其他庞大的学习资料结合起来,并存储这些数据,这不仅会飞速完善数据储存量,还会给院校研究保护学生隐私方面的工作带来下一个重大挑战。
二、个体学生数据的多样性对学生隐私构成威胁
由于大数据更多地立足于个人,这使得研究人员能够将人的特征和活动数据化,以帮助设计个性化的学习体验来满足不同学生独有的学习方式。为了量化学生的活动以及理解他/她作为一个个体,大数据分析将会容纳教室以外的数据,比如住宿、食堂、健身、健康、学术提升和咨询等各种中心,甚至校园里学生的行踪。目前,各种学生活动数据都是出于行为分析以外的原因收集的,一周七天每天24小时从不间断——是否有规律的早餐?早餐吃什么?上课的时间?谁来教他们?何时何地?他们使用辅导中心的次数?图书馆使用情况?阅读的书籍种类?以及他们获得的学术和其他奖学金等等。然而,违背收集数据的初衷带有其他目的去使用这些数据的行为是被FERPA和HIPPA法案所禁止的(FERPA,Family Educational Rights and Privacy Act of 1974即家庭教育权和隐私权法案,是美国的联邦法律,用以保护学生的个人验证信息(PII)的安全。HIPAA全称为HealthInsurance Portability and Accountability Act/1996,PublicLaw 104-19,尚没有确切的正式中文名称,国内文献一般直接称为HIPAA法案,有的称为健康保险携带和责任法案,也有取其意为医疗电子交换法案)。
三、海量数据之间复杂的交织关系,要求比院校研究拥有更庞大的数据存储量,更快的处理时间和更多的专业知识
大数据需要大量的存储空间,以及快速处理和同时间多任务执行等技术。分布式计算和其他云计算系统是由微软、亚马逊、谷歌、SAS(全称STATISTICAL ANALYSIS SYSTEM,是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件)、IBM(国际商业机器公司或万国商业机器公司,全称International Business Machines Corporation,总公司在纽约州阿蒙克市)和Oracle(甲骨文股份有限公司,是全球大型数据库软件公司)等供应商提供,目前在院校研究中还没有得到使用。
成功的大数据分析依赖于三种数据模型的成功应用——描述型、关系型和预测型(Daniel,2015)。如果说传统的院校研究报告可以通过Excel数据透视表生成,那么大数据分析就要求院校研究专业人员不仅拥有更高级的数据查询技能,而且还需要适当的分析方法,以便来表现和解释各种数据关系,如关联、聚类、分类或生存算法。为了更好地分析和解释数据,从事院校研究的大数据研究人员也需要获取知识或者与从事人类和认知发展、学习风格、院校学术课程和政策等方面的专家共事。由于大数据在不同平台和知识领域之间传播,对于IR从业者来说,他们不可能成为所有学科领域的专家,大数据分析的成功只能通过网络数据科学家之间的协同合作来实现。大数据比院校研究更“大”有门道。
对高等教育研究人员的寄语: 教育是唯一一个产出具有投入特点的事业。我们预测学生成功的可能性是为了提供更多定制的学术服务来帮助他们取得成功。在院校研究(或高等教育)中使用大数据的目的是为了促进学生更好的成长和实现成功。大数据是一种工具,而不是目的。
参考文献:
Daniel, B (2015). Big data an analytics in higher education:Opportunities and challenges. BritishJournal of Educational Technology, Vol. 46 No. 5 904-920
Mayer-Schönberger, V,and Cukier, K (2013). Big Data: A Revolution That Will Transform How We Live,Work, and Think. Houghton Mifflin Harcourt.
Swing, R. L., andRoss, L. E. (2016). Statement of Aspirational Practice for InstitutionalResearch. Association for Institutional Research, Tallahassee, Florida.Retrieved on May 25, 2017 from http://www.airweb.org/aspirationalstatement.
(本文作者:Meihua Zhai博士,乔治亚大学资深机构研究员和首席数据学家。联系邮箱:mzhai@uga.edu. 编译:邢睿,里瑟琪智库研究助理)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 07:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社