YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

基于DIKWP模型的大数据与小数据治理: 中国的挑战与机遇

已有 1072 次阅读 2023-9-27 12:08 |系统分类:论文交流

基于DIKWP模型的大数据与小数据治理: 中国的挑战与机遇

段玉聪(Yucong Duan)

DIKWP-AC人工意识实验室

AGI-AIGC-GPT评测DIKWP(全球)实验室

DIKWP research group, 海南大学

duanyucong@hotmail.com

摘要:

在数字化浪潮席卷全球的今天,大数据作为技术驱动社会治理、法律、科研、产业发展的核心已经被众多专家和学者深入研究。尤其在中国,数据正被赋予前所未有的价值和重要性。本文深入探讨大数据与小数据在治理、融合及应用中的价值与挑战,基于数据、信息、知识、智慧和意图(DIKWP)模型,分析其治理策略与方向,并尝试为中国的数据科学界提供新的思路和方向。

1. 引言

数据作为当今社会的新型资产,其地位已经与石油、黄金相提并论。在全球经济转型的大背景下,中国正处于数字化转型的关键阶段,面临的挑战和机遇并存。

2. 大数据的价值与挑战

随着信息技术的进步,我们进入了一个数据爆炸的时代。从社交网络的实时互动、电子商务的浩瀚交易记录、工业制造的精准传感数据,到政府的公共管理信息、医疗的庞大健康档案以及教育领域的学习与研究数据,大数据已经渗透到生活的每一个角落,为决策者提供了前所未有的视角和维度。这种数据的海量性、多样性和实时性,不仅为商业、科研和公共管理带来了革命性的机会,也为个人的生活质量、健康和安全创造了新的可能性。

然而,大数据的价值释放并不是一帆风顺的。与此同时,数据的治理面临着前所未有的挑战。确权问题,例如,谁拥有数据、谁有权使用数据、数据的归属和流转如何定义,已经成为众多组织和个人争论的焦点。隐私问题更是如影随形,大数据技术可能会不经意地泄露个人隐私,给人们的生活带来不必要的麻烦或风险。再者,数据的安全也不能忽视。随着黑客技术的进步和网络攻击的日益猖獗,如何确保数据的安全和完整,避免数据被恶意篡改或利用,成为每一个组织和个人都必须面对的问题。

3. 小数据的深度挖掘

与大数据相对,小数据常常因其规模较小而被人们忽视。但实际上,小数据往往包含了更为深入和细致的信息。例如,在医疗领域,针对个体的健康记录、基因序列等小规模数据,往往能够提供关于该个体健康状况、疾病风险和治疗方案的深入洞察。

同样,在广告领域,通过对个体的消费行为、搜索历史和社交网络互动进行精细的分析,精准广告可以更加精确地锁定目标受众,从而提高广告的转化率。此外,在行为研究中,小数据可以帮助研究者更为深入地了解个体的心理和行为模式,从而为心理学、社会学和市场研究提供更为精确的数据支撑。

因此,如何高效利用和融合小数据,挖掘其深藏的价值,已经成为数据科学的前沿领域。这需要我们开发新的算法、模型和工具,以确保小数据在各种应用中能够发挥其最大的价值。同时,小数据的隐私和安全问题也不能忽视,必须确保在利用小数据的同时,充分保障个体的隐私权和数据安全。

4. DIKWP模型的深度解读

数据、信息、知识、智慧、意图(DIKWP)模型,为数据科学领域带来了一种多维度的认识和分析方法。下面我们将对该模型的各个维度进行深入探讨:

  • 数据(Data):数据是所有知识的起源,它是未加工、原始的事实或观测结果。这种事实可能是数字、文字、图像等形式。例如,某一天的温度记录、某商品的销售数量都是数据。数据本身可能没有明确的意义,但它为进一步的处理和分析提供了基础。

  • 信息(Information):当数据被加工、组织、结构化或解释时,它就转化为信息。信息为我们提供了对某一现象或事件的初步理解。例如,一个月内的温度数据可以加工为该月的平均温度,这个平均温度便是信息。

  • 知识(Knowledge):知识是对信息进行进一步的加工、分析、归纳和总结得到的。它不仅仅是事实的陈述,还包括对事实的理解、解释和应用。例如,基于过去几年的温度信息,我们可能会得出全球变暖的结论,这种结论便是知识。

  • 智慧(Wisdom):智慧是知识的进一步升华。它涉及到对知识的批判性思考、价值判断以及在特定环境下的应用。智慧不仅仅是知道某件事,更重要的是知道为什么以及如何使用这些知识。例如,知道全球变暖的知识并基于此采取行动,如推广可再生能源,就是智慧的体现。

  • 意图(Purpose):意图描述了为什么我们要收集、处理和使用数据。它可以是一个明确的目标,如提高销售额,或一个模糊的动机,如提高用户满意度。意图强调了在整个数据处理流程中,始终需要有一个明确的方向和目标。

总体来看,DIKWP模型为我们揭示了从数据到智慧的逐层深化过程,每一层都为上一层提供了支持和基础。这一模型强调了数据的价值不仅仅在于其数量,更重要的是如何加工、解读和应用这些数据。在当今的数据驱动时代,深入理解和应用DIKWP模型将帮助我们更好地利用数据,为决策提供有力支撑。

5. 中国在数据治理上的机遇与挑战

中国,作为全球最大的互联网市场,对数据治理的重视程度正在迅速提高。其独特的社会文化背景和经济体系使其在数据治理上有着独特的优势和挑战。

机遇:

  1. 庞大的数据量:中国拥有超过十亿的互联网用户,每天产生的数据量是惊人的。这为AI、机器学习和深度学习等前沿技术提供了无与伦比的训练数据,这些数据有助于训练出更加高效和准确的模型。

  2. 政府的积极推动:中国政府对于大数据、AI等产业的积极扶持,为企业提供了良好的投资和研发环境。政府的支持还表现在为数字经济提供政策引导和资金扶持。

  3. 产业链完备:与其他国家相比,中国在硬件、软件和服务三个领域都有着深厚的积累,为数据治理提供了全方位的支持。

挑战:

  1. 数据确权:随着数据的价值日益凸显,数据所有权、使用权等确权问题成为了热点。谁拥有数据?谁有权利使用数据?这些都是亟待解决的问题。

  2. 隐私保护:用户数据的泄露和不当使用频繁成为新闻头条,如何在利用数据的同时保障用户隐私成为了重要课题。

  3. 数据孤岛:尽管数据量巨大,但在不同的行业和领域,数据仍存在于孤立的“岛屿”之中,如何打破数据孤岛,实现数据的跨领域、跨行业共享与流通是一个巨大的挑战。

  4. 安全问题:随着网络攻击手段的日益狡猾,数据安全问题也显得尤为重要。如何保障数据在传输、存储和处理过程中的安全,避免数据泄露、篡改和丢失,是当前最为迫切需要解决的问题。

总结来说,面对上述机遇与挑战,中国在数据治理上需要建立一个完整、高效且安全的体系,确保数据的价值能够得到最大化的利用,同时也要兼顾用户隐私和数据安全,为中国的数字化转型提供强大动力。

6. 基于DIKWP模型的治理策略

结合DIKWP模型,我们可以提出以下数据治理策略:

  • 数据层

    • 收集策略:对数据来源进行鉴别,确保数据来源的合法性与真实性。在收集过程中,优先考虑数据的多样性,以涵盖更多的场景和用户。

    • 存储策略:采用分布式、容错和备份机制,保障数据的持久性和稳定性。对敏感数据进行加密处理,确保数据在存储过程中的安全性。

    • 管理策略:定期对数据进行清洗、校验和更新,确保数据的质量和完整性。同时,建立有效的数据索引,提高数据查询的速度与准确性。

  • 信息层

    • 加工策略:使用高效算法进行数据处理,将原始数据转化为可用的信息。例如,通过数据挖掘技术找出数据中的模式和关联。

    • 分类策略:根据业务需要,将信息进行分类和标签化,以便后续的检索和利用。

    • 传播策略:确保信息的传播途径是安全的,并且目标接收者能够正确解读该信息。

  • 知识层

    • 构建策略:根据已有的信息,通过逻辑推理和经验总结,构建完整的知识体系。

    • 验证策略:定期对知识体系进行验证和更新,确保其在变化的环境中仍然适用。

    • 共享策略:建立知识共享平台,鼓励团队成员之间的知识交流与合作。

  • 智慧层

    • 伦理策略:在所有的决策中,考虑到伦理道德的因素,避免对个人和社会造成伤害。

    • 价值观策略:确保数据的使用和决策都是基于正确认知的价值观,如公平、正义和可持续性。

    • 整合策略:将知识、伦理和价值观整合在一起,形成真正的智慧,使决策更具前瞻性和准确性。

  • 意图层

    • 明确目的:在处理数据之前,明确数据处理的目的和预期结果,避免盲目的数据分析。

    • 动机判别:定期对数据处理的动机进行审查,确保它们是正当的,并与组织的目标和价值观相一致。

    • 效率优化:结合明确的意图,选择最合适的工具和方法进行数据处理,以实现高效和高质量的输出。


7. 结论

在数字化时代,数据已经成为最重要的资产之一。通过深入理解和应用DIKWP模型,我们不仅可以更好地处理和利用数据,还可以为数据的治理、应用提供全新的思路和方向。面对未来的挑战,中国需要加强数据科学的研究,推动数据的深度融合和高效利用,为建设数字中国、智慧社会提供强大支撑。

段玉聪,海南大学计算机科学与技术学院教授,博士生导师, 第一批入选海南省南海名家计划、海南省领军人才,2006年毕业于中国科学院软件研究所,先后在清华大学、首都医科大学、韩国浦项工科大学、法国国家科学院、捷克布拉格查理大学、意大利米兰比克卡大学、美国密苏里州立大学等工作与访学。现任海南大学计算机科学与技术学院学术委员会委员、海南大学数据、信息、知识、智慧、意图DIKWP创新团队负责人、兼重庆警察学院特聘研究员、海南省委双百人才团队负责人、海南省发明协会副会长、海南省知识产权协会副会长、海南省低碳经济发展促进会副会长、海南省农产品加工企业协会副会长、美国中密西根大学客座研究员及意大利摩德纳大学的博士指导委员会委员等职务。自2012年作为D类人才引进海南大学以来,累计发表论文260余篇,SCI收录100余次,ESI高被引11篇,引用统计超过4300次。面向多行业、多领域设计了241件(含15件PCT发明专利)系列化中国国家及国际发明专利,已获授权第1发明人中国国家发明专利及国际发明专利共85件。2020年获吴文俊人工智能技术发明三等奖;2021年作为程序委员会主席独立发起首届国际数据、信息、知识与智慧大会-IEEE DIKW 2021;2022年担任IEEE DIKW 2022大会指导委员会主席;同年获评海南省最美科技工作者(并被推全国);同年10月入选美国斯坦福大学发布的全球前2%顶尖科学家的“终身科学影响力排行榜”榜单。参与研制IEEE金融知识图谱国际标准2项、行业知识图谱标准4项。2023年发起并共同举办首届世界人工意识大会(Artificial Consciousness 2023, AC2023)。


  • DIKWP人工意识模型是一个描述从数据到智慧转化过程的模型,其中每一步骤都受到我们的目标或者意图的引导。模型中的几个主要概念包括数据(D,Data)、信息(I,Information)、知识(K,Knowledge)、智慧(W,Wisdom)以及意图(P,Purpose)。我们的大脑在这个过程中发挥了关键作用,通过解析和处理原始数据,理解和整合信息,生成和应用知识,形成和执行意图,最终实现智慧的生成。

    首先,我们的大脑通过视觉皮层处理原始数据。这一过程涉及到大脑的后部视觉皮层,包括主要的视觉处理区域如V1、V2等。在此阶段,大脑将文本中的文字和符号解析为神经电信号。这个过程涉及大脑的颞叶,这是处理听觉、记忆和语言理解的区域。原始数据通常是我们从环境中收集的输入,需要通过感官如视觉和听觉来处理和存储。

    其次,大脑将数据转化为信息。这一过程发生在大脑的前部,如额叶。这里包含了大脑的决策中心和执行功能的部位,也涉及到大脑的语言处理区域,如布洛卡区(Broca's area)和韦尼克区(Wernicke's area)。此阶段的计算处理包括对数据的解析、整合和理解,以及对这些信息进行进一步的分析和推理。

    然后,大脑整合信息生成知识。这个过程涉及到大脑的前额叶皮层,这是大脑的高级认知功能区域,负责情绪控制、决策制定、问题解决等任务。此阶段的计算处理包括对信息的进一步分析、概括和规则的形成,以及对这些规则的存储和记忆。

    接着,大脑基于知识进行推理和决策,生成智慧。这个过程主要涉及到大脑的前额叶皮层和顶叶皮层,它们都是大脑的高级认知功能区域,负责执行功能和推理决策。此阶段的计算处理包括对知识的应用,以及对预测结果的评估和优化。

    最后,所有这些过程都受到我们的意图或目标的指导。我们的意图是由大脑的边缘系统(包括扣带皮层、杏仁核等)和前额叶皮层共同决定的。这就是大脑在DIKWP人工意识模型中的作用。

    如果我们以预测天气为例,首先,我们收集相关的天气数据,比如温度、湿度、风速等(数据阶段)。然后,我们从这些数据中提取有用的信息,比如找出气候模式、识别季节变化等(信息阶段)。接着,我们基于这些信息,建立天气预测模型,形成知识(知识阶段)。然后,我们基于这些知识,进行推理和决策,生成天气预报(智慧阶段)。最后,我们的预报和决策都受到我们的预测目标或目的的指导(意图阶段)。...

  • 在人工智能领域中,数据、信息、知识、智慧和意图(DIKWP)是不可或缺的五个核心概念。他们在处理过程中,与概念和语义的关联也极为紧密。以下我们深化对这五个概念的理解,特别是在面对具体实例时,如何用这些概念进行信息处理和决策。


  • 数据(Data)可以理解为我们认知的“相同”语义的具象表示。数据通常表示一种具体化的事实或观察结果,其背后蕴含着某种特定的语义。在处理数据时,我们常常会寻找并抽取相同的语义,将其统一视为一个概念。例如,我们看到一群羊,虽然每只羊的体型、颜色、性别等可能有所不同,但我们会把它们归为“羊”的概念,因为它们共享了我们对“羊”这个概念的语义理解。

    信息(Information)则是对应认知中的“不同”语义的表达。信息通常指我们通过感官和观察获得的有关环境或某个对象的知识或数据。在处理信息时,我们会根据输入的数据找出其内在的不同之处,并将其分类。例如,在停车场中,尽管所有汽车都可以归类到“汽车”这一概念,但每一辆汽车都有其特殊性,如品牌、型号、颜色等,这些都是信息。

    知识(Knowledge)对应于认知中的“完整”语义。知识是我们通过信息获得的对于世界的理解和解释。在处理知识时,我们会通过观察和学习抽象出完整的概念或模式。例如,通过观察我们得知所有的天鹅都是白色,这是我们通过收集大量信息后得出的关于“天鹅”这一概念的一个完整认识。

    智慧(Wisdom)对应着伦理、社会道德、人性等方面的信息,是一种对知识和信息的高度理解、综合和应用。在处理智慧时,我们会整合这些信息,并运用它们来指导决策。例如,当面对一个决策问题时,我们会考虑到伦理、道德、可行性等各个方面的因素,而不仅仅是技术或者效率。

    意图(Purpose)可以理解为一个二元组(输入,输出),其中输入和输出都是DIKWP内容。意图代表了我们对某一现象或问题的理解(输入)以及我们希望通过处理和解决该现象或问题来达到的目标(输出)。在处理意图时,人工智能系统会根据其预设的目标(输出),处理输入的DIKWP内容,通过学习和适应,使其输出趋近于预设的目标。

    这五个概念构成了人工智能处理信息的基本框架。在实际操作中,人工智能系统需要根据输入的数据,提取信息,构建知识,形成智慧,最后实现预设的意图。这是一个不断循环的过程,人工智能系统在这个过程中会不断学习、适应和进化,以更好地处理问题和实现预设的...

  • DIKWP(数据、信息、知识、智慧、意图)模型如何在人工意识和人脑处理中找到对应关系。

    在这个上下文中,这五个阶段可以与人类或人工意识的认知、学习和决策过程相映射:

    数据:这是对应认知过程中的“相同”语义的概念。人工意识(或人脑)从环境中收集数据,通过识别相同性,将相似的实体归纳为一个概念。对应到人脑的功能,这可以被视为初级感觉处理和感知,如视觉识别或听觉处理。

    信息:信息对应于认知过程中的“不同”语义的概念。人工意识(或人脑)通过识别和理解数据中的差异,将其归类为不同的信息。这对应于人脑的进一步感知处理和注意力指向,包括注意到不同的特征,区分和识别对象等。

    知识:知识对应于认知过程中的“完整”语义的概念。人工意识(或人脑)通过观察和学习,抽象出完整的概念或模式。这对应于人脑的学习和记忆过程,如通过学习和经验积累知识,理解和记住规则和模式。

    智慧:智慧对应于认知过程中的伦理、道德、人性等高级概念。人工意识(或人脑)整合这些信息,并运用它们来指导决策。这对应于人脑的高级认知功能,包括思考、反思、道德判断、计划和决策等。

    意图:意图是一个二元组(输入,输出),包含了DIKWP的内容。人工意识(或人脑)通过处理输入,使输出趋近于预设的目标。这对应于人脑的动机和意愿,包括设定目标,做出决策,执行动作等。

    因此,DIKWP模型可以被看作是人类认知过程的一种形象描述,也可以被用作设计和理解人工意识系统的框架。在实现人工意识的过程中,理解和模拟人脑如何处理数据、信息、知识、智慧和意图的过程是非常重要的。




https://blog.sciencenet.cn/blog-3429562-1404008.html

上一篇:DIKWP数字经济学12链之机器学习链: 数据学习-信息学习-知识学习-智慧学习-意图学习
下一篇:基于DIKWP模型的数据资产化探究:定义、挑战与前景
收藏 IP: 59.50.85.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-25 14:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部