YucongDuan的个人博客分享 http://blog.sciencenet.cn/u/YucongDuan

博文

面向DIKW图谱的AI治理技术化方法研究(指导的2022年5月硕士毕业论文旧版)

已有 3453 次阅读 2022-12-30 11:06 |系统分类:论文交流

Research on AI governance technicalization method for DIKW graph




  

   目:    面向DIKW图谱AI治理技术化方法研究     

   者:       雷羽潇(Yuxiao Lei)     

指导教师:             段玉聪(Yucong Duan) 齐琦     

   业:            计算机科学与技术    

   间:                    

 

 

 

Research on AI governance technicalization method for DIKW graph

 

A Thesis

Submitted in Partial Fulfillment of the Requirement

For the Master Degree in Engineering

 

 

By

Lei Yuxiao

 

 

 

 

 

 

 

 

 

Supervisor: Yucong DuanQi qi 

Major: Computer Science and Technology

Submitted time: May, 2022

 

 

海南大学学位论文原创性声明和使用授权说明

 

原创性声明

本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律结果由本人承担。

 

论文作者签名: 日期:

 

 

 

学位论文版权使用授权说明

 

本人完全了解海南大学关于收集、保存、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以为存在馆际合作关系兄弟高校用户提供文献传递服务和交换服务。本人授权海南大学可以将本学位论文的全部或部分内容编入有关数据库进行检

索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密论文在解密后遵守此规定。

 

论文作者签名: 导师签名:

日期: 日期:

 

 

 

………………………………………………………………………………………

 

本人已经认真阅读CALIS 高校学位论文全文数据库发布章程”,同意将本人的学位论文提交CALIS 高校学位论文全文数据库中全文发布,并可按“章程” 中规定享受相关权益。同意论文提交后滞后:半年;一年;R二年发布

 

 

论文作者签名: 导师签名:

日期: 日期:

 

 

摘要

现如今,人工智能系统已经在各个领域得到了广泛应用并取得了诸多成就但是算法偏差、歧视性决策结果、隐私资源泄露等等问题也随之而产生导致对互联网用户的公平性、安全性、自主性权利的损害。同时,关于人工智能系统的使用与治理的相关法律还处于刚刚出台后的适应期,在实际应用过程中的技术化程度处于较低水平随着互联网技术发展革新的速度越来越快,社会个体发展理解、吸收、整合和治理互联网技术的能力却进展缓慢。面对数量众多的互联网数字资源,人工智能系统“技术越界”现象的频频发生,引发了对于人工智能道德和伦理问题上的争议如何在人工智能技术下对其实行行之有效的网络治理是当今互联网世界的一次重大挑战。

在本文中,基于DIKW图谱技术对互联网中交互行为所产生的资源进行融合建模由建模得到的数据图谱、信息图谱、知识图谱共同组成DIKW图谱。人工智能系统根据建模所得内容对决策过程的参与方权利与责任和决策资源分配做出细化规定。主要内容如下:

(1) 建立意图模型和价值模型在意图模型中划分资源流通过程不同参与方的意图体系树,基于细化后的意图进行精准的决策处理。价值模型包括公平性的四项基本原则,安全性的人身安全与财产安全两种类型,以及对参与方在人工智能决策过程中自主选择权和控制权的保证。

(2) 对人工智能自动化决策过程中资源在不同参与方之间流通过程进行建模,资源的流动包括资源采集、资源建模、意图识别和资源传输四个阶段。在本文中,基于《中华人民共和国个人信息保护法》中的部分内容,规范人工智能系统在自动化决策的资源采集、存储和建模和意图识别获取等过程中的行为。在意图识别环节中,建立意图模型和价值模型的基本结构体系。在资源传输阶段,AI系统根据划分完成的意图体系树对传输资源进行处理,并在已建立完成的价值模型的要求下,从安全性、公平性、自主性三个价值角度,在有必要的情况下对传输资源进行匿名化处理。匿名化处理的方法包括数据、信息、知识和群体四种不同的类型

(3) 以新冠肺炎期间密切接触者的流行病学调查和后续隔离期间的资源分配为例,对人工智能系统的治理技术化框架进行仿真模拟

 

关键词:DIKW图谱技术、人工智能治理、意图模型、价值模型、资源流通


Abstract

Nowadays, artificial intelligence systems have been widely used in various fields and have made many achievements, however, problems such as algorithm bias, discriminatory decision results, and leakage of privacy resources also arise, leading to damage to the fairness, security, and autonomy rights of Internet users. At the same time, laws related to the use and governance of artificial intelligence systems is still in the period of adaptation after its introduction, and the degree of technicalization in the process of practical application is at a low level. The frequent occurrence of the phenomenon of "technology overstepping" by artificial intelligence systems in the face of a large number of digital resources on the Internet, which has led to controversies over the moral and ethical issues of artificial intelligence systems. How to implement effective network governance under AI technology is a major challenge in today's Internet world.

In this paper, based on DIKW graph technology, the resources generated by the interaction in the Internet are fused and modeled, and the data graph, information graph, and knowledge graph obtained from the modeling together form the DIKW graph. The artificial intelligence system makes detailed provisions for the rights and responsibilities of the participants in the decision-making process and the allocation of decision-making resources based on the content obtained from modeling. The main elements are as follows:

(1) Establishing an purpose model and a value model, the purpose is used to divide the purpose system trees of different participants in the resource circulation process, and making accurate decision processing based on the refined purpose The value model includes the four basic principles of fairness, the two types of personal safety and property safety of security, and the guarantee of the participants' autonomous choice and control in the decision-making process of artificial intelligence system.

(2) Modeling the circulation of resources between different participants in the automated decision-making process of artificial intelligence system, the circulation of resources includes four stages of resource collection, resource modeling, purpose identification and resource transmission. Based on part of Personal Information Protection Law of the People's Republic of China, in this paper, the behavior of artificial intelligence system in the process of resource collection, storage and modeling is regulated. In the process of purpose identification, the basic structural system of intention model and value model is established. In the process of resource transmission, the artificial intelligence system processes the transmitted resources according to the divided purpose trees, and anonymizes the transmitted resources if necessary from the three values of security, fairness and autonomy under the requirements of the established value model. The methods of anonymization include different type of data, information, knowledge and group.  

(3) Simulation of a technologized framework for the governance of artificial intelligence system, using the epidemiological investigation of close contacts during a new coronary pneumonia and the subsequent resource allocation during isolation as an example.

Keywords: DIKW mapping technology, artificial intelligence governance, purpose model, value model, resource circulation

 


目录

1. 绪论

1.1. 研究背景及意义

1.2. 国内外研究现状

1.2.1. 数字足迹资源的应用与治理研究

1.2.2. 人工智能系统的自动化决策研究现状

1.2.3. DIKW图谱技术的国内外研究

1.2.4. 意图模型和价值模型的国内外研究

1.3. 本文主要研究内容、关键技术及目标

1.3.1. 研究内容

1.3.2. 研究的挑战与问题

1.3.3. 研究目标

1.4. 论文组织结构

1.5. 本章小结

2. 相关技术研究综述

2.1. DIKW图谱技术

2.1.1. 数字资源的结构定义

2.1.2. 数据类型资源的类型与定义

2.1.3. 信息类型资源的结构与定义

2.1.4. 知识类型资源的结构与定义

2.2. 资源质量属性的定义与计算

2.2.1. 资源熵定义

2.2.2. 资源确定性定义

2.2.3. 资源精确度和资源模糊度定义

2.2.4. 资源有效性定义

2.2.5. 资源隐私性与敏感性定义

2.3. 本章小结

3. 意图模型与价值模型的建立

3.1. 意图模型建立

3.1.1. 参与方意图分类

3.1.2. 参与方意图与共识机制

3.2. 价值模型建立

3.2.1. 公平性定义

3.2.2. 安全性定义

3.2.3. 自主性定义

3.3. 本章小结

4. 资源的流通过程建模

4.1. 资源采集过程建模

4.1.1. 采集资源类型

4.1.2. 资源采集方法

4.2. 资源建模存储过程建模

4.2.1. 资源的概念化

4.2.2. 资源的存储

4.3. 意图获取过程建模

4.3.1. 意图优先级排序

4.3.2. 意图审查

4.3.3. 隐藏意图的识别

4.4. 资源传输过程建模

4.4.1. 资源传输过程的资源转换

4.4.2. 传输过程中对资源的处理

4.4.3. 资源在不同参与方之间的流通传输

4.5. 本章小结

5. 新冠肺炎疫情期间AI管理系统的自动化决策过程及方案设计

5.1. 意图模型的建立与资源采集过程

5.1.1. 意图模型的建立

5.1.2. 基于意图体系树的资源采集

5.2. DIKW图谱建模实例

5.2.1. 资源的概念化

5.2.2. 特殊需求人群DIKW图谱的建立

5.3. 用户意图模型的建立与价值模型的应用

5.3.1. 意图模型的建立

5.3.2. 价值模型的建立

5.3.3. 基于价值模型的管理人员选择方案设计

5.4. 本章小结

6. 总结与展望

参考文献

攻读硕士学位期间取得的学术成果

致谢

 


1. 绪论

本文的绪论部分主要包括了此项研究的背景及意义,国内外对研究所涉及到的数字资源、人工智能系统的自动化决策、DIKW图谱技术、意图模型、价值模型等方面的研究现状和已有成果,以及本文主要的研究内容方法、研究过程中可能需要面对的问题和挑战、最终的研究目标等。

1.1. 研究背景及意义

自互联网诞生以来,信息技术的不断进步改变了信息在社会中的传播方式和在线互动的后果,用户与互联网之间的每一次交互,都导致数字足迹资源(Golder et al,. 2014)产生,例如鼠标的点击,键盘的输入,网页的浏览等,数字足迹这一术语不仅适用于个人,也适用企业、组织或公司。数字足迹资源具有高度利用价值(Blumenstock, 2016),为人工智能、大数据、物联网等新兴技术的发展与兴起提供了基础条件(Wu, 2004; Snijders et al., 2012; Mahdavinejad et al., 2018)

数字足迹资源在互联网上大量产生并得到了各个利益相关方大量应用,以Social Networking Services(SNS社区)为例,一项调查(Ball et al., 2015)显示,在SNS社区平台中,87%的用户确认了自己的工作和学历教育水平,84%的人确认了自己的完整出生日期,78%的人确认了自己的所在位置,23%的人确认登记了自己的真实的电话号码。这些数字资源有利于营销人员对用户进行画像(Wyner, 2018),精准定位用户感兴趣的产品,或是激发用户对特定产品的兴趣,从而进行产品的推广销售。

而在数字资源被广泛应用的过程中,各种问题也层出不穷,其中最首当其冲的便是互联网隐私问题(Valentino-DeVries, 2018)。由于数字资源彼此之间存在联系,其他个体可以通过推理、演绎等各种方式可以在资源所有个体不知情的情况下推断出关联资源(Kosinski et al., 2013),从而引发隐私风险。一项研究(Mao et al., 2011)表明,用户在互联网平台上的假期计划推文醉酒状态推文和医疗疾病状况推文分别存在引起不法分子、执法机关和保险公司的注意的可能。

与之对应的是,许多用户缺乏对个人资源共享所带来的风险的正确认识,用户通常不会考虑自己发布推文的后果(Wang et al., 2011)并且认为有意识的资源隐私保护会造成他们对于互联网的访问的不便(Chipperfield et al., 2010)根据世界银行2018年的一份报告(World Bank, 2018)显示,38%接受调查的用户表示愿意通过共享个人数字资源来换取降低成本和个性化等好处

面对数字资源数量激增所导致的问题,人工智能系统的自动化决策曾被寄希望于在互联网的数字资源的处理使用中保护隐私安全(Almada et al., 2020)。人工智能系统的自动化决策在面对平均每40个月翻一番,每天增加2.5千亿字节的资源数量(Hilbert et al., 2011),能够有效地提高决策效率和节约决策成本(Araujo et al., 2020)。同时,Ferguson(Ferguson, 2014)认为自动化决策系统通过纯技术手段进行运转,一定程度上排除了人工参与的决策,能够快速,便捷,准确度高地完成决策工作,弥补由于人类个体的无知、偏见、武断所造成的决策错误。

然而事实上,人工智能系统与人类个体一样容易出现偏见和不确定性错误(Citron, 2007)算法中的技术偏见普遍存在(Bozdag, 2013),首先是人类社会预先存在的社会偏见会导致人工智能系统的设计偏见,技术限制会导致算法技术偏见,系统的操作和使用过程中也会产生紧急状况偏见。因此在社交平台上,歧视性算法所导致的群体偏见普遍存在(Rosino, 2019),这些算法中无意识的歧视性导致了针对不同群体的隐私保护差异性(Eubanks, 2018)隐私保护制度无法保护其目标人群中的弱势群体,在算法道德上引发了许多争议(Mittelstadt et al., 2016)

面对这种情况,Taddeo(Taddeo et al., 2018)提出,AI系统的自动化决策技术需要监管和明确的治理框架,才能降低决策错误的风险,发挥出人工智能技术应有的潜力。2021111日起,《中华人民共和国个人信息保护法》正式开始施行。《中华人民共和国个人信息保护法》为人工智能系统自动化决策算法设立了的基本框架(张凌寒, 2021),划定了AI系统的自动化决策在平台经济和数字政府等方面运行的合法边界,同时增加系统平台的规定义务、设置了初步的监管框架、将对未来数字经济产业发展将产生深远影响。

本文依托《中华人民共和国个人信息保护法》中的部分内容,基于DIKW图谱技术,构建了一个跨资源模态融合的AI治理技术化框架。DIKW是数据(Data, D)、信息(Information, I)、知识(Knowledge, K)和智慧(Wisdom)的简称DIKW体系可展现为数据、信息、知识、智慧金字塔的形式,又被称为DIKW层次(Rowley, 2007)资源决策过程中的参与方包括提出决策意图的访问者、受决策意图影响的用户和负责管理运行的系统方,三个参与方在采集、存储、获取和传输四个环节中的权责内容储存在知识规则图谱中,AI系统负责管理和监督参与方的行为按照知识规则的要求进行。知识规则图谱的建立考虑了公平性、安全性、自主性等不同的价值角度,价值内容构成了自动化决策中的价值模型。同时,AI系统知识规则图谱和价值模型初步构建完成之后设立反馈机制,根据实际应用中的输出结果反馈情况进行系统性优化。

1.2. 国内外研究现状

1.2.1. 数字足迹资源的应用与治理研究

无论是人类还是机器个体与互联网之间的交互行为,都将无法避免的导致数字足迹资源的产生。数字资源将个人的私人心理领域暴露于社会领域(Latour, 2007),让其他个体可以从心理学的角度对用户个体的性格进行深度刻画。Wang(Wang et al., 1996)选择了从消费者处收集有关数据质量的研究样本,代替基于理论研究或研究人员的经验来定义数据的传统。该研究为衡量数据质量的研究提供了基础,改进了以往数据研究只关注数据准确性的现象。数字足迹资源因此在不同领域得到了应用,不仅在招聘工作中帮助雇主用更少的时间和精力去获得求职信或简历以外的资源(Broughton et al., 2013),核实求职信或简历中的内容、评估申请人是否适合公司同时还能获得求职者在简历内容和面试问答内容之外更多的相关资源,增进对求职者的了解(Berkelaar, 2014)

除此之外,数字足迹资源在旅游行业同样得到了广泛应用(妍妍, 2014),旅游营销人员已经认识到社交媒体上的数字足迹资源对资源传输、放大和定位具有巨大潜力,通过将消费者的数字足迹资源转变为品牌宣传内容以及具有网络影响力的人造势,能够增加扩大影响力,达到事半功倍的旅游宣传效果(Gretzel, 2018)

但同时,有关数字足迹资源的三个谬论的研究也被提出,该研究(Lewis, 2015)认为数字资源不具有完全代表性,只是某个网站或服务提供商的特定用户群在特定时间段内的交互行为所产生的特定内容。互联网广告商们基于这种单一平台数字资源的人口普查和分析不具有足够的代表性(Cesare, 2018),容易导致了算法对于不同类型人群的偏见性和普查分析结果的不确定性。

1.2.2. 人工智能系统的自动化决策研究现状

人工智能系统的自动化决策技术在各种不同的领域得到了广泛应用,在医学方面,自动化决策系统在大量数字资源和深度学习技术的支持下,取得了患者胸部X光片医疗解释邻域的显著突破(Seah et al., 2021),加强了放射科医生对患者病情的准确性解读。在工业领域,自动化决策系统通过管理智能无人搬运车来替代传统叉车进行货物搬运作业(房殿军等, 2017),提高了仓库工作的效率。

但同时,自动化决策也带来了社会风险,导致了人们对决策系统的不信任。英国曾引进过电子健康系统(Fadahunsi et al., 2019),为患者的诊断、治疗和术后康复等相关的决策提供相关医疗资源,但其发展过程中不可避免的产生资源遗漏、错误、偏差等问题。另有研究(Han et al., 2005)表明,计算机化医嘱输入(CPOE)系统在医疗诊断过程中的使用通常伴随着患者死亡率意外性地增加,在研究人员多次调整其他死亡率协变量后,CPOE仍然与死亡率增加的几率独立相关。诸如此类的这些问题导致人们对自动化决策系统中质量较差的资源可能会造成的社会安全风险的担忧。

面对此类人工智能自动化决策的风险带来的社会风险,吴汉东(吴汉东, 2017)认为系统预防性行为和因应性制度应该被用于从安全伦理技术与法律角度,来降低人工智能引发的现代性的负面影响。贾开等(贾开等, 2017)则认为通过明确治理算法、创新社会治理制度和构建人工智能全球治理机制,可在治理“创新”和治理“安全”之间达成平衡,提供更综合有效的治理路径。Mosier(Mosier et al., 2018)提出将算法设计问题与人类心理相结合,在人类决策者和自动化决策辅助工具之间建立牢固的关系。基于道德的审计(Mökander et al., 2021)作为一种具有可行性和有效性的自动化决策治理机制,可被用于防范和管理自动化决策系统导致的道德风险

关于由人工智能的发展衍生出了代替人类工作的智能机器人权利,张玉洁(张玉洁, 2017)表明唯有明确机器人权利的边界及法律保留事项、加强法律与机器人伦理规范的衔接、建立机器人监管机制,才能引导人机关系正常化、法治化的健康发展。

随着AI系统的算法预测性逐步增强,为了保护用户个体的隐私安全和发展平等权,既需要从源头治理,规范数字资源收集和利用,又需要加强审核、监管工作,通过立法确立侵权责任机制(孙建丽, 2019),防范、惩戒算法侵犯个体权利的行为。而当人工智能系统被应用在刑事司法中时,设定人工智能系统的应用场景和应用负面清单和完善人工智能应用的审核和责任追究机制(李训虎, 2021)有利于促进刑事司法系统在AI治理下的公平性和效率。

1.2.3. DIKW图谱技术的国内外研究

DIKW是数据、信息、知识和智慧层次体系的简称,具有悠久的发展应用历史(Boulding, 1955)1987年,Zeleny(Zeleny, 1987)DIKW层次结构的元素映射为一无所知、知道是什么、某一种专有技术和知道为什么四种层次,奠定了DIKW体系的雏形。叶继元等(叶继元等, 2017)DIKW的概念链模式应用于探讨数据与信息之间的关系,在图书情报学、信息管理学等方面发挥了重大作用。在人工智能治理方面,黄璜(黄璜, 2018)DIKW体系应用于数字政府的管理系统中,通过对数据、信息、知识三类基础概念及其彼此之间关系的定义来构建数字政府治理的理论框架。

数字知识图谱则是使用图结构或拓扑结构的数据模型或来整合数据的知识库(McCusker, 2018),通常用于存储对实体以及实体之间相互关联的描述定义,包括对象、事件、情况或抽象概念。谷歌(Vang, 2013)曾推出了自己的知识图谱,作为基于字符串搜索功能的补充知识图谱有丰富的自然语义,但是在表达机制接近于自然语言,缺乏一个统一的知识图谱定义和标准的表达形式,Duan(Duan et al., 2017a)将知识图谱的表达方式以数据、信息、知识和智慧的渐进DIKW基本形式作为一个明确的整体,从DIKW四个方面对于资源的类型进行阐明和解读。并规定了从数据、信息、知识三大类型化资源之间,以及由他们所构成的数据图谱、信息图谱、知识图谱之间的相互转换的方法类型(Duan et al., 2017b)

DIKW图谱构建和应用过程中,Duan(Duan et al., 2018)提出对DIKW的元素进行形式化,将内容对象和关系以统一的标准分类为类型化的DIKW内容。通过关系或语义(Duan et al, 2019a)揭示了概念化过程中关系和实体之间的差异,作为后续工作中区分数据资源和信息资源类型的基础。Song(Song et al., 2018)提出了一种在雾计算中具有同步存储和计算适应性的类型化资源的处理优化机制基于无线网络中的数据、信息、知识的三层架构,能够最小化网络、计算和存储的处理成本,同时以商业价值驱动的方式最大化处理性能

DIKW图谱技术在隐私保护方面效果卓著,Duan(Duan et al., 2019b)根据数据和信息在DIKW架构建模搜索空间中的存在程度,将目标隐私资源分为显式和隐式两类,并提出了基于显式和隐式划分的类型化数据隐私目标保护方案DIKW图谱技术还支持通过计算在不同类型数字资源转换过程中的代价以及转换后的搜索代价的差异基础上,设计并提供以价值为导向的数字资源安全服务(段玉聪等, 2019)

1.2.4. 意图模型和价值模型的国内外研究

从古至今,法律文书都对过失行为与故意行为做出了明确定义区分(陈磊, 2014)。故意行为的一大特征就是行为背后隐藏的意图,意图是人们意识行为背后的五个需要要素(Malle et al., 1997)之一五要素分别是对结果的渴望对导致该结果的行动的信念执行该动作的意图执行动作的技能以及在执行动作时实现意图的意识

智能互联网时代人工智能的出现引领了一场在法律价值、关系和行为上的革新,法学理论司法规范制度面对这崭新的局面急需一次升级转型(马长山, 2018)。智能互联网作为一个人机混合体(陈钟, 2017),提供人机交互服务的互联网平台系统一个具有社会性质的存在,需要确定制度规范用于进行系统的管理。因此,郑戈(郑戈, 2017)提出,在人工智能对个体的影响被广泛普及之前设立由人工智能相关领域专家和法律职业人士共同组成的人工智能伦理委员会或“人工智能法院”,风险防范的角度来处理可能存在问题。

对于如何做到人工智能系统在自动化决策过程中的价值保证,丁晓东(丁晓东, 2017)认为人工智能系统所运行的算法中便已经隐含了价值判断的因素,因此算法无法做到自身的完全中立。在公平性价值方面,Jalali(Jalali et al., 2020)提出了资源公平标准,用于衡量资源是否公平地传播到网络中的所有群体,并表明向网络添加边可以减少资源流通中的不公平性。Lan(Lan et al., 2010)提出了在资源分配实施公平措施的五个公理,并构建了一系列满足公理的公平度量。在有关智慧城市与物联网安全性的研究应用(Elmaghraby et al., 2014)中,AI系统可通过资源的收集和分析,在需要时触发紧急响应来保护用户的个体安全。

近些年,具有针对性的算法偏见逐渐得到了法律框架内的解决,各个国家和地区纷纷开始制定关于算法偏见和AI治理的法律条例,例如欧盟的通用数据保护条例(Voigt et al., 2017)规定管理者应使用适当的程序或措施来防止因种族、政治观点、宗教信仰、工会成员、遗传健康状况或性取向等对自然人产生歧视性的影响和措施。美国则发布了《国家人工智能研发战略规划》(National Science and Technology Council (US), 2016),用于指导政策制定者对算法的偏见性进行批判性评估。

在先前的工作中,Lei等从隐私资源与隐私价值、隐私权与隐私资源流通、隐私保护与风险评估机制等方面,构建了一个跨模态的AI治理的隐私保护法律技术化框架(Lei et al., 2021)。通过设计不同类型的资源匿名方法和搭建风险评估体系,能够有效的保证隐私资源的低风险传输(雷羽潇, 2021)。除此之外,数字资源结合自我构建理论与自我需求理论,可计算用户的性格指数,并根据性格资源设计用户性格转换方法(雷羽潇, 2020)

1.3. 本文主要研究内容、关键技术及目标

1.3.1. 研究内容

本文在人工智能自动化决策的基础上,通过意图模型和价值模型对AI系统在决策过程中的行为进行指导和约束。并利用DIKW图谱体系对决策过程中所涉及到的资源进行归纳和整理,降低决策搜索成本,保护隐私安全,降低资源泄露的风险。本论文的主要研究内容如下:

(1) 定义数据、信息、知识三种类型的资源,将AI系统采集得到的资源进行形式化处理,根据不同的属性对资源进行分类,以语义实体对象为点,语义关系为边建立基础DIKW图谱。梳理数据资源、信息资源与知识资源三者之间的转换关系,并设立不同类型资源的语义表达形式和标识符号。

(2) 构建意图模型基本框架,根据已建立的参与方DIKW图谱确定参与方的意图优先级。另外,将AI系统决策处理所参照的主意图精细化为多个层次,构建多层意图树体系,并针对不同的子意图制定精细化的决策方案。

(3) 构建AI系统自动化决策过程中的价值模型,价值模型的内容涵盖两部分,一是法律部分,以《中华人民共和国个人信息保护法》中的部分内容为基础,对人工智能系统在资源的采集、存储建模、意图识别、转换传输以及其他决策过程中的行为做出了明确的要求;二是道德价值部分,人工智能系统需要保证决策参与方在决策过程中的公平性、安全性和自主性。

(4) 建立资源流通传输模型,数字资源在决策过程中需要经过资源采集、资源建模、意图获取和资源流通四个环节。明确每一个参与方在事件决策处理过程的不同环节所具有的不同权责要求并对意图优先级进行排序。AI系统在决策过程中,将在遵循意图优先级的前提下,通过平衡参与方意图来达到符合意图模型和价值模型共同要求的决策结果。

(5) 在隐私保护和资源处理方面,AI系统看通过数据、信息、知识三种不同类型的资源匿名法,对传输决策的资源进行匿名化处理,实现对隐私型资源和敏感型资源的保护和有限使用,将资源使用安全风险降到最低,同时以最小的资源量来完成参与方的意图,降低资源流通的过程中的传输成本。

1.3.2. 研究的挑战与问题

本文的工作内容包括将数字资源进行类型化、概念化的分类,完成DIKW图谱、意图模型和价值模型的建立,以及在资源流通的各个环节中对不同参与方的权利与责任进行划分与确定。本研究所面临的挑战与问题主要包括如下:

(1) DIKW图谱的建立过程中,AI系统如何对多种类型的资源进行区分和标记;如何从资源熵、确定性、精确度、及时性、敏感性等不同的角度对数字资源在AI系统决策过程中的应用进行标准化的规定。

(2) 在意图模型的建立过程中,AI系统如何对主意图和子意图进行类型划分;意图体系树如何搭建,资源流通过程中提出意图的访问者、受意图影响的用户和管理意图的AI系统等参与方之间的意图优先级如何排序,影响参与方意图优先级排序的因素有哪些,以及如何将意图体系其纳入DIKW图谱体系中。

(3) 在价值模型的建立过程中,如何度量计算不同的价值属性,如何实现对资源流通中不同参与方的公平性、安全性、自主性的保证。

(4) 在资源流通的各个环节中,如何划分不同参与方的权利和责任要求,如何做到在决策满足知识规则和参与方意图要求的同时,做到价值模型所要求的隐私资源保护和价值保护。

1.3.3. 研究目标

本论文基于DIKW图谱技术,以意图模型和价值模型为基础,对AI系统在自动化决策过程中的行为做出限制,意在可能的纠正算法偏差,同时做到决策结果准确和负面影响最小化。本文具体研究目标如下:

(1) 将采集得到的离散原始资源按照DIKW体系结构的进行资源归类,以语义对象和语义关系两个基本结构为基础建立DIKW图谱网络,包括数据图谱、信息图谱、知识图谱。并为不同类型数字资源设立用于区分的表达形式独立的标识符号,降低AI系统搜索的难度和代价。

(2) 建立价值模型度量体系,对将公平性、安全性和自主性的标准进行量化度量,并纳入指导AI系统行为的知识性规则。以及在决策完成之后对决策结果进行公平、安全和自主性的验证和评价。

(3) 在意图体系树的建立过程中,将主意图细化分为多个子意图,扩大意图树的广度和深度。并对划分完成后的子意图进行精确的决策资源点对点供给,提高决策资源使用效率,降低由于资源泄露或在决策过程中另做他用所造成的负面影响。

1.4. 论文组织结构

本论文的组织结构如下:

第一章是绪论,主要介绍了数字足迹资源、人工智能决策系统、DIKW图谱技术在互联网时代的应用过程中所取得的成就和发展过程中碰到的问题等发展现状。叙述了本文主要的研究内容、关键技术和研究目标。

第二章主要是关于DIKW图谱技术的相关研究,讲述了五种不同类型的数据资源、两种不同类型的信息资源和三种不同类型的知识资源的不同定义和表达形式结构、以及资源的不同属性标签。

第三章是意图模型和价值模型的建立,意图模型是对不同参与方意图在决策过程中优先级的明确划分。价值模型的存在则是对人工系统的自动化决策过程中用户公平性、安全性和自主性的保证。

第四章搭建了资源流通环节的过程框架,包括资源的采集、资源的存储与建模、意图的识别与获取和资源的处理与传输。在传输过程当中,AI系统既有义务保证对资源流通在法律允许的框架下顺利进行,又需要根据价值模型,保证受决策影响的用户的公平性、安全性和自主性。

第五章是以新冠肺炎期间密切解除者资源的采集、建模和管理人员选派等等决策事件来模拟仿真AI系统的决策管理工作。

本文的主要结构与主要内容如图1所示:

 

1 文章结构与主要内容

Fig.1 Article structure and main content

1.5. 本章小结

本章首先介绍了关于面向DIKW图谱的AI治理技术化方法研究的研究背景和研究意义,包括数字资源的发展和存在的问题,以及已被用于解决问题的方法;其次阐述了国内外与对该研究相关的DIKW体系、数字资源的使用、人工智能系统的自动化决策以及意图模型和价值模型的的研究现况以及存在的问题;并在最后对文章的研究内容、关键技术、挑战与问题以及研究目标做了进一步的介绍。

2. 
相关技术研究综述

本章是关于DIKW图谱技术的综述,包括数字资源的来源、数字资源的结构,以及在DIKW体系下对数字资源的分类,包括五种类型的数字资源,两种类型的信息资源,三种类型的知识资源,以及不同类型资源所具有的各种属性的定义。  

2.1. DIKW图谱技术

在新型冠状肺炎疫情防控期间,互联网上数量众多的数字足迹资源可被用于流行病学调查和疫情防控分析。数字足迹资源(ResourceRSC)可分为主动类资源和被动类资源(Madden et al., 2007),主动类资源由用户故意发布以在网站或社交媒体上共享资源组成,即用户生成内容(User-generated content, UGC)(Berthon et al., 2015),如用户发布的文章、笔记和填写的流调表格等。被动类资源则由用户与互联网系统平台的浏览、点击、上传、下载等交互行为产生,如用户的行动轨迹、购买记录等。

RSC提取自以上来源中已确认的客观存在RSCconfirmedRSCconfirmed根据是非语义概念可分为肯定项语义存在RSC和否定项语义存在NonRSC根据主客观存在概念可分为客观事实存在RSCobjective和主观概念存在RSCconceptual,如式(1)其中,RSCobjective可映射至逻辑值True/FalseRSCconceptual则与不同的观察者个体对语义对象的主观评价Yes/No”有关

RSCobjective=1()密切接触者”

NonRSCobjective=1(不是)密切接触者”

RSCconceptual=1()会遵守隔离规则的人”

NonRSCconceptual(Null)=1(不是)会遵守隔离规则的人”


(1)


(2)


(3)

NonRSC是以否定语义存在的RSC,包括NullInconsistobjective两种形式,如式(2)所示。Null是对不存在的事物的表述,Inconsistobjective则是表达由于外在环境变化而引起的事物前后不一致的状态。将Null映射至RSCobjectiveRSCconceptual两种客观与主观的概念存在得到确认不存在的事物NonRSCconfiremed和事实存在但不被知道或不被认同事物False(RSC),如式(3)

NonRSC(Inconsistobjective)=1号体温(变化)37.3°C~38.1°C

NonRSCconfiremed=1号密切接触者体内为检测到病毒”

False(RSC)=1号密切接触者的个人症状与感受(未告诉他人)”

其中,NonRSCconfiremed属于客观事实存在False(RSC)属于主观概念存在False(RSC)不被他人外在呈现或者感知,但存在于个体自身主观认知。若False(RSC)是因为用户自身的意愿而不被外人知晓时,则该RSC属于隐私类资源。

2.1.1. 数字资源的结构定义

在图论(Trudeau, 2013)中,图(Graph)是一种结构,由若干个节点(Vertex)和边(Edge)构成,将DIKW图谱中的实体语义对象(Object, Ȏ)和对象之间的关系(Relation, Ȓ)映射到图论中的节点与边的结构中,“Ȏ”为DIKW图谱结构中的节点、“Ȓ”为DIKW图谱结构中的关系边,基于DIKW图谱结构体系的资源库可看成是节点与关系的集合(姚玉斌等, 2011)ȎȒ则作为DIKW图谱结构体系中的最小构成单元而存在。本文中的DIKW图谱体系以Duan2019年的研究(Duan, 2019a)为基础,用关系来定义DIKW图谱结构体系中的一切语义。

DIKW图谱体系结构中,“Ȏ”可离散独立存在,表示具体的实体语义对象或语义属性,“Ȓ”则在表达形式上将离散的“Ȏ”连接,语义上阐述二者之间的关系,如属性、意图、原因等等,不可独立于Ȏ而存在。DIKW图谱上资源最常见的结构是三段式ȎȒȎ结构,例如“实体—属性—属性值(object-attribute-value)”或是“实体—关系—实体(object-relation-object)”,以及其他少量的ȎȒȎȎ结构。同时,~”表示ȎȒȎȎ之间的弱连接,即基于需求而产生的的暂时性连接,用”表示ȎȒ基础形式之间的强连接,即固有连接。

DIKW图谱上的数字资源可根据构成属性分为数据类型资源(Data, DAT),信息类型资源(Information, INF)和知识类型资源(Knowledge, KNG),三种类型的数字资源都可用ȎȒ基础结构表示。数据是数字资源的最基本类型,意图驱动数据则生成信息,满足了决策事件确定性要求的数据或信息则生成了不同类型的知识。DIKW图谱是一个整体概念,根据所包含的数字资源的不同可进行图谱分层,包括只含有DAT数据图谱(Data Graph, GDAT)只含有INF信息图谱(Information Graph, GINF)、只含有KNG知识图谱(Knowledge Graph, GKNG)

DIKW体系的组成元素除了上述的DATINFKNG之外,还包括驱动ȎȒ彼此连接并向外拓展意图(PurposePUP)。表1展示了DATINFKNGPUP这四类DIKW组成元素的表达形式。意图是人类心理的一种表现形式(Sheeran, 2022),对人类的行为有着深远的影响,Astington(Astington, 1993)建立了从人类欲望到意图到行为到结果的意向链PUP将驱动ȒȎ之间的连接表达,得到数字资源类型中最常见的三段式ȎȒȎ结构,共同构成以某个Ȏ为中心的DIKW图谱,记为Graph(Ȏ)

同时,DIKW图谱在构建过程对表达同一个Ȏ的同类型DAT进行合并处理,语义相同的DATDIKW图谱上只占据两个Ȏ存储空间,分别用于储存主体DAT和记录DAT被采集频次的属性值DAT.count。如图2所示是由DAT1DAT2两项数据在意图<人数统计>这一PUP的驱动下组合表达的新信息资源,DAT1DAT2来自某次全市核酸检测活动的数据图谱GDAT(XX市第一轮核酸检测”)DAT1表示检测阴性的核酸检测结果,DAT2表示检测结果为阴性的人数。在PUP的驱动下,同时两项数据之间建立固有强连接“”,生成基础的ȎȒȎ结构信息类型资源INF1。此时,DIKW图谱用仅占三个基础存储空间的内容来避免多余的4671次同类型数据的重复收集。

DAT1, DAT2 from GDAT(XX市第一轮核酸检测”)

PUP=<人数统计>

INF1= DAT1=(“阴性”)    DAT2=(4672人”)

1 DIKW图谱的组成元素的表达形式

Table 1 Expression form of component elements of DIKW graph


数据

Data

信息

Information

知识

Knowledge

意图

Purpose

缩写

DAT

INF

KNG

PUP

图例

 

 

 

 

 

文字形式

(DAT)

INF

KNG

<PUP>

 

2 ȎȒȎ基础结构的生成

Fig.2 The generation of infrastructure object-relation-object

RSC数量经过事件的累积到一定程度,可通过分类的方式(Spary, 1995)来提高检索和使用效率。在先前的工作(雷羽潇, 2020)中,出于根据不同的属性对资源进行分类的目的,构造函数Type子类资源RSCson向上归类,类型化为父类资源RSCfather构造函数ReverseTypeRSCfather向下分类,反类型化为RSCson,如(4)和式(5)所示。(4)和式(5)中的RAB是指类型化与反类型化过程中RSC参考属性(Reference Attributes , RAB),例如流行病毒可按照基因构成、传播指数、对人体的伤害程度不同RAB进行分类。

函数TypeReverseType除了作用于RSC的类型化过程和反类型化过程,还可应用在DATINFKNGPUP,甚至ȎȒ的分类归类过程中,生成如图3所示的父类子类体系树结构(Vegas et al., 2009)结构有利于研究类型对象之间的关系并识别差距。图3中一共包含了五种数据类型资源、两种信息类型资源、三种知识类型资源和意图体系树中主意图与子意图的初级结构。


(4)


(5)

 

3 DIKW图谱的组成元素表达

Fig. 3 Multi-fork tree structure expression of component elements of DIKW graph

2.1.2. 数据类型资源的类型与定义

DAT是最简单的资源形式,每一个离散的RSC都可以被编译为一个DAT。在DIKW图谱上,DAT主要类型由数值型数据(Numeric Data, DATN)、概率型数据(Probabilistic Data, DATP)逻辑型数据(Logic Data, DATL)、集合型数据(Collection Data, DATC)范围型数据(Range Data, DATR)等,不同类型DAT的表示代号、标识符和常见结构如2所展示。

2 数据类型资源的类型、标识符号和常见结构

Table 2 The type, identifier, and common structure of DAT


类型

代号

标识符号

常见结构

DAT

数值型

DATN

数值

Numeric symbol

(Ȏ/Ȏ~Ȏ/Ȏ=Ȏ|数值符、数值符组合)

(Ȏ=Ȓ=Ȏ|数值操作符数值)

(Ȏ=Ȓ=Ȏ|数值连接符文字)

概率型

DATP

表达不确定性的元素

Uncertain element

(Ȏ=Ȏ|object, 不确定语义符)

(Ȏ=Ȓ=Ȏ|object, 不确定语义符, 文字)

逻辑型

DATL

Yes/No

(object, yes/no , value)

集合型

DATC

(object)

范围型

DATR

<PUP>

(<PUP>,(DAT1)~(DAT2))

(1) DATNDATN是指与数值相关的数据资源,如身高、体重、年龄、成绩等。4展示了三种类型的DATN,第一部分为任意类型和数量的数值符号,包括中文、英文、罗马数字和序列数词等等,例如DATN1。第二部分数值Ȏ与非意图Ȓ组合,非意图Ȓ主要表现为计算公式的符号和操作表示符号,两个数值类Ȏ由非意图Ȓ连接起来,例如DATN2。第三部分带有数值语义的文本表达,由数值Ȏ、非数值类Ȏ非意图类Ȓ边组成,例如DATN3

DATN1=(1, 2, 3)

DATN2=(7÷1=1)

DATN3=(Seven books)





4 数值型数据资源的类型


Fig. 4 Types of numeric data resources

(2) DATPDATP具有不确定性的数据资源,基础结构包括ȎȎ”和“ȎȒȎ”。在资源采集和归类的过程中,DIKW图谱通过区分资源中是否含有表示不确定性的元素(Chen et al., 2018)的方式,来判断RSC是否属于DATPȎȎ”结构的DATP拥有一个或多个以Ȏ形式存在的不确定性语义元素,例如DATP1;而在ȎȒȎ”结构的DATP中,不确定性语义元素通常作为Ȓ边而存在,用于连接两个Ȏ,例如DATP2DATP中拥有数值元素的RSC属于DATPDATN相交的部分,定义为数值型概率数据资源DATPN,取值范围在区间[0,1]DATPDATNDATPN的关系如图5所示。

DATP1=(Ȏ≡Ȏ | Attendance rate75%)

DATP2=(Ȏ≡Ȓ≡Ȏ | Dinnerprobablycurry)

(3) DATLDATL由两个Ȏ可用Yes/No”来定义Ȓ组成基础结构为ȎȒȎ”或“ȒȎ。例如DATL1DATL2是关于同一个语义对象A的两项内容身份定义。DATL中的Ȓ不直接表达两个Ȏ之间的关系,DATL在向INFKNG转换的过程中,由于PUP的不同,Ȓ存在多种表达可能性和转换方向

DATL1 = (Ȏ≡Ȓ≡Ȏ | Ayesstudent)

DATL2 = (Ȏ≡Ȓ≡Ȏ | Anoteacher)





5 概率型数据与数值型数据对比


Fig. 5 Comparison of probabilistic data and numerical data

(4) DATCDATC由一个中心Ȏ和多个与Ȏ连接的Ȓ组成,DATC连接的Ȓ边众多,内容丰富,通常以DATC为中心可以建立DIKW图谱Graph(DATC)例如画作Paint1是以Ȏ形式单独存在的DATC,编号为DATC1DATC2~DATC4分别为Paint1的创作者、创作时间创作风格DATC1DATC2DATC3DATC4之间通过固有的Ȓ”相连,生成组合式的新型数据资源

DATC1 = (Ȏ| Paint1)

(DATC1  DATC2 = (Ȏ| Painter1))

(DATC1  DATC3 = (Ȏ| Creative time))

(DATC1  DATC3 = (Ȏ| Creative Style))

(5) DATRDATR是多个Ȏ之间不存在的关联的数据资源集合,是用PUP取代了中心ȎDATCDATR以单个PUP或多个PUP的组合为中心,与信息类型资源不同的地方在于DATRPUP不作为意图Ȓ连接两个Ȏ不直接表示两个语义对象之间的关系DATR中所包含DAT可以是数值型、概率型、逻辑型、集合型或是多种混合型。不同的DAT根据PUP的需求,彼此之间建立弱链接“~”。当集合型中的DAT是表达同一个ȎȒ主体时,可对DAT进行简化合并,如DATR1所示。

DATR1=(<PUP: Coffee Buying>,(nosugar)~(yessugar/pack))

DATR2=(<PUP: Recruitment>,(Majoryesmedicine)~ (Work experienceduration3 year)

2.1.3. 信息类型资源的结构与定义

信息类型资源INF区别与数据类型资源最明显的特征在于INF需要意图PUP存在才会产生。在DIKW图谱的建立过程中,当某个意图PUP产生,将以意图边ȒP的形式被纳入到DIKW图谱中,将目标语义对象Ȏ连接,生成暂时性的ȎȒPȎ结构。DIKW图谱再在合适的情况下将ȒP的内容转化为普通的关系边Ȓ,生成ȎȒȎ结构的信息资源INF(6)定义了两个资源计算符号推导()”结合()”,在DATINF转换的过程中,意图PUP主导了资源转换的方向,不同类型的PUP将与DAT结合将生成不同的INFINF最常见的两个类型是比较型(Comparative information, INFC)和用途型(Usage Information, INFU),二者的表示代号、标识符和常见结构如3所示


(6)

3 信息类型资源的类型、标识符号和常见结构

Table 3 The type, identifier, and common structure of INF


类型

代号

标识符号

常见ȎȒ结构

INF

比较型

INFC

Comparative

(Faster, higher, stronger)

ȎȒȎȒȎ | AcomparativeBcomparativeC

用途型

INFU

for sth(Usage)

ȎȒȎ | sthfor sthdo sth

(1) 比较型信息资源的定义

INFC存在于多个具有相同属性RABȎ之间,通过比较意图关系边ȒP连接,形成暂时的Ȏ~ȒP~Ȏ”结构。如图6所示,DIKW图谱Ȏ按照特定的参考属性RAB进行排序,暂时的Ȏ~ȒP~Ȏ”结构转换为固定的“ȎȒȎ”结构,INFC生成。INFC的结构中包含至少两个比较对象Ȏ和一个比较意图边ȒINFC中的Ȓ总数恒定比Ȏ数量少1INFC中用于比较的Ȏ数量增加,则意图边Ȓ的数量随着增加

INFC =ȎȒȎȒȎ...... | AcomparativeBcomparativeC......

 

6 比较型信息资源表达形式和生成过程

Fig. 5 Expression form and generation process of comparative information resources

 

若在INFC的生成过程中,PUP所包含的比较参考属性RAB不止一个,则多个RAB组成了参考属性集合RABsAI系统在进行DIKW图谱的建立时,根据知识图谱中的相关规定,对RAB采用属性排序法或属性加权法

RABs={RAB1, RAB2, RAB3, ......}

①属性排序法:RAB属性排序法是指根据RABs中已知的RAB优先级顺序决定Ȏ之间序列。当某一项RAB出现数值相等的情况时,顺延至下一个RAB进行比较。

②属性加权法:RAB属性加权法是指根据多个RAB完成PUP贡献度赋予与RAB不同的权重值(Weight, w)根据计算得到的不同Ȏ加权平均属性值RABw 进行大小属性排序,如式(7)


(7)

(2) 用途型信息资源的定义

INFU则由使用意图关系ȒP驱动而形成,基本结构为ȎȒȎ”。INFUDAT中的“实体—关系—实体(object-relation-object)”结构类似,INFU使用意图关系ȒP将两个无关的Ȏ连接起来,在Ȓ边标上usage”作为识别标签同时INFUDATR之间存在区别,在INFU中两个Ȏ建立强连接”。如图7所示,针对同一个Ȏ不同的使用意图PUP将导致不同INFU的生成。

INFU =Ȏ≡Ȓ≡Ȏ | objectfor sth(usage)object

 

7 用途型信息资源的表达形式和生成过程

Fig. 7 Expression form and generation process of usage information resources

2.1.4. 知识类型资源的结构与定义

DIKW图谱的体系结构中,知识资源KNG包括常识性知识(Common Sense KnowledgeKNGC)规则性知识(Rules Knowledge, KNGR)和经验性知识(Experience Knowledge, KNGE)KNGC的确定性为1KNGE的确定性小于1KNGRAI系统处理特定事件或特定的环境下确定性为1KNG不同类型的表示代号、标识符和常见结构如4所示

4 知识类型资源的类型、标识符号和常见结构

Table 4 The type, identifier, and common structure of KNG


类型

代号

标识符号

常见ȎȒ结构

KNG

常识性

KNGC

True/False

ȎȒȎ |object, attribute, value (True/False)

规则性

KNGR

rules

ȎȒȎ |object, rules attribute, value

经验性

KNGE

*

ȎȒȎ |*object, attribute, value

ȎȒȎ |*object, do sth, for sth

(1) 常识性知识定义

常识性知识KNGC的形式数据资源中的DATL类似,DATLYes/No”定义,KNGCTrue/False”定义(Liu et al., 2004)。二者的区别是DATL真假可能随特定语义环境或关联对象的变动而变动,KNGC在普遍语义环境下为真。KNGCȎȒȎ”基础结构与DAT类似,但KNGC具有一个用于识别的标识符号True/False”,如KNGC1KNGC2所示。

KNGC1=ȎȒȎ | Earthshaperound(True)

KNGC2=ȎȒȎ | Sunmovementrise in the west and set in the east(False)

(2) 规则性知识定义

规则性知识KNGR则是从某一个体Ȏ为中心发散,表示仅基于该个体而存在的KNGR。若此个体为决策事件,则KNGR表示在AI系统对其进行决策的过程中需要遵循的行为规则,仅在这一决策过程中有效,如KNGR1KNGR2来自同一个决策事件Event1的知识图谱GKNG(Event1)

若中心实体对象为个人,KNGR表达的是个体所认定的主观概念,涵盖了RSCconceptualFalse(RSC)NonRSCconceptual等。“地球的形状是圆的”这一RSC属于标识符号为“True”的KNGC,但在以人类个体为中心的GKNG上,允许与KNGC语义相斥的KNGR存在,KNGR3来自用户UserA的知识图谱GKNG(UserA),即在用户UserA的个人认知体系中,地球的形状是平的。

DAT=Event1=(Scholarship assessment)

KNGR1, KNGR2 from GKNG(Event1):

KNGR1=Scholarship assessmentrank rules(Event1)grade

KNGR2=Scholarship quotaassign rules(Event1)major

KNGR3 from GKNG(UserA):

KNGR3 =Earthrules(UserA)floor

KNGRȎȒȎ”的基本结构中,以“rules”为标识符号,并作为Ȓ边的规定形式。KNGR如果脱离了单独的认知个体,将失去确定性和使用效力价值。

 

8 知识类型资源的表达形式和生成过程

Fig. 8 Expression form and generation process of knowledge type resources

8展示了规则性知识的生成过程,在<明确奖学金评定规则>这一PUP的驱动下,AI系统中负责DIKW图谱建模工作的模块在GDATGINF中寻找相关的DATINFKNGR是由对应DATINF类资源经过确认推导而来。GDATGINF中的DATINF都具有不确定性,KNGR是在特定环境下赋予了确定性为1DATINFDATINF转换生成KNG的过程如图9所示。

 

9 数据、信息型资源到知识资源的转换过程

Fig. 9 The transformation process from data and information resources to knowledge resources

(3) 经验性知识定义

经验性知识KNGE介于确定性100%KNGC脱离特定环境后确定性更改的KNGR之间,是通过已发生的同类事件的总结,用以预测尚未发生的事件的走向在这一点上,KNGE与数据资源中DATP具有相似性。KNGE的历史由来已久,不只局限于计算机领域,由古代农业生产人员所总结并流传至今的气象谚语(赵义兰, 2006)属于KNGE,无法通过双盲实验却能在实际应用中取得治疗效果的一部分中医药学(吴嘉瑞等, 2014)也属于KNGE,如今计算机科学领域人工神经网络的特征学习(Bengio et al., 2013)更是属于KNGE应用最广泛的一个领域。KNGE具有确定性无限接近于1但小于1的特性,在文字表达形式中以“*”作为标识符号。

KNGE=“瑞雪兆丰年”=*big snow in winterleadingharvest season

(4) 知识资源的获取渠道

KNG的获得渠道包括演绎推理与归纳推理。演绎推理属于自上而下的逻辑推理,前提正确则结果确定(Sternberg et al., 2012),例如KNGC和限定条件下的KNGE。归纳推理属于自下而上的推理,通过综合分析大量已有的资源得到一般性原则,具有不确定性(Copi et al., 2016)。在计算机科学领域,两种推理方法都在自动化推理工作中发挥了广泛作用(Defourneaux et al., 1997)

在应用过程中,AI系统将根据处理事件的要求设定知识资源可使用门槛值,当知识资源的确定值高于门槛值时,系统才会调用该资源,门槛值设定的要求来源于相关的经验性知识或规则性知识。

2.2. 资源质量属性的定义与计算

RSC的传播、采集、利用过程中,AI系统将无法避免面对一些具有不完整、不一致、不确定等质量问题的RSC。资源质量对AI系统的决策影响重大,甚至可能会产生重大的社会和经济影响。资源最基本的属性是资源确定性(Resource Certainty) 资源确定性包括确定资源的来源、确定资源的使用方向等。

DIKW图谱结构中,RSC基本属性包括资源熵(Resource Entropy)、资源确定性(Resource Certainty)、资源精确度(Resource Precision)资源模糊度(Resource Ambiguity)资源有效(Resource Effectiveness, EFVrsc)和资源的隐私敏感性(Secret and Sensitivity Resource)资源属性中一部分需要AI系统根据资源本身特质进行计算,另一部分需要在资源采集环节进行识别标记。

2.2.1. 资源确定性定义

资源确定(Resource Certainty , CTTrsc)是资源没有合理理由怀疑的认知属性(Wittgenstein, 1969)CTTrscETPrsc相关但不完全相关,是针对客观存在的资源RSCobjective的特有属性,而由于互联网平台具有匿名或半匿名特殊性,从互联网平台提取得到资源受到用户个体心理因素的影响,反映用户心中所想像的虚拟情景而非现实中的真实情景。除了KNGC等特殊资源之外,在网络虚拟屏障的隔离之下的RSCobjective不一定是客观存在,CTTrsc值将无限趋近于1而不等于1

AI系统大部分自动化决策工作中,也不要求决策所涉及的RSCobjective达到100%的完全确定性。在资源有限的情况下,AI系统采用“提取—验证”的方法,先提取出决策所需的RSCobjective内容,再根据RSCobjective的内容遍历已有的DIKW图谱,寻找可用于确定性验证的其他RSC为了避免AI 系统意外采集或意外关联的情况,Graph中用于CTT证明RSC需要满足被采集次数(RSC.count)大于采集次数阈值(Threshold of counts,ThCount)的要求。ThCT根据决策事件的知识图谱类型进行调整,若DIKW图谱上可利用的资源过少或过多,ThCT可适当增大或减小。

CTTrsc值通过Graph内其他已知的RSCobjective进行辅助认证计算。辅助认证包括同义辅助和非同义辅助,认证的方法包括比较(Compare)统计(Statistics)转换分析(Transformation Analyse)。同义辅助在RSCobjectiveGraph中表达语义相同或相近的RSCobjective内容中进行,非同义辅助在RSCobjectiveGraph中与表达语义相反的客观否定存在NonRSCobjective中进行。

(1) 比较(Compare):将采集得到的RSCobjectiveGraph已存在的资源与进行语义比较,根据相似性区分出其中的肯定内容与否定内容。相似性计算的方法有很多,关于RSC的标称属性、二元属性、序数属性、数值属性等各种类型都有各自不同的相似度度量方法。对于文档文本类资源而言,余弦相似度(Xia et al., 2015)可被用来进行RSC相似度度量。资源RSC1RSC2之间的相似度SIM(RSC1, RSC2)的计算公式如式(10)所示,其中,RABs1RABs2分别表示两个RSC1RSC2用于进行相似度对比的属性,向量RABs1RABs2中记录了RSC用于进行相似度对比的RABRSC出现的次数频率


(10)

(2) 统计(Statistics)GraphRSCobjective表达语义相同或相近的RSCobjective越多,则RSCobjectiveCTTrsc值越高;反之与RSCobjective表达相反的NonRSCobjective越多,则RSCobjectiveCTTrsc值越低。

(3) 转换分析(Transformation Analyse):对于ȎȒ表达复杂的INFKNG,简单的比较和统计不足以满足辅助认证的要求,需要借助其他RSC转换经过分析其所表达的内容来进行推测

2.2.2. 资源精确度和资源模糊度定义

资源精确度(Resource Precision , PCSrsc)ETPrsc有关,当多个RSC表达同一语义时,PCSrsc值越高,ETPrsc值也越高一般而言,PCSrsc值低的RSC表达父类Ȏ之间的关系,PCSrsc值高的RSC表达子类Ȏ之间的关系

资源模糊度(Resource Ambiguity , ABGrsc)则是PCSrsc的相对概念,如式(11),同一个的资源同一决策事件处理环境下PCSrscABGrsc总和为1


(11)

2.2.3. 资源有效定义

资源有效性(Resource Effectiveness, EFVrsc)表示获得资源的时刻与决策事件发生时刻的间隔长短,采集、传输、使用在EFVrsc范围内的资源,一方面有利于节约采集、传输、使用的成本,一方面有利于资源隐私保护,用最少的资源完成参与方PUP需求。在资源采集阶段。在资源采集阶段,AI系统对采集的到的资源进行EFVrsc属性标记,以最常见的时间效率EFVrsc(time)为例子,通过溯源计算找到资源最早能找到的生成时间点(Generation time, G_time),到决策发生,AI系统开始进行资源采集的时间点(Collection time, C_time),两者之间的时间差即为EFVrsc(time)的数值,如式(12)


(12)

当存在两个及以上的RSC表达同一个语义对象不同的语义值时,生成时间点更早的RSCRSCold,生成时间点更晚的为RSCnewRSColdRSCnew之间的内容发生相互冲突很可能是因为RSC随着时间的变化而改变了其所表达语义。在这种情况下,AI系统优先采集RSCnew,同时在RSCnewRSCold之间建立弱链接RSCnew~RSCold”。由于资源采集的更新AI系统采集之间存在时间差,当用户提出对资源的订正或补充的要求时,AI系统有义务核实用户的要求是否符合相关规定

EFVrsc(time)属性的存在可以避免AI系统错误地采集了已失去决策价值的RSC,可规范化决策过程中的输入变量或参数,减少决策结果的偏差。AI系统的决策结果产生因为RSCnew产生了争议时,RSCnew~RSCold”链接将作为决策争议审核时的辅助证明材料。

EFVrsc(time)属性存在的另一个意义则是在于遗忘,AI系统将设立RSC的遗忘阈值(Threshold of forget, ThFG)AI系统将不采集EFVrsc(time)值大于ThFG的资源,同时将已存在于GraphEFVrsc(time)值大于ThFGRSC删除,避免将其作为自动化决策参考因素。ThFG的设立主要取决于决策事件本身,例如48小时内核算检测”、“14天内中高风险地区旅居史”等。

如图9所示,EFVrsc(time)的值除了C_timeG_time的差值外,另有两个特殊值负无穷和正无穷。EFVrsc(time)为正无穷的RSC为该DIKW图谱的永久保存RSCAI无权对其进行删除,永久保存RSC只会随着DIKW图谱的整体删除而消失。

而对于EFVrsc(time)值为负无穷的数字资源,AI系统有义务及时将其从DIKW图谱上移除并且不再进行同一资源的二次采集。

 

9 资源及时属性坐标关系图

Fig. 9 Resource timeliness coordinate diagram

2.2.4. 资源隐私性与敏感性定义

《中华人民共和国个人信息保护法》中对RSC这一概念中的私密资源(Secret)和敏感资源(Sensitivity)进行了区分,Secret是指“用户不愿为他人知晓的资源”,即隐私资源;Sensitivity是指“一旦泄露或者非法使用,可能导致个人受到歧视或者人身、财产安全受到严重危害的资源”。根据《中华人民共和国个人信息保护法》第二十八条——“敏感个人信息是一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息,包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周岁未成年人的个人信息。”之规定,人类个体的种族、民族、宗教信仰、个人生物特征、医疗健康、金融账户、个人行踪等RSC属于Sensitivity类资源。

SecretRSCSensitivityRSC的范围有重合但不完全重合,Secret根据用户自身的意愿所划定,具有全局性,若用户自身意愿不变则Secret的范围不变。Sensitivity的范围而则需要视具体使用情景而定,而对于用户个体而言不属于Secret的资源却很可能属于Sensitivity资源。针对RSC中的SecretSensitivity类资源AI系统将设立RSC的标记属性值SmarkSmark有三个属性值,Secret”,“Sensitivity”和“False”。

RSC的标记属性在采集环节中同时进行,并在采集环节结束后以KNGR的形式存储在被动采集方的个体的DIKW图谱上。SecretSensitivityRSCKNGR的形式储存在GKNG中,在Neo4j资源库中的存储形态如图10所示。在AI系统将在决策过程中设立特殊的应对处理机制,来应对不同事件Smark值不为非的RSC

  

10 SecretSensitivityRSC的存储形态示例

Fig. 10 Storage mode examples of Secret and Sensitivity type resources

KNGR =RSCrules(User)Smark=Secret

KNGR =RSCrules(User)Smark=Sensitivity

2.3. 本章小结

本章中对数据、信息、知识三种资源根据各自不同的属性特征进行了类型划分,数据资源包括数值型、概率型、逻辑型、集合型和范围型,信息资源包括比较型和用途型,知识资源包括常识性、规则性和经验性知识。每种资源的不同类型都有自己特殊的格式、结构和标识符号。资源熵、资源确定性、资源精确度和资源模糊度、资源及时性、资源隐私性与敏感性等不同的资源属性被用于衡量资源在不同类型的自动化决策事件中的作用。

3. 
意图模型与价值模型的建立

自动化决策过程中获取才不同参与方的意图并进行意图模型的搭建,可用于理解和预测个体的下一步行为(廖渝, 2006)AI系统决策过程中至关重要的一环。意图PUP的错误解读将导致DIKW建模过程实现方向的偏移,最终导致决策失败或是资源传输成本的浪费。精确的意图识别有利于AI系统用最少的资源和代价完成的工作,减少试错成本。

意图模型的建立内容包括两个不同的维度,从参与方角度看,意图模型包括了资源流通过程中的访问者意图、用户意图、AI系统意图以及三者之间的意图优先级排序;从主要意图和次要子意图的角度看,主意图和子意图属于相对概念,子意图可继续向下划分,作为二级子意图、三级子意图的主意图,形成多层意图体系树

价值模型则是AI系统处理决策事件的道德标杆,将价值模型中的内容纳入AI系统的行为知识图谱GKNG(AI系统)中,从公平性、安全性、自主性的不同角度对资源流通过程进行规范化,保证不同参与方的权益。

3.1. 意图模型建立

意图模型的内容包括不同的参与方意图,参与方意图在自动化决策过程中的的优先级,以及对主要意图和次要子意图的划分,由同一个主要意图划分得到的不同子意图由于内容偏向和主导型的不同,将对AI系统决策资源的分配和价值模型的建立有着不同的影响。

意图PUP根据精细度不同可分为主意图(PUPMain , PUPM)和子意图(PUPSub , PUPS)PUPSPUPM的分支,PUPF可能包含所有的PUPS,也可能只包含单独一个PUPS。如果将PUP视为数据资源的一种,PUPM即为包含一个或多个PUPSDATR

3.1.1. 参与方意图分类

意图不仅能驱动数据资源生成信息资源,还能驱动资源在参与方之间的流通。从参与方个体层面划分,同一个资源流通过程主要包括三个参与方,访问者(Visitor) 、用户(User),以及负责事件处理和决策的AI系统方(System)

如图11所示,在某一事件的决策过程中,资源流通是在访问者意图(Pupose of visitor, PUPvst)、用户意图(Pupose of user, PUPuser)AI系统意图(Pupose of system, PUPsys)三者的相互作用下完成。其中,访问者负责意图发起、用户负责意图接收,AI系统负责意图管理。在某些特殊情况下资源流通过程会有第三参与方的加入,此时,第三参与方意图(Purpose of third party, PUPTP)将同PUPvstPUPuserPUPsys共同影响决策过程中的资源流通。

 

11 访问者用户和系统参与资源的流通过程

Fig. 11 Visitor, user and AI system participate in the resource circulation process

在管理资源流通的过程中,AI系统需要在决策过程中考虑价值模型的要求,价值模型的主要内容包括公平性、安全性和自主性。公平性规则、安全性规则和自主性规则储存在参与方的知识规则图谱GKNG_R上。

(1) 访问者意图

在资源流通过程的参与方中,访问者和用户可能是人类主体,也可能是组织集体主体,或者是非人类的机器系统主体。在不同的资源流通和自动化决策过程中,访问者和用户的身份可以对调。访问者是资源流通传输的发起方,PUPvst在事件决策的资源流通过程中最早产生,同时将促成相关的PUPuserPUPsys的形成或更改。

(2) 用户意图

除访问者外,资源流通中独立于系统之外的参与方即为受决策影响的用户。用户意图PUPuser主要来自用户的知识规则图谱GKNG_R(User)AI系统在资源流通过程中需要关注用户对于资源流通的禁忌,未成年人的年龄禁忌、宗教禁忌、种族禁忌、不同地域风俗禁忌或差异等等。同时,资源流通还需要以用户承受能力为考量,超出用户承受能力的资源流通将中止或暂停等待取得用户的同意或其他处理方法。

(3) 系统意图

PUPsys是价值模型的一部分,它由传输过程中的不同参考值组成。资源流通过程运行过程的主要参考值是系统利润最大化,子值包括时间损失、空间损失和成本损失的减少等。

3.1.2. 参与方意图与共识机制

在基于DIKW图谱的AI系统治理框架中,在不同决策事件中通用的KNGR存储在AI系统图谱GKNG_R(System)上,作用于单个决策事件的非通用KNGR存储在决策事件图谱GKNG_R(Event)上,两种类型的知识规则对参与方在决策过程中的行为约束起同样的作用。

GKNG_R(System)上的KNGR包括通用的关于SecretSensitivity两类资源存储级别的KNGR1KNGR2

KNGR1=Smark=Secret”,rules(Storage)Level-1

KNGR2=Smark=Sensitivity”,rules(Storage)Level-2

GKNG_R(Event)上的KNGR以事件决策前参与方达成的“事前共识机制”为基准。AI系统设立同意二元值Aprv,如式(13)所示,Aprv是系统同意值Aprv_s、访问者同意值Aprv_v和用户同意值Aprv_u与运算的结果。只有当参与方的意图达成一致时,Aprv_sAprv_vAprv_u皆为真时,Aprv为真,决策开启条件满足AI系统可基于意图开启自动化决策过程中的资源流通。


(13)

对于同一个决策事件而言,主意图PUPM所包含的不同子意图将影响参与方“事前共识机制”所达成的KNGR的具体内容如图12所示主意图PUPM之下有两个子意图PUPS1PUPS2。在决策资源和成本有限的情况下,AI系统在进行资源决策时的参考价值为准确度Precision和效率Efficiency两项。若决策意图包括PUPS1PUPS2两项内容,则KNGRPrecision的要求大于Efficiency此时AI系统可能需要计算至小数点后n位,直至所有班级的平均分排序完成PUPM仅包含PUPS1的情况同理。若PUPM只包括PUPS2一项内容,则AI系统之需要计算平均分至小数点前一位,KNGRPrecision要求下降,Efficiency要求将上升。

 

12 同一主意图下的不同子意图具有不同的价值要求

Fig. 12 Different PUPS under the PUPM have different value requirements

PUPM={Statisticsaverage score}

PUPS1={Statisticsthe rank of average score of every class}

PUPS2={Statisticsclasses with average scores greater than 90}

3.2. 价值模型建立

AI系统所主导的资源流通和自动化决策过程的所有工作需要在法律和道德价值约束下运行参与者的意图凌驾于法律和道德之上例如,非法资源将不被允许流通和用于决策传输给未成年参与方的资源将受到内容限制和审查。AI系统在获取到不同参与方的意图PUP时,需要在经过价值模型对PUP的可行性判断,符合价值基本模型要求的PUP才被允许参与资源流通的过程。

在基于DIKW图谱而构建的AI系统治理框架中,价值模型的主要内容包括公平、安全、自主性等(Harper, 2020)。价值模型以知识规则的形式储存在知识图谱GKNG_R上,主要包括公平性规则KNGR_Fairness,安全性规则KNGR_Security和自主性规则KNGR_Autonomy

3.2.1. 公平性定义

公平性是人类社会最古老的价值观之一,也与个人隐私权利息息相关(Jobin et al., 2019)。当个体被剥夺了本应该拥有的东西,因为没有做的事而受到惩罚,或者失去了本应该拥有的机会时,就会发生不公平现象。

根据《中华人民共和国个人信息保护法》第二十五条之规定,在自动化决策中,人工智能系统的必须保证决策透明度和处理结果的公平合理。非必要情况下,决策算法不基于个人特征的数字资源进行决策,同时有义务提供不针对用户个人特征的服务,以避免基于年龄、性别、种族的歧视。用户有权利要求访问者和AI系统就自身认为不合理的决策结果做出解释说明。

DIKW的治理框架中,不公平现象主要发生在算法决策阶段和直接面向用户个体的传输阶段,从Crawford(Crawford, 2016)提出的技术公平性规则(Technical solutions, TS),透明度和监督(Transparency and monitoring, TM),补救权(Right to remedy, RR)人员多样包容性(Diversity and inclusion, DI)这四项原则出发,通过将四项原则纳入规则知识图谱体系,可来加强AI系统在自动化决策过程中对公平性价值的约束保证。

(1) 公平性规则

公平性的TS原则属于在事件决策开始前便已经存在知识规则图谱GKNG_R上的KNGR内容。以具有隐私敏感属性的资源为例,DIKW图谱对可能造成算法偏差和歧视性决策结果的性别、年龄、种族、宗教等类型资源实行分类保护措施,此类资源如果在采集环节曾被用户打上过Secret”的隐私标签,则其属于Smark值为SecretLevel-1存储级别资源;若未被打上隐私标签则属于Smark值为SensitivityLevel-2存储级别资源。这两项将纳入知识规则图谱GKNG_R的范畴,KNGR1KNGR2所示。作为事件决策过程中的通用TS原则,在排除群体标签对决策结果干扰,同时也在一定程度上保证了用户的隐私安全。

KNGR1=Smark=Secret”,rules(Storage)Level-1

KNGR2=Smark=Sensitivity”,rules(Storage)Level-2

(2) 补救权

补救权RR原则是AI决策系统的一种集审查与反馈于一体的机制。RR原则的设立是由于在自动化决策过程之中,再精确的制度和算法也无法完全排除资源输入错误、算法设计缺陷、用户理解不足等问题。 如果说事件决策发生前便存储在GKNG_R (Event)上的非通用的TS原则属于用户与访问者双方的“事前共识机制”,RR原则属于用户与访问者双方“事后共识机制”,是对GKNG_R(Event)KNGR的一种补充,作为下次同类型事件的KNGR和相似事件的KNGE补充。

根据RR机制,AI系统的在APRV机制的基础上设立“申请(Application)—校验(Verify)—同意(Approve)”的AVA机制,用于完成参与方对意外情况的复核申请,AVA机制的输出同Aprv机制一样,如式(13)所示,当Aprv值为真(True)时,即表示参与方达成了就某一事件决策结果的共识机制。

AVA机制中,申请由访问者或用户提出,AI系统受理申请并审核校验申请内容的合理性,做出决策并将决策结果传输给提出申请的访问者或用户。决策结果输出时,Aprv_s值为真,若提出申请的用户和访问者对输出结果无意见,则Aprv_u值和Aprv_v值为真,若提出申请的用户和访问者对输出结果存在意见,则启动再申请模式,直到Aprv_sAprv_uAprv_v值皆为真。

适用于RR原则的意外情况包括由于DIKW图谱的两次更新之间存在一定间隔,导致数字资源的采集出现了延迟,DIKW图谱并不包含当前决策事件AI系统所需的所有资源,AI系统的自动化决策过程做出了错误的决策结果。或是由于访问者或用户个体的特殊原因所导致的决策资源输入错误或是输出结果持反对意见等等。

(3) 多样性和包容性

AI系统的设计工程的研制人员中,女性和少数族裔的占比总是较低(Crawford, 2016; Simonite, 2018),过于单一类型的设计、研制和管理人员导致了AI系统的算法受其设计、管理的影响的其他类型人群的忽视,造成不公平的决策结果。有研究(Jobin, 2019)表明,扩大设计人员和管理人员的行列,纳入不同类型的管理者,可以最大限度地减少歧视性偏差,促进公平性。

而基于满足人员多样性和包容性DI原则,在基于DIKW框架的决策过程中,AI系统将根据DIKW图谱中的资源,将受决策影响的用户进行属性类型划分。划分得到的用户类型矩阵(User matrix, MTXuser)如式(14)所示,矩阵包括两个部分,第一部分部分为常规类型部分,包括多个有DATN向量向量A向量B向量C等等每一个向量都有各自的维度,例如向量Am维、向量Bn维,向量Ck维。mnk可能相同也可能各不相同,向量维度的制定标准根据决策事件的KNGR所定,通常为性别、年龄、种族、宗教等容易造成歧视性决策结果的属性。

(14)MTXuser最后一行的向量G中则存储了受影响的用户群体中的特殊需求人群类型和数量。已储存在GKNG_R上的基础的特殊需求人群包括老年人、青少年儿童、生病患者、残疾人士、孕期妇女公平性角度出发AI系统有义务提供特殊照顾弱势群体(Luna, 2009),此类群体根据决策事件的不同一共分为f类,因此G向量为f维向量。


(14)

MTXuser对应的是基于DI原则的访问者矩阵(Visitor matrix, MTXvst)MTXvst如式(15)所示,其中的行向量abc用户矩阵中向量ABC的归一化形式。将向量ABC中的数值符号组合映射到区间中(0,1)中,进行归一化处理生成向量abc将向量abc乘以AI系统根据KNGR所设定规定的管理人员的系数μ得到对应的访问者矩阵MTXvst中的向量数值

而对于用户群存在的特殊需求人群,基于公平性原则,AI系统要求访问者组群众至少有1与不同类型的特殊需求人群对应的个体,因此访问者矩阵中向量g为与G同维的全1行向量,将向量和向量进行与运算,两个向量相应元素存在都不为0时,输出结果元素的值为1,否则为0


(15)

(4) 透明度和监督

公平性TM原则是指在AI系统自动化决策的不同阶段实行监督,通过披露一定的算法和决策透明度,来保证决策过程公平性的方法。AI系统赋予参与方进行决策过程进行监督的权利,监督的方式包括自我监督、相互监督和第三方监督等等。

基于公平性TM原则的监督的内容包括对GKNG_R(System)GKNG_R(Event)上相关KNGR的被执行情况,也包括公平性的TS原则、RR原则和DI原则。RR原则中的AVA机制被沿用至TM原则的认证中,TM监督机制以某一个KNGR为评判标准,以达成参与方之间的共识为输出条件。由不同参与方从事件决策的输入、执行和输出三个角度监督决策过程中的输入、决策和输出是否符合GKNG_R(Event)中有关事件决策的规定。

3.2.2. 安全性定义

在传统资源环境下,安全性与数字资源隐私保护正相关;但随着科学技术的发展与进步,隐私保护在一些方面与个体安全性呈现出了负相关的状态(Elmaghraby et al., 2014),例如物联网技术和智慧城市的搭建已经可以在遇到危险时触发自动报警机制,但该机制启动的前提包括用户个体随身携带的移动设备需要接入智慧城市的报警系统,以及系统可以感知到个体附近实时相关资源,并进行计算分析,这又有可能会造成隐私泄露所导致的安全性风险。在人工智能系统的自动化决策过程中,安全性包括包括用户个体安全和财产安全

(1) 个体人身安全

出于疫情防控意图的需要,AI系统会对用户进行一定类型的资源采集,其中可能涉及到的一些资源,例如家庭住址、出行方式、行程计划或是资产明细属于《中华人民个人信息保护法》中所规定的,存在着对用户个体造成安全风险的可能且容易怀有不法意图的攻击者Hacker不法行为提供便利。

例如,以某一个用户(User)为例子,在<疫情防控>这一PUP的驱动下,AI系统对User进行了基本的个人数字资资源采集,采集完成之后GDAT(User)上存储了一张编号为DAT1的照片Photo1DAT1的属于集合型数据资源主要内容是一栋别墅A,同时DAT1中的内容可知User对于别墅A的用途主要意图是居住,可得INF1。同时在意图<确定地点>的驱动下,AI系统可从DAT1中别墅A的门牌数字中推测出别墅A的地址A,如INF2

DAT1 from GDAT(User)

DAT1=(Photo1)=(别墅A)

INF1=User<用于居住>,别墅A

INF2=别墅A<确定地点>,地址A

在其他条件相同的情况下,高资产人群更有可能成为的不法分子的目标,造成财产安全威胁,鹅财产安全性的缺失又会导致对个体人身安全的威胁。依据《中华人民共和国个人信息保护法》第二十八条有关敏感类型资源的规定,DAT1行踪轨迹类型资源挂钩,属于会威胁到用户个体人身安全的Sensitivity资源的一部分,在进行传输之前需要经过特殊处理。

(2) 群体财产安全

就财产安全而言,高资产人群更有可能成为的不法分子的目标,财产安全性的缺失又会导致对个体人身安全的威胁。财产风险的另一方面,就是资源的泄露用户个人信息被盗用,用于在非个体允许知晓的情况下进行非法贷款或是诈骗活动,导致受害者用户不得不花费时间、精力和金钱来解决非自己所导致的责任。

通过GINF(别墅A)中已有的内容可是别墅A的销售定位是高收入人群,因此User有大概率属于高收入人群,可得KNGE1

INF2=别墅A<销售人群定位>,高收入人群

KNGE1=*User,属于,高收入人群

互联网中的数字资源中存在大量与财产相关的数字资源,除了需要提高用户的对隐私安全的思考。同时还需要考虑到财产相关数字资源所具有的群体隐私性,对于具有不法意图的访问者而言,高收入用户的身边人群同样可以成为犯罪的目标,此时一个人的数字资源安全性受到威胁可能涉及到周边与之相关人员的数字资源安全性。

例如,从GINF(User)可得User与邻居123号是邻居,邻居123号分别住在别墅BCD中,此处属于高收入人群聚集区,可推测得KNGE2,邻居123号也属于高收入人群,怀有不法意图的Hacker在制定行动计划时将首先把User邻居123号纳入行动的目标。

INF1=User<了解周围居住人群>,邻居123

INF2=邻居123号,<了解财务状况>,别墅BCD

KNGE2=*邻居123号,属于,高收入人群

INF3=Hacker<行动目标>User邻居123

在基于DIKW图谱的法律技术化框架下,AI系统从用户处收集到了大量的数字资源的同时,也有义务管理数字资源使用,预防数字资源的泄露或不当使用对用户个人安全造成威胁。但此类资源很难在资源流通中完全避免

AI系统的治理框架中,传输阶段AI系统根据PUP采用不同的匿名法,将资源的“ȎȒ”结构中的一部分或多部分隐藏,以达到在不影响资源流通和各个参与方意图满足的情况下最大限度的保护用户的互联网安全性。即使对于不是处在特定的威胁危险中需要保护的人群匿名隐蔽的资源传播方式也能够使人们对互联网平台的安全性放心。

3.2.3. 自主性定义

人工智能系统的自动化决策,是根据资源和意图以高精度的计算能力和深度的搜索能力来取代人力完成。从计算机伦理(Hoffman, 2012)的角度出发,AI系统不能成为全权代理,人类(用户个体或AI系统运营方)在执行过程中需要保持一定的自主性,比保证对算法偏差的及时纠正和反馈

在资源爆炸的时代,营销和广告商将人们视为纯粹的商业对象进行无孔不入的轰炸式的商品宣传,忽略了用户是否自主愿意接收这些相关数字资源PUPuser收到了普遍的忽视,营销人员和广告商通常不止拥有一个宣传渠道和各种躲避审查的方法,导致PUPuser中的黑名单制度未能发挥其应有的作用。营销人员和广告商使用代理标签对人们进行分类以适应商业适用性,这些标签可能包括或跟踪年龄、性别、种族、教育水平、经济阶层等。然而,这样的简单分类忽略了人们的个体特殊性,否认了人性的存在。面对掌握大量资源并具有高精度计算能力的AI系统,用户属于弱势群体,用户选择保持隐私和自主性是对商品化的一种防御

在数字资源的三个参与方中,AI系统是访问者和用户之间的媒介,AI系统基于双方GKNG_R的要求保证双方的自主性。

例如,在Event1“商品推荐”这一决策事件中,访问者的主意图和子意图如下所示,子意图PUPvst_s1PUPvst_s2PUPvst_s3是对主意图PUPvst_m从不同数量、质量和可行性等三个面向对象角度的分解。

PUPvst_m=<商品推荐>

PUPvst_s1=<商品推荐:购买力强的用户>

PUPvst_s2=<商品推荐:购买意愿高的用户>

PUPvst_s3=<商品推荐:尽可能多的用户>

PUPuser=<反对商业广告推荐>

PUPvst_mPUPvst_s1PUPvst_s2PUPvst_s3同时存在的是,部分用户并不希望被过多的互联网商业广告打扰,觉得过度的商品化推荐侵犯了自己的自主隐私权。为了达成两类意图的平衡,保证用户在Event1决策过程中的自主权, AI系统将设立如下所示的流程,在实际决策过程中根据反馈情况进行适当的调整。

(1) “商品推荐”需要在取得用户同意的情况下进行User_agree=True),同时用户具有无条件撤回同意的权利。

(2) 推荐商品的类型根据用户的经验知识图谱GKNG_E上的内容,以提高商品推荐成功率。(KNGE from GKNG_E(User)

(3) 设定商品推荐门槛值,AI系统在推荐过程中只采用CTT值高于门槛值(CTTrsc_Th)KNGE。(KNGE(CTTrsc)>CTTrsc_Th

(4) 设置反馈机制,一段时间内用户对同类商品的点击次数未达标则撤回相关的推荐,同时用户减少推荐。

自主性与公平性、安全性之间紧密相连,公平性RR原则中的AVA机制就是对参与方自主性的一种表现和保证,参与方有权就自己觉得不合理的决策结果提出异议。同时安全性的保证难度与用户对数字资源自主的控制息息相关,对数字资源自主性要求高的用户会有意识地注意保护自身数字资源的安全,对于数字资源自主性的保护有利于数字资源安全性的保护。

3.3. 本章小结

本章构建了系统的自动化决策过程中的意图模型和价值模型,意图模型以多层意图体系树为基础,将主要意图细化,配以精确到决策资源分配,基于不同参与方意图所构建的意图体系树彼此之间存在优先级排序。价值模型则储存在AI系统的知识规则图谱上,作为AI系统在决策过程中所需要参考的行动指标。价值系统中包括了公平性、安全性和自主性三大部分内容,AI系统将构建公平性矩阵对进行决策过程中对公平性指数进行计算,帮助规范AI系统的公平性行为,并保护参与方在决策过程中的安全性和自主性。

 

 

4. 
资源的流通过程建模

2021111《中华人民共和国个人信息保护法》正式开始实施。广义上,互联网上流通的数字资源都属于个人信息的范畴《中华人民共和国个人信息保护法》中对于个人信息处理和使用的规定同样适用于互联网系统对数字资源的使用和处理。本文基于这四条原则和隐私价值模型构建适用于AI系统的数字资源流通治理框架模型,在AI系统的自动化决策中,数字资源的流通过程如图13所示。

 

13 数字资源流通环节过程

Fig.13 Schematic diagram of digital resource circulation process

如图13所示的自动化决策的模型框架中,数字资源的流通过程(Resource Circulation Process)分为采集(Collection)、建模(Modeling)、获取(Acquisition)传输(Transmission)四个环节(CMAT)CMAT运行过程有三个参与方,即提出意图的访问者、受影响的用户和负责管理的AI系统方。首先,Acquisition环节中,AI系统从访问者处获取到新的访问者意图PUPvst并对PUPvst进行意图体系树的划分。其次,将基于PUPvst划分完成的意图体系树带入Modeling环节中,通过对已建模的DIKW图谱遍历访问寻找能够满足PUPvst需求的资源,若DIKW图谱已有的资源内容不足以满足PUPvst需求,Modeling环节将驱动Collection环节对于用户进行资源的再采集,并将采集得到的资源输入Modeling环节进行概念化和建模,DIKW图谱进行补充和完善。当AI系统在得到数字资源后,根据意图模型和价值模型两部分的内容,对数字资源进行处理后传输,资源处理的方法包括资源匿名和资源转化两种类型

资源流通过程中,CMAT四个环节彼此独立运行但会相互影响,以一种动态平衡的方式时刻进行着,Acquisition模块捕捉到新的PUPvst出现时,CMAT之间的平衡被打破并重组,当PUPvst的需求得到满足后,自动化决策过程中的资源流通环节结束,CMAT架构根据决策事件的类型选择继续根据新的KNGR规则运行或是恢复原有的运行规则KNGR

4.1. 资源采集过程建模

资源采集过程(Resource Collection Process , CLCpro)AI系统感知现实世界的中的原始资源并将其转换为更强大和更有用的数字资源的过程(Zaslavsky et al., 2013)。在平衡状态的CMAT架构中,Collection模块根据AI系统的知识图谱GKNG(system)KNGR所规定的采集周期自动开始CLCpro工作循环,资源采集的种类、数量亦遵循KNGR的规定CMAT架构的动态平衡状态被意图获取环节得到的PUPvst打破AI系统根据PUPvst的内容需求重新制定CLCpro运行相关的KNGR

4.1.1. 采集资源类型

数字资源根据采集来源(Resource Source)分为以具体实体形式存在的内容类资源(Content)非实体形式存在的虚拟痕迹类资源(Trail)

(1) Content内容类资源属于主动类资源,包括用户自己在网络中发表用户生成内容UGC和由用户与互联网的交互行为所产生的聊天,购买,搜索,查阅等记录。对于此类资源,AI系统可直接将其建模生成DATINFKNG三种ȎȒ类型资源,补充到DIKW图谱中。

在内容类资源中,UGC(Krumm et al., 2008)能够最直接反映用户对某一事物的评价看法,可用于新闻、研究、八卦、娱乐、科普等不同的意图UGC(Text)、图片(Image)、视频(Video)、音频(Audio)多种可视的形式存在不同类型的UGC有不同的ETPrsc影响因子,例如Text的字数,VideoAudio的时长等。DIKW图谱存储系统中属于Level-3级别存储库,可不经过资源所有方用户的允许而使用。

记录类资源属于半公开类型的资源,用户自身和人工智能管理系统具有查阅权AI系统可通过对记录类资源的整理分析来确定用户的需求,用于进行有针对性的服务,例如商品推荐,好友推荐等等。AI系统在对记录类资源的使用中,需要取得用户的同意许可证明。在DIKW图谱存储系统中属于Level-2级别存储库,在得到用户的允许后可使用。

(2) Trail:痕迹类资源记录了用户在虚拟社区中的一切交互行为,例如鼠标的点击选择,网页浏览的时间,推送广告点击率等。在虚拟社区中每一个内容类和记录类资源的产生都会有相对应的痕迹类资源Trail随之产生。Trail在三类数字资源中数量最多,但单个TrailETPrsc值趋近于零;当属于同一类型内的Trail累计达到一定的数量级后,将产生熵爆炸(Eagle et al., 2006)通过多方面的细节揭示个人和社会行为甚至能够产生争执影响,引导网络舆论(Hu et al., 2014)

4.1.2. 资源采集方法

Collection模块程序中,AI系统在进行数字资源采集工作之前需要事先征得用户的同意。根据《中华人民共和国个人信息保护法》第十四条——“基于个人同意处理个人信息的,该同意应当由个人在充分知情的前提下自愿、明确作出。法律、行政法规规定处理个人信息应当取得个人单独同意或者书面同意的,从其规定。”之规定,AI系统对用户相关数字资源的采集工作应当以用户本人的充分知情为前提,并且在用户自愿、明确作出意思表示的情况下进行。如图14所示,AI系统在PUP的驱动下开启CLCpro模块的工作,CLCpro模块的工作需要产生资源的用户同意的情况下运作用户不同意时,CLCpro工作无法进行。

KNGR=Collect allowedrulesUser_agree

 

14 AI系统在用户知情同意和例外情况下可开展采集工作

Fig. 14 The AI system carry out the collection work with the informed consent of the user and under exceptional circumstances

 

同时,根据《中华人民共和国个人信息保护法》第十五条——“基于个人同意处理个人信息的,个人有权撤回其同意。个人信息处理者应当提供便捷的撤回同意的方式。”之规定,基于用户同意而进行的数字资源采集处理活动,用户有权撤回其同意。如图14中所示,当用户发起同意撤回采集工作将中断,CLCpro模块运行中止同时,《中华人民共和国个人信息保护法》第十六条也规定了撤回同意需要在法律允许的范围内进行,用户不得以撤回同意为由拒绝提供已签订合约的产品或服务。

用户同意并不是决定AI系统进行数字资源采集的唯一条件,根据《中华人民共和国个人信息保护法》第十三条(四)、(五)、(六)、(——“为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需;为公共利益实施新闻报道、舆论监督等行为,在合理的范围内处理个人信息;依照本法规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息;法律、行政法规规定的其他情形。”之规定,在法律允许的某些例外情况(Exception)AI系统可绕过用户的知情同意权属于用户的数字资源进行访问和处理活动。资源采集中的例外情况Exception主要包括义务例外(Obligation)、紧急情况例外(Emergency)和监督例外(Supervison)三部分

Obligation是指为了履行法定职责或是法定义务,必须要公开部分数字资源的情况,如政务情况、慈善款项、录取排名等法律或行政法规所规定的具有强制公开义务的数字资源

Emergency是指为了应对突发公共卫生事件,或紧急情况下为保护自然人的生命健康和财产安全而绕过知情同意权访问数字资源的情况,如疫情防控期间确诊患者的行动轨迹和司法机关对案件相关人员的背景调查。

Supervison是指为了公共利益在合法范围内所实施的新闻报道、舆论监督等行为的情况。如曝光虚假宣传,卫生状况不达标的工厂和行贿受贿人员等违法行为可绕过相关当事人的知情同意权进行。

《中华人民共和国个人信息保护法》第三十一条还规定了AI系统在处理Sensitivity类资源时,有义务向用户告知采集Sensitivity类资源的必要性以及处理工作可能对用户造成的影响。该条款是调解参与双方知情可解释性不对等一种手段,由于不同个体的对隐私概念的理解不同,用户很有可能因为不了解Sensitivity类资源可能带来的风险而未将Sensitivity类资源划入Secret的范畴。AI系统在决策时若不得不使用Sensitivity类资源需要提前向用户告知使用理由并解释风险。

4.2. 资源建模存储过程建模

资源建模过程(Resource Modeling Process , MDLpro)DIKW图谱的建立生成过程,将数字资源格式化记录维护以供决策使用。AI系统对数字资源的资源建模的过程分为两步,首先是将采集得到的原始数字资源概念化,以标准化的格式纳入到DIKW体系中,出于对存储成本的考虑,AI系统将设定DIKW图谱的存储阈值,DIKW图谱中只保存在单位时间内被访问次数(Access times per unit time, ATut)高于访问阈值(Threshold of access times, ThAT)数字资源ATut过低的数字资源经过一段无访问时期后将被DIKW图谱上移除。若被移除数字资源有再次使用的需求,则由MDLpro驱动CLCpro进行数字资源的二次采集。

其次是根据用户是否对数字资源行了Secret标记、数字资源是否会对决策事件的结果造成偏差、数字资源是否属于规定的Sensitivity类资源等标准,对采集得到的数字资源进行Smark值的标记。

本文以Neo4j资源库(Webber, 2012)为基础建立基本DIKW图谱,Neo4j资源库有SPARQLGremlinCypher Query等多种查询语言,虽然研究应用时间短,但在安全性和拓展性上优于传统的关系图谱(王余蓝, 2012),适用于资源数量多且彼此之间关系复杂的资源处理情况。

在利用Neo4j资源库建立基础的DIKW图谱的过程中,AI系统对于DIKW图谱的创建、匹配、设置、返回、删除等常用操作指令的形式和内容对如表5所示。

5 DIKW图谱创建、匹配、设置等常用操作指令

Table 5 DIKW graph create, match, set and other common operation instructions

指令名称

指令作用

Create

创建:创建ȎȒ

Create (Ȏ1) - [Ȓ:] ->(Ȏ2);

创建:创建Ȏ1Ȏ2之间的关系Ȓ

Match

匹配:检索有关的ȎȒ

Return

返回:返回查询结果

Set

设置:增加或更改Ȏ属性

Delete

删除:删除ȎȒ

Where

搜索:根据关键词句找到ȎȒ

4.2.1. 资源的概念化

数字资源的概念化评估是指将观察或传感器所采集得到的资源映射到现有已知的概念中,有利于在个体之间共享数字资源内容并在离散的数字资源之间进行累积进步是必要的(Duan, 2019b)数字资源的概念化评估的过程如图15和算法4.1所示:

(1) AI系统观察/采集得到一个新Ȏnew,设Ȏnew具有一个Ȏ和可观察到的向外延伸的nȒ。遍历DIKW图谱上现存已知的事物(Ȏexist)Ȏexist具有一个Ȏm个向外延伸的Ȓ

(2) 设定匹配点阈值(Matching point threshold, ThMP)(0<ThMPmin[n,m])ThMP的数值来自于KNGR或处理事件的AI系统根据过往经验所总结的KNGE

(3) ȎnewȎexist进行比较计算,统计二者之间匹配点个数(Match point, MP)

(4) MP=0Ȏnew映射至由函数CreateID创建的新概念Conceptnew,根据自身属性生成DATnewINFnewKNGnew





15 数字资源的概念化评估过程与结果示意图


Fig. 15 Conceptual evaluation process and results of digital resource

(5) MP!=0ȎnewȎexist两个主体Ȏ等同

m>nȎnewȎexist一共有n+1个可匹配元素,MP的取值范围为[0, n+1]

1)MP=n+1Ȏnew等同于ȎexistGDAT中表示Ȏexist数量的数据类型资源DAT.count(Ȏexist)数值加1

2)MP>ThMPȎnew属于Ȏexist的同类资源,建立ȎnewȎexist之间的数据类型联系边ȒnȎnewȎexist两个实体对象拥有n-1条相同的关系边Ȓ

3)MP<ThMPȎnew属于Ȏexist的同类资源,ȎnewȎexist之间不建立数据类型联系边。

n>mȎnewȎexist之间一共有m+1个可匹配元素,匹配点个数MP的取值范围为[0, m+1]

1)MP=m+1,此时Ȏnew上尚有n-m个未得到匹配的ȒȒ所连接的Ȏ为新采集得到的Ȏnew的属性,将这n-mȒ所连接的ȎȎexist之间建立连接,作为Ȏexist的新属性补充至Graph中,新属性与Ȏexist之间的连接权值较低,后续多次重复的相同属性采集将加强连接的权值。

2)MP>ThMP,此时Ȏnew尚连接着n-ThMP未得到匹配的Ȓ。由于现实环境的影响可能会对事物造成影响,促使主体Ȏ产生了不属于异于原体的属性或是原有的属性产生了更迭或消失,但Ȏnew仍属于Ȏexist的子类。在ȎvariantȎexist之间建立权值较低的弱连接~”,并通过后续多次重复的采集加强权值。

3)MP<ThMPȎnew属于Ȏexist的同类资源,ȎnewȎexist之间不建立数据类型联系边。

(6) 两个主体Ȏ不等同,Ȏnew属于Ȏexist的变异实体ȎvariantMP的取值范围为[0, min(n,m)],在ȎexistȎvariant之间建立变异标记边。

 

Algorithm 1:数字资源概念化伪代码

Input: DIKW Graph ǤNew semantic object Ȏnew 

Initialization:

nThe count number of Ȓ sides of Ȏnew

ThMPThe threshold of match point between different Ȏ, which derived from KNGR

DAT.countThe number of times the same RSC has been collected before

Group(Ȓ)Group of unmatched Ȓ of both Ȏnew

Group(Ȏ)Group of Ȏ connected by unmatched Ȓ

Loop:

ȎexistȎ from Ǥ

for ȎexistǤ do

  Match(Ȏnew , Ȏexist)

mThe count number of Ȓ sides of Ȏexist

OY/ONCompare whether Ȏnew and Ȏexist are the same(yes/no)

MPThe number of identical matching points between different Ȏnew and Ȏexist

end

Case_(1) MP=0;

Case_(2) OY and m>n and MP=n+1

Case_(3) OY and m>n and MP>ThMP

Case_(4) OY and m>n and MP<ThMP

Case_(5) OY and n>m and MP=m+1 and Group(Ȓ)=n-m

Case_(6) OY and n>m and MP>ThMP and Group(Ȓ)=n-ThMP

Case_(7) OY and n>m and MP<ThMP

Case_(8) ON and MP>ThMP

while Case_(1,4,7) do

CreateObject(Ȏexist)

while Case_(2) do

DAT.count(Ȏexist)+1

while Case_(3,5) do

CreateRelation(Ȏnew /Ȏ in Group(Ȏ), Ȏexist )

while Case_(6,8) do

CreateVariantObject(Ȏnew , Ȏexist)

end loop

4.2.2. 资源的存储

根据《中华人民共和国个人信息保护法》第四十五条——“个人有权向个人信息处理者查阅、复制其个人信息;”之规定,数字资源所有方有权数字资源处理者提出查阅、复制采集从用户处采集得到的数字资源,且访问者有义务及时提供数字资源在自动化决策过程中,如果AI系统数字资源进行了采集处理工作,则同时有义务将采集得到的数字资源进行储存和写入读取处理,以供用户查阅。

AI系统将在采集环节将根据资源的标记属性值Smark的值来对资源进行分级分类管理存储标准。如图16所示,数字资源存储库将划分为Level-1Level-2Level-3三个级别,CLCpro模块中采集得到数字资源在进入资源库之前会先进行Smark值的标记,Smark值为Secret的资源归入Level-1级别存储库Smark值为Sensitivity的资源归入Level-2级别存储库Smark值为False的资源归入Level-3级别存储库。

AI系统的自动化决策过程中,Level-1级别存储库里资源需要在数字资源的用户的允许下使用,属于用户允许(User_agree)使用类型资源。Level-2级别存储库里的资源则根据决策事件的类型,在同时满足不违反价值模型的规定,和该数字资源AI系统的自动化决策所必须的资源时,Level-2级别资源允许使用,属于事件允许(Event_agree)使用类型资源。Level-3级别的资源则允许在非禁止该资源使用大部分决策事件中应用。

 

16 资源的采集、分类、存储和再使用过程

Fig. 16 The collection, classification, storage, and reuse of resources

 

4.3. 意图获取过程建模

意图获取过程(Purpose Acquisition Process , PACQpro)CMAT架构平衡重组的关键,PACQpro模块获取得到的访问者意图PUPvstCMAT架构平衡根据PUPvst的内容开启动态平衡重组PACQpro模块的内容包括意图采集和意图分析,将访问者意图和用户意图一起进行精细化分割,建立参与方意图体系树,根据细化后的意图体系树内容驱动AI系统对DIKW图谱进行访问,遍历DIKW图谱寻找决策所需的资源

4.3.1. 意图优先级排序

资源流通过程中的意图模型包括访问者意图PUPvst,用户意图PUPuser和系统意图PUPsys在通常情况下,访问者是资源传输的发起PUPvst是流通过程中的主要意图通常情况下,PUPvst的优先级高于PUPuserAI系统是服务提供者,访问者和用户都是AI系统所服务的对象,因此系统意图PUPsys的优先级排在PUPvstPUPuser之后。当资源传输过程中,不同参与方之间发生意图冲突时,AI系统将优先考虑优先级较高的意图

意图优先级并非一成不变,在某些特殊的情况下,意图模型不同参与方的意图优先级顺序将进行前后调换,如图17所示,意图优先级改变的例子包括:

(1) 付费传输:付费者的优先级高于免费者,例如对方付费电话(Oliver, 1986)

(2) 黑名单:用户预先设定拒绝黑名单(BlackList),黑名单的内容可以是拒绝某一种类型事件所引起的资源流通,拒绝某一个特定访问者发起的资源流通,拒绝资源流通中的某一类型内容等等。在不具有其他特殊规定的情况下,黑名单中的用户内容意图PUPuser高于PUPvst

(3) 道德与法律当资源流通环节涉及到违反道德与法律类的问题时,AI系统有权依据价值模型(Value Model)中所规定的法律或道德条例中止或暂停资源流通进程进行排查,PUPsys的优先级调动到PUPvstPUPuser之前。

 

17 意图优先级的变化过程

Fig. 17 The process of changing Intention priority

4.3.2. 意图审查

意图资格审查的内容在于验证访问者是否具有提出该意图的资格。意图资格审查的例子包括密码验证、短信验证、指纹认证、人脸认证,属于身份认证审查(高一骄, 2021)。除此之外,在一些特殊的领域,还会包括年龄、学历、证书认证等等。

于其他参与方的身份监督包括身份检查,隐私保护法中对于企业、政府机关和非盈利类组织等不同运营实体所适用的隐私保护标准不同,运营方的身份资质应有同一的审核标准而不是根据运营方自己所申报的身份来认证。《中华人民共和国个人信息保护法》中对于运营方身份认证和资质审查尚未有明确规定,参考例如《2020年加州隐私权法》中就确认了评定一个组织是否为企业的评定标准,包括总收入、数据处理活动的范围(Goldman, 2020)

4.3.3. 隐藏意图的识别

DIKW图谱的建立过程中,PUP驱动Ȓ的表达,连接起相互离散的Ȏ”其过程如图PUP可能是某个隐性意图(PUPTacit , PUPT)的显性表达,PUPT存在不确定性,属于主观的概念存在,可能是多个意图的结合表达。在资源属性层面上,PUPTCTTrsc小于PUPETPrsc大于PUP,更具有利用的风险,也具有利用的价值。对PUPT的解读是意图模型的一部分,AI系统在需要在PACQpro阶段完成对意图体系书进行解读和细化。

DAT1=(Paint1), PUP1=<Pratice> , PUP2=<Share> 

DAT1PUP1INF1

=Ȏ~Ȓp~Ȏ | UserA<Pratice>Paint1=Ȏ=Ȓ=Ȏ | UserACreatePaint1

DAT1PUP2INF2 

=Ȏ~Ȓp~Ȏ | UserA<Share>Paint1=Ȏ=Ȓ=Ȏ | UserAPosePaint1

PUPT=<.考上艺术学院>/<.获得绘画大赛金奖>/<.找到绘画类兼职>

PUPT可能的三种推测结果...可用于预测用户的行为,制定个性化的服务方案,但同时Ⅰ...也具有不确定性,需要借助资源转换来辅助认证,认证计算得到CTTres值处于(0,1)的区间内,不等于0也不等于1,不完全为真也不完全为假

4.4. 资源传输过程建模

资源传输过程(Resource Transmission Process , TSMpro)资源流通模块TSMpro可分为两个阶段,一阶段是数字资源的处理二阶段是资源转换成果输出。首先PACQpro过程中所建立的意图体系树驱动AI系统从Graph中筛选出合适的数字资源,并经过数字资源转换和处理,以满足的PUP形式的输出无论是的数字资源采集还是DIKW图谱的建模,CMAT架构的最终的目的是为了满足PUP的需求。如果数字资源DIKW图谱是原料和半成品,那TSMpro模块输出反馈参与者满足PUP要求的最终成品。

4.4.1. 资源传输过程的资源转换

传输过程中,如果资源内容精确且简单,传输损耗低、传输代价小,不违反价值模型的要求,可进行直接传输。但是大部分数字资源都存在内容不完整、不一致、不确定等问题(Kwan, 1997),而资源转换可以在一定程度上将规避此类问题。

数字资源的转换包括资源的分解(Resource Decomposition Process , DCPpro) (KNGINFDAT)和资源的结合(Resource Association Process , ASCpro)(DATINFKNG)两个部分,DAT是对INF的分解,KNGINF的结合推导的结果,资源相互转换的实例如表6所示

(1) DAT的转换

ȎȒ作为中Graph结构中的最小单元,可作为一个DAT单独或多个DAT组合储存。DAT可通过ȎȒ分解组合生成新的DAT,或是在PUP的驱动下生成INFKNG。其中,DAT可是Ȏ或是ȎȒ的组合,INFKNG则至少含有一个Ȓ和两个Ȏ

如表6中所示,集合型数据DATC=(M药品临床实验报告)可通过ȎȒ结构的分解得到多个DATC1DATC2,包括试药人员名单、身体状况、临床反应等等。此外,在<实验数据对比>这一意图的驱动下,服用的M药品的A组实验结果优于服用安慰剂的B组,可生成比较型信息资源INFC1。在M药品完成了药物监管认证程序规则之后,可认为M药品对于相关的病症(M-disease)的治疗是有效的,可生成KNGC1

6 数据、信息、知识三种类型资源的转换示例

Table 6 Examples of transform of data, information and knowledge resources


DAT=(M药品临床实验报告)

INF=UserA<获得报酬>,参与M药品的临床试验〗

KNG=M药品, effective treatment, M-disease (True)

DAT

(试药人员名单、身体状况、临床反应)

(UserAyes参与M药品的临床试验)

(M药品、M-disease)

INF

A组实验结果,

superior to,

B组实验结果〗

UserA

身体状况,

无基础疾病〗

M药品

for treatment

M-disease

KNG

M药品,

effective treatment,

M-disease (True)

*UserA,

 tendency,

药品临床试验志愿者

*M药品,

effective treatment,

 M'-disease

DATC=(M药品临床实验报告)

DATC1=(M药品试药人员名单)

 DATC2=(M药品试药人员身体状况)

 DATC3=(M药品试药人员临床反应)

PUP=<实验数据对比>

 INFC1=A组实验结果,superior toB组实验结果〗

 KNGC1=M药品, effective treatment, M-disease (True)

(2) INF的转换

INF转换得DAT通过RSC中的元素一一拆解为不可再拆分的独立元素,AI系统将INF剥离了PUP之后得到独立表达Ȏ”作为DAT进行储存ETPrsc值越高的INF拆解出来的独立元素越多。INF转换得KNG的途径有两种,一是在决策事件Event中,AI系统确认CTTrsc值达到标准值的INF可转换生成KNGR作为事件Event决策的知识性规则;二是通过INF的采集频率值INF.count在达到一定的可作为经验性知识KNGE使用

例如,已知用户UserA在获取报酬这一意图的驱动下参与了M药品的临床试验,如INFU1AI系统通过对INFU1ȎȒ拆分可得逻辑型数据如DATL1UserA属于参与了M药品临床试验的人群。除此之外,AI系统通过对GKNG(M药品的临床试验)的遍历搜索可得知参与M药品临床试验的志愿者需要经过无基础疾病的身体状况调查,因此,在<身体状况调查>这一意图的驱动下INFU转换生成了INF1。同时,从INFU1中可推测出UserA有成为药品临床试验志愿者的意愿倾向,KNGE1

INFU1=UserA<获得报酬>,参与M药品的临床试验〗

DATL1=(UserAyes参与M药品的临床试验)

INF1=UserA,身体状况,无基础疾病〗

KNGE1=*UserAtendency药品临床试验志愿者

(3) KNG的转换

KNG的转换同样存在两种方法,一是将由DATINF推导而来的KNG反推得到原有的DATINF二是根据具有预测性的KNG预测未来可能产生各种不同类型的RSC。由于一部分的KNG在脱离了特定的决策环境后存在不确定性,由KNG推导得到的RSCCTTrsc值将受到决策事件环境的影响。

例如,现已知KNGC1M药品可以治疗M-disease疾病,通过ȎȒ元素的拆分得到集合型数据DATC1DATC2,在意图<M-disease疾病治疗>的驱动下生成INFU1。同时,在基于M-diseaseM'-disease足够高的相似度这一INF的,AI系统可对M药品进行理论推测,假设M药品可用于M'-disease疾病的治疗,并在经过一定的CTT值计算确认之后,生成经验性知识KNGE1

KNGC1=M药品, effective treatment, M-disease (True)

DATC1=(M药品”)

DATC2=(M-disease)

INFU1=M药品for treatmentM-disease

KNGE1=*M药品effective treatmentM'-disease

4.4.2. 传输过程中对资源的处理

在资源流通的传输环节中,在具有特殊需求的情况下,AI系统将以PUP为决策标准,通过资源匿名的方法对数字资源进行集中排序处理的处理。匿名方法(Wallace, 1999)不仅限作用资源标签名称的改变,而以一种不可识别性的形式,对资源属性或内容进行隐藏。DIKW图谱体系中,对资源进行匿名保护的方法可分为数据匿名保护、信息匿名保护、知识匿名保护法三种类型

(1) 数据匿名保护

数据匿名保护是在在ȎȒ结构层面将容易造成歧视后果的Sensitivity类资源、以及具有保密需求的Secret类资源传输过程开始之前由AI系统按照一定的规则进行加密,传输过程完成再由资源接收方进行解密

例如,对于DATL1DATL2_A这一个记录了用户UserA的艾滋病检测结果的Sensitivity类逻辑型资源,AI系统通过数据匿名的方法将DATL1中的阴性与阳性结果进行加密处理,在处理得到的结果DATL1_ADATL2_A中将阴性结果映射至数字0”,阳性结果映射至数字“1”。

DATL1= (Ȏ=Ȓ=Ȏ | UserAyesnegative)

DATL2= (Ȏ=Ȓ=Ȏ | UserAyespositive)

DATL1_A= (Ȏ=Ȓ=Ȏ | UserAyes0)

DATL2_A= (Ȏ=Ȓ=Ȏ | UserAyes1)

在数据匿名保护的框架下,只有通过了意图审查之后访问者拥有将匿名化后的资源RSCA还原回原始资源RSC的能力,能够最大的程度降低数字资源在资源传输过程中的被攻击或是意外泄露所导致的不良影响。

(2) 信息匿名保护

信息匿名保护是指根据已划分形成意图体系树的需求,通过隐藏数字资源ȎȒȎ结构中的某一部分来达到资源匿名保护的意图,同一个数字资源在不同PUP的驱动下所得到的匿名输出结果不同匿名隐藏的部分可以是ȎȒ的基础结构,也可以是文本类RSC中的词语句子、图片类RSC中的某个蒙太奇碎片、视频音频类RSC中的某一片段内容。例如,逻辑型数据DATL1表示的是病人UserA艾滋病检测为阳性DATL1属于Sensitivity类资源,在不同PUP1PUP2PUP3三类意图的驱动下,分别隐藏了UserA”、“HIV”和“positive”三类型内容碎片,在满足PUP要求的情况下将Sensitivity类资源泄露的风险降到最低。

DATL1 =(HIV test result of UserAyespositive)

PUP1=<艾滋确诊患者病例研究>

INF1_A=HIV test result of XX<艾滋确诊患者病例研究>, positive

PUP2=<用户UserA阳性检测结果统计>

INF2_A=XX test result of UserA<HIV检测用户人数统计>, positive

PUP3=<HIV检测用户人数统计>

INF3_A=HIV test result of UserA<HIV检测用户人数统计>, XX

(3) 知识匿名保护

知识匿名保护是AI系统自动化决策过程中对参与方自主性的一种保护,AI系统在决策过程中需要保留参与方的自主选择权,当有两类KNG可以同时满足PUP的需求是,AI系统将同时将其进行传输,并将知识的确定性属性CTTrsc隐藏,由用户进行资源的使用选择,以避免发生产生“技术越界”,AI系统代替做出的最佳决策可能未必是参与方所认同的最佳决策。

例如,在人工智能药物推荐系统对“艾滋病药物推荐”这一事件的决策中,已知KNGE1KNGE2都可以满足参与方的需求,其中M1M2属于治疗艾滋病的常规药物,患者对药物的具体使用方法需要根据患者的自身身体状况和过往病史而定。在价值模型的要求下,AI系统在需要尊重参与方患者在决策过程中的自主性,将KNGE1KNGE2同时传输给参与方,同时对KNGE进行知识匿名化处理,将CTTrsc隐藏,生成KNGE1_AKNGE2_A传输给参与方,以免误导参与方的判断。

Event={艾滋病药物推荐}

KNGE1=*M1suitable forHIV infection Patients | CTTrsc=80%

KNGE2=*M2suitable forHIV infection Patients | CTTrsc=85%

KNGE1_A=*M1suitable forHIV infection Patients | CTTrsc=XX

KNGE2_A=*M2suitable forHIV infection Patients | CTTrsc=XX

从隐私保护角度而言资源集中排序处理有利于保护在无意识过程中泄露的隐私资源,例如在图片类RSC的传输中,用户只想传递图片中心实体的内容,但却因数字资源中资源内容过而无意中泄露了隐私,比如背景所暴露了定位,。而如果AI系统在资源传输环节提供付费的资源加密服务,资源排序可以帮助系统为客户制定最具性价比的方案。面对资源在传输过程中被攻击的过程中导致资源包丢失、延迟的事故,以性价比最高的方式尽可能的降低损失。例如,序列前面的资源包采用精细加密,序列中间的资源包采用次一级加密,序列后面的资源包可以选择不加密。  

4.4.3. 资源在不同参与方之间的流通传输

RSC在不同参与方之间传输流通的过程中,根据《中华人民共和国个人信息保护法》第十七条——“个人信息处理者在处理个人信息前,应当以显著方式、清晰易懂的语言真实、准确、完整地向个人告知下列事项”之规定,访问者用户需要就RSC的在AI系统决策过程中的参与形式内容(participation)达成共识participation的内容包括双方的名称或者姓名和联系方式、RSC的使用意图和方式、RSC的种类和保存期限等participation的内容储存在知识规则图谱GKNG_R(Event)

对于互联网上由用户交互行为所产生的RSC如何在人工智能系统的传输过程中进行使用,根据《中华人民共和国个人信息保护法》第十七条后半部分内容——“个人信息处理者通过制定个人信息处理规则的方式告知第一款规定事项的,处理规则应当公开,并且便于查阅和保存。”之规定,互联网平台将与用户签订有关RSC知情同意及使用代理协议(郑佳宁, 2020)。签订了代理协议的用户,AI系统在处理相关事件的时候,将在经过对PUPvst的算法评估之后,代替用户来行使知情同意权和参与形式内容participation的约定。

Particiption是多个DAT组合,DAT之间彼此存在弱链接“~”。Particiption整体将以KNGR的形式写入GKNG(AI系统)中,作为AI系统的行动约束规则。Particiption内容包括RSC流通过程中访问者用户的身份和联系方式访问者对于RSC的处理意图计划中的决策方式决策过程中RSC的可使用次数决策截止时间,如下

Particiption=((身份)~(联系方式)~(决策方式)~(决策意图)~(RSC可使用次数)~(决策截止时间))

KNGR=AI system, decision rule, Particiption

4.5. 本章小结

    本章AI系统的自动化决策过程中的资源采集、资源存储、意图获取和资源传输。在资源采集环节中,AI系统将根据基于《中华人民共和国个人信息保护法》中的相关规定所建立的知识图谱,对内容、记录、痕迹等主动被动类对资源进行合法采集。在资源存储环节中,AI系统首先对离散对原始资源进行DIKW体系对建模,包括对语义对象对概念化和对语义对象之间关系桥梁对搭建,其次根据资源自身所具有的隐私敏感性对其进行分级别存储。在意图获取环节中,对主意图进行意图体系树的划分,意图体系树划分对越细意图樾容易得到满足。在资源传输环节中,AI系统根据意图搜索出需要的RSC,资源可以通过资源转换模块等运作生成新的资源。除此之外,资源集中、资源排序、资源补充等不同等方法用于辅助在传输过程中对各个参与方意图体系树的满足。

5. 
新冠肺炎疫情期间AI管理系统的自动化决策过程及方案设计

本文以新冠肺炎疫情期间密切接触者病例的流调病学调查及管理小组人员安排为例,来实现对AI系统的自动化决策框架的模拟仿真,并以Neo4j来实现基础的DIKW图谱可视化功能。本章中的资源流通过程以流行病学调查结果作为数字资源来源。三个参与方包括政府部门(gov)作为访问者,民众个体(user)作为参与流行病学调查的用户,以及负责流调管理的AI系统(sys)

5.1. 意图模型的建立与资源采集过程

当某一地区出现新冠肺炎疫情危机时,管理卫生健康的人工智能运行系统接收到了新的意图PUPgovCMAT平衡被打破。根据《中华人民共和国个人信息保护法》第二章第十三条之(四)——“为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需”之规定,AI系统开放CLCpro模块权限,展开对确诊患者或密切接触者的流行病学调查相关RSC的采集工作,此次流行病学调查所采集到的RSC属于用户主动发布的主动类资源。

5.1.1. 意图模型的建立

根据已知KNGR,由新型冠状病毒感染的肺炎具有传染性,病毒潜伏期一般为3-7天,最长不超过14天。EFVrsc大于14天的数字资源用途小,采集性价比低,而且具有扩大用户因数字资源采集而导致隐私泄露风险的可能。在兼顾资源及时性和隐私安全性的前提下,只采集EFVrsc小于14天的数字资源。

KNGR=*COVID - 19 virusesincubation3~14 days

DAT=EFVrsc=(7 days/14 days)

在对密切接触者的流行病学调查中,gov进行流调RSC采集的主意图PUPgov是排查疫情隐患,PUPgov与其子意图的关系如图16所示。PUPgov意图模型的PUPgov_m是密切接触者疫情隐患排查,一共可分为三个一级子意图PUPgovs,分别是密切接触者身份流调、密切接触者行程流调和密切接触者隔离安排。每个PUPgovs下面又有各自不同的二级子意图PUPgovss和三级子意图PUPgovsss。图17中白色意图部分为必填写项,即系统必须完成对基于该意图的必要的RSC采集才能算做采集工作的完成,该类RSC用于分析和计算的用户的行动轨迹和被感染风险。灰色为选填写项,gov根据规则KNGR_Fairness而设立,意图在于对“老弱病残孕”等受保护群体提供所需要的额外服务,由user来选择是否填写上报和被gov采集。

PUPgov_m=<“密切接触者疫情隐患排查”>

PUPgovs1=<“密切接触者身份流调”>

PUPgovs2=<“密切接触者行程流调”>

PUPgovs3=<“密切接触者隔离安排”>

 

18 疫情防控期间gov意图表达示意图

Fig. 18 Diagram of gov purpose expression during epidemic prevention and control

5.1.2. 基于意图体系树的资源采集

根据如图18所示的意图体系树,gov根据意图体系树制定如图19所示的流行病学调查表来进行具有感染风险的user进行RSC采集工作,流行病学调查表一共45个选项包含了40个必选项和5个非必选项。此次针对密切接触者的流行病学调查一共收集到116份采集反馈,反馈结果以xlsx表格的格式储存,其中的一部分内容如图20所示。

21是使用Neo4j完成的数据图谱GDAT的示意图,以流行病学调查的RSC采集结果其中一份样本为可视化基础而建立。

5.2. DIKW图谱建模实例

AI系统在CLCpro模块运行时从实验室采集到的病毒基因样本并进行概念化为例,概念化比较完成后的RSC资源将补充进入DIKW图谱体系,完成对该病毒属性统计工作的完善。

5.2.1. 资源的概念化

在疫情期间,卫生健康管理AI系统采集到了一项病毒类Ȏnew,编号为Ȏnew1Ȏnew1采集到4个关系边Ȓ1~Ȓ4AI系统将Ȏnew根据病毒基因序列编号为Virogenenew1Virogenenew1和关系边Ȓ组成新的数据类型资源DAT1

Ȏnew1 =Virogenenew1  #Ȏnew1采集到4个关系边Ȓm1=4

DAT1=(Ȓ1Ȓ2Ȏnew1Ȓ3Ȓ4)

根据RSC概念化的流程,AI系统VirogenenewGDAT(Virogene)已知的病毒基因序列Virogeneexist进行遍历匹配比较,得出匹配点MP的数量。如图21所示,AI系统通过DIKW图谱遍历筛查得到Virogenenew1Virogeneexist1主体Ȏ匹配,Virogeneexist1具有10个关系边Ȓ(n1=10),其中3条与Virogenenew13Ȓ边完全匹配(MP=3)。此时,Virogenenew1Ȓ边所连接的Ȏ剩下一个数值型数据DATD=(潜伏期,3)。而Virogeneexist1Ȓ边所连接的相关Ȏ则是范围型数据DATR=(潜伏期,14天以内)DATDDATR规定范围之内(MP=4)。因此,Virogenenew1可视为Virogeneexist1的同体,Virogenenew1GDAT上的统计数值DAT.count(Virogeneexist1)数值加1

For Virogeneexist in GDAT(Virogene):

MP=Match(Virogenenew , Virogeneexist)=4=n+1

DAT.count(Virogeneexist1)++

 

19 流行病学调查表示意图

Fig. 19 Schematic diagram of epidemiological questionnaire

 

20 流行病学调查结果

Fig. 20 Results of epidemiological investigation

 

21 基于流行病学调查RSC采集结果制作的数据图谱

Fig. 21 Data graph based on RSC data collected from epidemiological investigation





22 语义对象的对比识别


Fig. 22 Comparative recognition of semantic objects

5.2.2. 特殊需求人群DIKW图谱的建立

流行病学调查RSC采集中最后5项非必填项,对应如图18意图模型中的灰色部分,是基于价值模型中对决策事件的公平性要求而产生。对于需要在酒店进行14天隔离的具有传染风险人群,AI系统需要在PUPgovPUPuser之间达成一个平衡,将不同类型的人群进行类型划分和不同需求服务的匹配。

流调问卷里第40项是关于隔离中特殊需求群体的RSC采集,在GKNG(Event)上的KNGR所规定的基础的特殊需求群体主要包括70岁以上老年人”、“14岁以下青少年儿童”、“生病患者”、“残疾人士”和“孕期妇女”,同时基于公平性的RR补充性原则,在流行病学表格中设立“其他”选项,若在流行病学调查过程中发现新的需求示例可生成对卫生健康类KNGR的反馈补充,有利于隔离政策的完善。流调中关于特殊需求隔离人群的选项内容和调查结果如图23所示。

 

23 流行病学调查中关于特殊需求隔离人群的选项内容和结果

Fig.23 Options content and results of an epidemiological survey on people with special needs in isolation

PUPgov的驱动下,AI系统在采集得来流行病学调查报告中,一共筛查出五类特殊需求人群,分别编号为DATaDATe的五种集合型数据,共同组成了一个范围型数据类型资源DATR1其中,包括了914岁以下青少年(密接1号,密接3号,密接15号,密接38号,密接60号,密接92号,密接55号,密接70号,密接71)DATb包括了5位需要医疗服务的慢性病患者(密接8号,密接28号,密接47号,密接63号,密接81)DATc包括2名孕妇(密接36好,密接60)DATd包括1位残疾人(密接37)

DATa中的914岁以下青少年属于为无行为能力人,流行病学调查表由监护人代填写,PUPuser基于各自的监护人意图而产生。除此之外,有470岁以上老人在流行病学调查中表示无特殊需求,故不纳入统计。

PUPgov=<记录特殊需求隔离人群类型>

DATR1=(PUPgov | DATaDATbDATcDATdDATe)

=(<记录特殊需求隔离人群类型>| (低龄儿童)(慢性病患者)(孕期妇女)(残疾人士)(食物过敏人群)) 

以为DATa914岁以下青少年儿童为例,图24所示的是的DATa的流行病学调查RSC采集结果,图25所示的是将DATa中的9名密切接触者的部分基础RSC导入Neo4j库中所建立得到的数据图谱。

 

24 流行病学调查中关于14岁以下青少年儿童的调查结果

Fig. 24 Results of an epidemiological survey of children and adolescents under 14 years of age

5.3. 用户意图模型的建立与价值模型的应用

5.3.1. 意图模型的建立

如图26所示为基于DATR1所建立的特殊需求隔离人群意图模型,在范围型数据类型资源DATR1中,有五种类型数据DATaDATbDATcDATdDATeDATa中的1号病例具有核算检测为阴性,但有疑似感染症状,1号监护人选择了携带监护人住院陪同隔离。另有3号、15号、38号、60号和92号病例属于年龄312岁的儿童,无论是从管理原则知识图谱上的KNGR还是基于监护人的所填写的流行病学调查内容,以上五名病例需要各自携带一名监护人共同隔离。同一类型中的55号、70号、71号为三名已满14岁初中生,在监护人允许的情况下,允许自行隔离。

 

25 14岁以下青少年儿童流行病学调查结果的数据图谱

Fig. 25 Data graph of the results of an epidemiological survey of children and adolescents under 14 years of age

DATb包括了5位需要特殊医疗服务的慢性病患者8号病例为癌症患者,需要定期去医院进行化疗;28号病例为肾衰竭患者,需要定期去医院进行透析治疗。基于二者的PUPuser为住院隔离。

DATc包括2名孕妇,其中,36号孕妇处于孕早期,PUPuser为定期产检;60号孕妇处于孕晚期,PUPuser需求为及时的分娩。DATd包括仅包括1位腿部残疾人,需求轮椅、升降床和一名监护人。

除了以上KNGR规定人群外,AI系统根据图23中流行病学调查的第40项“其他”选项的调查反馈新增两类特殊需求群体,AI系统将其编号为DATe=(食物过敏人群)和DATf=(其他语言交流人群)。基于公平性RR原则和AI系统反馈机制,将这两类人群写入GKNG(AI系统)KNGR类型资源中,如图27所示。在GKNG中,KNGRINCLUDE_rule”作为关系边Ȓ

Create(Ȏ1:食物过敏人群)

Create(Ȏ2:其他语言交流人群)

Create (Ȏ1:特殊需求人群) - [Ȓ:INCLUDE_rule] ->(Ȏ2:食物过敏人群);

Create (Ȏ1:特殊需求人群) - [Ȓ:INCLUDE_rule] ->(Ȏ2:其他语言交流人群);

 

26 特殊需求隔离人群的类型和意图

Fig. 26 Types and intentions of people with special needs isolation

 

27 特殊需求隔离人群的类型和意图

Fig. 27 Types and intentions of people with special needs isolation

DATe包括3名食物过敏人员(密接35号,密接37号,密接64)。其中,35号密接对荞麦过敏,37号密接对花生过敏,64号密接对鸡蛋过敏,此3人的共同PUPuser为不含以上过敏物质的隔离餐食。

DATf包括3名非中文母语且交流有困难的人员 (密接66号,密接67号,密接90)。其中,76号密接和77号密接使用英语,90号密接使用法语。

5.3.2. 价值模型的建立

在参与流行病学调查的116名密切接触者中,排除97日内核算检测为阳性的确诊人群和另外4名因为非新冠原因有住院治疗需求的人群,剩余103位需要在特定酒店隔离14日以上,以防止处在病毒潜伏期的密切接触者造成病毒传播。对于剩余103位人群,AI系统在遵循价值模型中公平性的DI包容性原则的情况下,从50名志愿者名单中选出12名管理者负责统筹安排隔离工作,DI原则的价值模型的建立过程步骤如下:

(1) 根据流行病学调查所采集到的内容,对密切接触者的数量和类型进行统计:

103名酒店隔离人群中,特殊需求隔离人群的分布如图28所示。除此之外,隔离人群中一共有42名男性,61名女性,男性占比40.78%,女性占比59.22%,男女性别占比如图29(a)所示;隔离人群中45人未婚,18人已婚未育,35人已婚已育,5人离异,婚育情况分布如图29(b)所示。103名酒店隔离人群中有3名英文外教和1名法国游客,其中1名外教能够说中文,另外两名外教中文表达能力有限,语言能力分布如图29(c)

(2) 基于此次酒店隔离期间可供选择的酒店管理人员名单建立的DIKW图谱Graph(“志愿者”),包括数据图谱GDAT(“志愿者”)、信息图谱GINF(“志愿者”)和知识图谱GKNG(“志愿者”)

(3) 从知识图谱GKNG(“志愿者”)所储存的KNGRKNGE中,以usage”和“care”等关键词提取不同类型的隔离人员所对应的管理人员类型,提取结果如表7所示的内容,包括专业(professional, P)人员和非专业人员(non-professional, N),分别列为管理人员选择决策的第一类选择和第二类选择。

 

28 密切接触者中弱势群体类型构成情况

Fig. 28 Type composition of vulnerable groups in close contacts

 

    

(a) 不同性别的占比                            (b) 年龄段分布情况

(a) The proportion by gender                       (b) Age distribution

 

(c) 使用语言分布情况

(c) Distribution of languages used

29 密切接触者不同属性构成情况

Fig. 29 Composition of different attributes of close contacts

(4) 根据式(17)建立酒店隔离密切接触者的用户矩阵酒店隔离人群中男性为42人,女性为61人,则向量AGender分为两个类型“男”与“女”,包含两种数据分别记录了酒店隔离人群中男性与女性的数量。向量aGender则是AGender向量的归一化,与29(a)中的内容对应。

向量Bage则记录了隔离人群的年龄分布,与图28(b)中的内容相对应,由于“14岁以下青少年儿童”和“70岁以上老年人”属于需要特殊需求的照顾群体,18岁以下青少年属于无行为能力人,60岁及以上群体属于退休人群,因此排除在管理人员的选择名单之外。依据图29(b)所划分为包含“21~30岁”、“31~40岁”、“41~50岁”、“51~60岁”各群体人数的四维向量,向量bage则是向量Bage的归一化。

而用于记录密切接触人群中的特殊需求人群向量G则是基于表7中的内容建立的七维向量。七类人群分别为“14岁以下青少年”、“慢性病患者”、“残疾人士”、“孕期妇女”、“食物过敏患者”、“英语交流者”、“法语交流者”。向量G记录了七类人群在中密切接触者人群中的数量。

(5) 根据KNGR的要求,AI系统需要从已有的人名单中选出12人的管理小组,则访问者矩阵的系数μ=12

12人的管理小组中,应包含男性5名,女性7名,21~30岁”年龄段3人、“31~40岁”年龄段4人、“41~50岁”年龄段3人、“51~60岁”2人。同时对于表7中的每一类对应人员要求至少1人,以专业人员优先,非专业人员在无专业人员可选的情况下作为替补。

7 酒店隔离特殊需求人群

Table 7 The type, identifier, and common structure of DAT

人员类型

人数

对应人员类型

14岁以下青少年

9

有专业育婴师/保姆水准的志愿者(professional)

有孩子的志愿者(non-professional)

慢性病患者

5

对应病种的医生(professional)

对医疗知识有一定了解的志愿者(non-professional)

残疾人士

1

残疾人协会成员(professional)

有残疾人护理经验的志愿者(non-professional)

孕期妇女

2

具有产科工作经验的医生志愿者(professional)

具有生育经验的女性志愿者(non-professional)

食物过敏患者

3

过敏护理专业志愿者(professional)

有类似过敏经验的志愿者(non-professional)

英语外教

2

英语日常对话水平志愿者

法国游客

1

法语日常对话水平志愿者

 

 

5.3.3. 基于价值模型的管理人员选择方案设计

根据以上列出来的条件,通过Match函数在已有的Graph(“志愿者”)中进行资源搜索决策匹配,通过Match函数得到的部分DIKW图谱匹配输出结果如图30所示。同时,AI系统对图29中所示的DIKW图谱与表7中所反映的价值模型进行匹配程度的检验,检验结果如表8和表9所示。

 

30 基于公平性DI原则输出的部分志愿者DIKW图谱

Fig. 30 Partial volunteer DIKW graph output based on fairness DI principle

8和表9是评估图29中的内容与表7中的内容是否对应的检验表格,图29AI系统基于公平性DI原则所做出DIKW资源决策812名管理人员志愿者的基本信息统计。根据8中内容所示,12名志愿者管理人员由57组成。其中,志愿者7号、17号和35属于21~30年龄段,共3组成范围型数据DATR1志愿者2号、10号、26号、37属于31~40年龄段,共4组成DATR2志愿者5号、31号、36属于41~50年龄段,3组成DATR3志愿者24号、46属于51~60年龄段,组成DATR4

DATR1=(<PUP:21~30”志愿者登记> |

(志愿者7)~(志愿者17)~(志愿者35))

DATR2=(<PUP:31~40”志愿者登记> |

(志愿者2)~(志愿者10)~(志愿者26)~(志愿者37))

DATR3=(<PUP:41~50”志愿者登记> |

(志愿者5)~(志愿者31)~(志愿者36))

DATR4=(<PUP:51~60”志愿者登记> | (志愿者24)~(志愿者46))

 

9是特殊需求人群的对应管理人员表格,其中P代表专业人士,N代表非专业人士。根据图27中的内容可知,志愿者7曾经是一名食物过敏患者,志愿者17是一名医学生,志愿者2号、5号、24号、31号、36号、46号为有孩子的志愿者,其中的24号、31号、36号、46为有过生育经验的女性志愿者,志愿者17号和31号可使用英文进行日常交流,志愿者37号有残疾人护理照顾的经验。

DATL1=(志愿者7yes,食物过敏患者)

DATL2=(志愿者17yes,医学生)

DATR1=(<PUP:有孩子的志愿者登记>(志愿者2)~(志愿者5)~(志愿者24)~(志愿者31)~(志愿者36)~(志愿者46))

DATR2=(<PUP:有生育经验的女性志愿者登记>(志愿者24)~(志愿者31)~(志愿者36)~(志愿者46))

INFU1=志愿者17Language_usage英文

INFU1=志愿者31Language_usage英文

INFU2=志愿者37Nurse_usage残疾人

根据表8和表9中的检验结果,AI系统决策所得到的如图30中的部分Graph(“管理人员”)中的12名管理人员志愿者,除了剩余的一名无法使用中文进行交流的法国游客之外,可满足其他特殊需求人群的常规需求。若管理小组还有额外的志愿者招募名额AI系统将会优先向他们推荐招募能够使用法语进行交流的志愿者,以弥补现有团队的不足

8 基于公平性规则的管理人员决策选择

Table 8 Management decision selection based on fairness rule

编号

性别

年龄

21~30

31~40

41~50

51~60

2





5





7





10





17





24





26





31





35





36





37





46





9 特殊需求人群的对应管理人员表格

Table 9 Forms of managers for special needs groups

姓名

14岁以下青少年

慢性病患者

残疾人士

孕期妇女

食物过敏患者

英语外教

法国游客

P

N

P

N

P

N

P

N

P

N

2












5












7












17










24











31










36











37












46











5.4. 本章小结

本章以新冠肺炎期间的疫情防控为背景,进行人工智能的自动化决策的仿真模拟实验。以流行病学调查表格的发放和填写数字资源资源采集环节,政府部门为资源流通发起的访问者,参与流行病学调查的密切接触者为用户,采集得到的数字资源属于主动类资源。在意图识别环节,分别建立访问者用户的意图模型,划分意图体系树。在资源建模环节中,通过资源的概念化进行属性和语义对象结构的补充,利用Neo4jDIKW图谱进行基础部分的可视化。除此之外,基于价值模型中的公平性DI原则挑选疫情防控志愿者管理小组,保证不同类型的密切接触者在疫情防控隔离期间的权益。

 

 


6. 总结与展望

人工智能时代,用户与互联网平台的交互行为会产生各种不同类型的数字资源数字资源能够反映用户的性格和习惯,具有极高的利用价值。同时,人工智能自动化决策系统被越来越广泛的用于互联网平台的日常运营中,与传统的人工决策相比,人工智能系统的自动化决策缺少一套完整的法律框架,没有明确的责任划分制度和标准。人工智能系统对于数字资源的处理和利用处在一个无标准的灰色地带,权利和责任的划分标准不明确,容易造成人工智能系统在利益驱使下对数字资源的过度使用。而人工智能系统的自动化决策发生错误造成法律后果时,缺乏法律责任的划分标准容易造成各方推诿,无人负责的后果。

本文基于DIKW图谱的资源融合体系,从多个角度出发对人工智能治理过程和数字资源使用进行规范化。

第一、对在资源采集环节采集得到的资源进行DIKW体系建模,以“实体对象—关系—实体对象”为主要结构,分别建立数据、信息和知识图谱。不同类型的资源有各自不同的属性和形式,彼此之间可以通过将“实体对象—关系—实体对象”这一基础结构拆分再连接,转换融合生成新的资源,扩大了人工智能系统再自动化决策的过程中可利用的资源数量。

第二、建立精细化的意图模型,明确在人工智能系统的自动化决策过程中,不同参与方的对于资源需求的意图是什么?什么样的资源用于满足参与方的意图最合适?将参与方意图精细化划分为意图体系树,同时从已建立的DIKW图谱上搜索可用于意图满足的资源,再根据精细化的意图体系数对搜索得到的资源进行匿名集中化处理后再传输,降低资源的过度传输所导致的传输浪费和安全隐患。

第三、建立价值模型,并将写入人工智能系统的知识图谱,以规则性知识的形式作为人工智能系统在决策过程中的行动准则。包括参与方的不同层次公平性、个人人身和财产的安全性,以及在决策过程中自主选择的权力。

 


参考文献

[1] 陈磊. 犯罪故意的古今流变——兼评方法论意义上故意与过失的界分[J].环球法律评论,2014,36(04):25-46.

[2] 陈钟. 人工智能与未来社会:趋势·风险·挑战——从人工智能本质看未来的发展[J]. 探索与争鸣, 2017(10):4.

[3] 丁晓东. 算法与歧视 从美国教育平权案看算法伦理与法律解释[J].中外法学,2017,29(06):1609-1623.

[4] 段玉聪, 邵礼旭, 曹步清, . 投入驱动的存储与计算一体化的事务处理效率优化方法[J]. 计算机工程与科学, 2018, 40(8):7.

[5] 段玉聪, 张欣悦, 周长兵, . 面向隐式类型化资源的安全防护[J]. 计算机科学与探索, 2019, 13(12): 2061-2072.

[6] 房殿军, 周涛. 自动化立体仓库中智能AGV群体的静态路径规划与动态避障决策研究[J]. 物流技术, 2017, 36(6):9.

[7] 高一骄.  AI+生物识别技术对可信身份认证的挑战[J]. 2021(2020-7):645-651.

[8] 黄璜. 数字政府的概念结构:信息能力、数据流动与知识应用——兼论DIKW模型与IDK原则[J]. 学海, 2018(4):10.

[9] 贾开, 蒋余浩. 人工智能治理的三个基本问题:技术逻辑、风险挑战与公共政策选择[J]. 中国行政管理, 2017(10):6.

[10] 雷羽潇, 段玉聪. 面向跨模态隐私保护的AI治理法律技术化框架[J]. 计算机科学, 2021, 48(9):12.

[11] 雷羽潇, 段玉聪. 基于 DIKW 图谱的虚拟社区用户性格分类与转换方法[J]. 应用科学学报, 2020, 38(5): 803-824.

[12] 李训虎. 刑事司法人工智能的包容性规制[J]. 中国社会科学文摘, 2021(6):2.

[13] 廖渝, 吴睿明, Philip D Z, . 意外地点任务中不同测试问题及意图理解与执行功能的关系[J]. 心理学报,2006(02):207-215.

[14] 马长山. 智能互联网时代的法律变革[J]. 法学研究, 2018, 4: 20-38.

[15] 孙建丽. 算法自动化决策风险的法律规制研究[J]. 法治研究, 2019(4):10

[16] 王余蓝. 图形数据库NEO4J与关系据库的比较研究[J]. 现代电子技术, 2012, 35(20):3.

[17] 吴汉东. 人工智能时代的制度安排与法律规制[J]. 法律科学:西北政法大学学报, 2017, 35(5):9.

[18] 吴嘉瑞, 唐仕欢, 郭位先, . 基于数据挖掘的名老中医经验传承研究述评[J]. 中国中药杂志, 2014, 39(4):4.

[19] 中华人民共和国个人信息保护法[J]. 中华人民共和国全国人民代表大会常务委员会公报, 2021(6):9.

[20] 姚玉斌, 叶爽利, 吴志良, . 稀疏矩阵法网络拓扑分析[J]. 电力系统保护与控制, 2011, 39(23): 1-5.

[21] 叶继元, 陈铭, 谢欢, . 数据与信息之间逻辑关系的探讨——兼及DIKW概念链模式[J]. 中国图书馆学报, 2017, 43(3):10.

[22] 张凌寒. 《个人信息保护法(草案)》中的平台算法问责制及其完善[J]. 经贸法律评论, 2021(1):11.

[23] 张玉洁. 论人工智能时代的机器人权利及其风险规制[J]. 东方法学, 2017 (6): 56-66.

[24] 张妍妍, 李君轶, 杨敏. 基于旅游数字足迹的西安旅游流网络结构研究[J]. 人文地理, 2014, 29(4):8.

[25] 赵义兰. 一句天气谚语的气象验证[J]. 山东气象, 2006, 26(3):1.

[26] 郑戈. 人工智能与法律的未来[J]. 探索与争鸣, 2017(10):7.

[27] 郑佳宁. 知情同意原则在信息采集中的适用与规则构建[J]. 东方法学, 2020.

[28] Almada M, Dymitruk M. Privacy and Data Protection Constraints to Automated Decision-Making in the Judiciary[J]. Available at SSRN 3579378, 2020.

[29] Araujo T, Helberg Er, Kruikemeier S, et al. In AI we trust? Perceptions about automated decision-making by artificial intelligence[J]. 2020.

[30] Astington J. The child's discovery of the mind[M]. Harvard University Press, 1993.

[31] Ball A, Ramim M, Levy Y. Examining users personal information sharing awareness, habits, and practices in social networking sites and e-learning systems[J]. Online Journal of Applied Knowledge Management, 2015, 3(1): 180-207.

[32] Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798-1828.

[33] Berkelaar B. Cybervetting, online information, and personnel selection: New transparency expectations and the emergence of a digital social contract[J]. Management Communication Quarterly, 2014, 28(4): 479-506.

[34] Berthon P, Pitt L, Kietzmann J, et al. CGIP: managing consumer-generated intellectual property[J]. California Management Review, 2015, 57(4): 43-62.

[35] Blumenstock J. Fighting poverty with data[J]. Science, 2016, 353(6301):753-754.

[36] Boulding K. Notes on the information concept[C]//Exploration. Toronto: Colorado Associated University Press, 1955, 6: 103-112.

[37] Bozdag E. Bias in algorithmic filtering and personalization[J]. Ethics and information technology, 2013, 15(3): 209-227.

[38] Broughton A, Foley B, Ledermaier S, et al. The use of social media in the recruitment process[J]. Institute for Employment Studies, 2013, 3(13): 1-42.

[39] Cesare N, Lee H, McCormick T, et al. Promises and pitfalls of using digital traces for demographic research[J]. Demography, 2018, 55(5): 1979-1999.

[40] Chen C, Song M, Heo G E. A scalable and adaptive method for finding semantically equivalent cue words of uncertainty[J]. Journal of Informetrics, 2018, 12(1): 158-180.

[41] Chipperfield C, Furnell S. From security policy to practice: Sending the right messages[J]. Computer Fraud & Security, 2010, 2010(3): 13-19.

[42] Citron D. Technological due process[J]. Wash. UL Rev., 2007, 85: 1249.

[43] Copi I, Cohen C, Flage D. Essentials of logic[M]. Routledge, 2016.

[44] Crawford K. Artificial intelligences white guy problem[J]. The New York Times, 2016, 25(06).

[45] Defourneaux G, Peltier N. Analogy and abduction in automated deduction[C]//IJCAI (1). 1997: 216-225.

[46] Duan Y. Existence Computation: Revelation on Entity vs. Relationship for Relationship Defined Everything of Semantics[C]// 2019 20th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD). IEEE, 2019.

[47] Duan Y. Towards a Periodic Table of conceptualization and formalization on State, Style, Structure, Pattern, Framework, Architecture, Service and so on[C]//SNPD. 2019: 133-138.

[48] Duan Y, Lu Z, Zhou Z, et al. Data privacy protection for edge computing of smart city in a DIKW architecture[J]. Engineering Applications of Artificial Intelligence, 2019b, 81: 323-335.

[49] Duan Y, Shao L, Hu G, et al. Specifying architecture of knowledge graph with data graph, information graph, knowledge graph and wisdom graph[C]// IEEE International Conference on Software Engineering Research. IEEE, 2017a: 327-332.

[50] Duan Y, Shao L, Sun X, et al. An investment defined transaction processing towards temporal and spatial optimization with collaborative storage and computation adaptation[C]//International Conference on Intelligent Data Engineering and Automated Learning. Springer, Cham, 2017b: 452-460.

[51] Duan Y, Sun X, Che H, et al. Modeling data, information and knowledge for security protection of hybrid IoT and edge resources[J]. IEEE Access, 2019a, 7: 99161-99176.

[52] Duan Y, Zhan L, Zhang X, et al. Formalizing DIKW architecture for modeling security and privacy as typed resources[C]//International Conference on Testbeds and Research Infrastructures. Springer, Cham, 2018: 157-168.

[53] Eagle N, Pentland A. Reality mining: sensing complex social systems[J]. Personal and ubiquitous computing, 2006, 10(4): 255-268.

[54] Ekstrand M, Joshaghani R, Mehrpouyan H. Privacy for all: Ensuring fair and equitable privacy protections[C]//Conference on Fairness, Accountability and Transparency. PMLR, 2018: 35-47.

[55] Elmaghraby A, Losavio M. Cyber security challenges in Smart Cities: Safety, security and privacy[J]. Journal of advanced research, 2014, 5(4): 491-497.

[56] Eubanks V. Automating inequality: How high-tech tools profile, police, and punish the poor[M]. St. Martin's Press, 2018.

[57] Fadahunsi K, Akinlua J, OConnor S, et al. Protocol for a systematic review and qualitative synthesis of information quality frameworks in eHealth[J]. BMJ open, 2019, 9(3): e024722.

[58] Ferguson A. Big Data and Predictive Reasonable Suspicion[J]. Social Science Electronic Publishing, 2014, 163(2).

[59] Golder S, Macy M. Digital footprints: Opportunities and challenges for online social research[J]. Annual Review of Sociology, 2014, 40: 129-152.

[60] Goldman E. An introduction to the california consumer privacy act (CCPA)[J]. Santa Clara Univ. Legal Studies Research Paper, 2020.

[61] Gretzel U. Influencer marketing in travel and tourism[J]. Advances in social media for travel, tourism and hospitality: New perspectives, practice and cases, 2018: 147-156.

[62] Han Y, Carcillo J, Venkataraman S, et al. Unexpected increased mortality after implementation of a commercially sold computerized physician order entry system[J]. Pediatrics, 2005, 116(6): 1506-1512.

[63] Harper J. Privacy and the Four Categories of Information Technology[R]. American Enterprise Institute Report, 2020.

[64] Hilbert M , Lopez P . The World's Technological Capacity to Store, Communicate, and Compute Information[J]. Science, 2011, 332(6025):60-5.

[65] Hoffman S, Podgurski A. Balancing privacy, autonomy, and scientific needs in electronic health records research[J]. SMUL Rev., 2012, 65: 85.

[66] Hu H, Ge Y, Hou D. Using web crawler technology for geo-events analysis: A case study of the Huangyan Island incident[J]. Sustainability, 2014, 6(4): 1896-1912.

[67] Jalali Z, Wang W, Kim M, et al. On the information unfairness of social networks[C]//Proceedings of the 2020 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2020: 613-521.

[68] Jobin A, Ienca M, Vayena E. The global landscape of AI ethics guidelines[J]. Nature Machine Intelligence, 2019, 1(9): 389-399.

[69] Kosinski M, Stillwell D, Graepel T. Private traits and attributes are predictable from digital records of human behavior[J]. Proceedings of the national academy of sciences, 2013, 110(15): 5802-5805.

[70] Krumm J, Davies N, Narayanaswami C. User-generated content[J]. IEEE Pervasive Computing, 2008, 7(4): 10-11.

[71] Kwan S, Olken F, Rotem D. Uncertain, incomplete, and inconsistent data in scientific and statistical databases[M]//Uncertainty Management in Information Systems. Springer, Boston, MA, 1997: 127-153.

[72] Lan T, Kao D, Chiang M, et al. An axiomatic theory of fairness in network resource allocation[M]. IEEE, 2010.

[73] Latour B. Beware, your imagination leaves digital traces[J]. Times Higher Literary Supplement, 2007, 6(4): 129-131.

[74] Lei Y, Duan Y, Song M. Technical Implementation Framework of AI Governance Policies for Cross-Modal Privacy Protection[C]//International Conference on Collaborative Computing: Networking, Applications and Worksharing. Springer, Cham, 2020: 431-443.

[75] Lewis K. Three fallacies of digital footprints[J]. Big Data & Society, 2015, 2(2): 2053951715602496.

[76] Li Y, Duan Y, Maama Z, et al. Swarm Differential Privacy for Purpose Driven Data-Information-Knowledge-Wisdom Architecture[J]. arXiv preprint arXiv:2105.04045, 2021.

[77] Liu H, Singh P. ConceptNeta practical commonsense reasoning tool-kit[J]. BT technology journal, 2004, 22(4): 211-226.

[78] Luna F. Elucidating the concept of vulnerability: Layers not labels[J]. IJFAB: International Journal of Feminist Approaches to Bioethics, 2009, 2(1): 121-139.

[79] Madden M, Fox S, Smith A, et al. Digital footprints[J]. Pew Research Center's Internet & American Life Project, 2007.

[80] Mahdavinejad M, Rezvan M, Barekatain M, et al. Machine learning for Internet of Things data analysis: A survey[J]. arXiv, 2018.

[81] Malle B, Knobe J. The folk concept of intentionality[J]. Journal of experimental social psychology, 1997, 33(2): 101-121.

[82] Mao H, Shuai X, Kapadia A. Loose tweets: an analysis of privacy leaks on twitter[C]//Proceedings of the 10th annual ACM workshop on Privacy in the electronic society. 2011: 1-12.

[83] McCusker J, Erickson J, Chastain K, et al. What is a knowledge graph[J]. Semantic Web Journal, 2018.

[84] Mittelstadt B, Allo P, Taddeo M, et al. The ethics of algorithms: Mapping the debate[J]. Big Data & Society, 2016, 3(2): 2053951716679679.

[85] Mökander J, Morley J, Taddeo M, et al. Ethics-based auditing of automated decision-making systems: Nature, scope, and limitations[J]. Science and engineering ethics, 2021, 27(4): 1-30.

[86] Mosier K, Skitka L. Human decision makers and automated decision aids: Made for each other?[M]//Automation and human performance: Theory and applications. CRC Press, 2018: 201-220.

[87] National Science and Technology Council (US). Networking and Information Technology Research and Development Subcommittee. The national artificial intelligence research and development strategic plan[M]. Executive Office of the President or the United States, 2016.

[88] Oliver S. Collect call[J]. Quadrant, 1986, 30(10): 19.

[89] Rosino M. Algorithms of Oppression: How Search Engines Reinforce Racism[J]. Social Forces, 2019(4):4.

[90] Rowley J. The wisdom hierarchy: representations of the DIKW hierarchy[J]. Journal of information science, 2007, 33(2): 163-180.

[91] Seah J, Tang C, Buchlak Q, et al. Effect of a comprehensive deep-learning model on the accuracy of chest x-ray interpretation by radiologists: a retrospective, multireader multicase study[J]. The Lancet Digital Health, 2021, 3(8): e496-e506.

[92] Shannon C. A mathematical theory of communication[J]. The Bell system technical journal, 1948, 27(3): 379-423.

[93] Sheeran, P. IntentionBehavior Relations: A Conceptual and Empirical Review[J]. European Review of Social Psychology, 2002, 12(1):1-36.

[94] Simonite T. AI is the futurebut where are the women[J]. Retirado de https://www. wired. com/story/artificial-intelligence-researchers-gender-imbalance, 2018.

[95] Snijders C, Matzat U, Reips U D. "Big Data" : Big Gaps of Knowledge in the Field of Internet Science[J]. International Journal of Internet Science, 2012, 7(1):1-5.

[96] Song Z, Duan Y, Wan S, et al. Processing optimization of typed resources with synchronized storage and computation adaptation in fog computing[J]. Wireless Communications and Mobile Computing, 2018, 2018.

[97] Spary E. Linnaeus: The Man and His Work[J]. British Journal for the History of Science, 1995.

[98] Sternberg R, Sternberg K, Mio J. Cognitive psychology[M]. Cengage Learning Press, 2012.

[99] Taddeo M, Floridi L. How AI can be a force for good[J]. Science, 2018, 361(6404): 751-752.

[100] Trudeau R. Introduction to graph theory[M]. Courier Corporation, 2013.

[101] Valentino-DeVries J, Singer N, Keller M, et al. Your apps know where you were last night, and theyre not keeping it secret[J]. New York Times, 2018, 10(2018): 2018.

[102] Vang K. Ethics of Google's Knowledge Graph: some considerations[J]. Journal of Information, Communication and Ethics in Society, 2013.

[103] Vegas S, Juristo N, Basili V. Maturing software engineering knowledge through classifications: A case study on unit testing techniques[J]. IEEE Transactions on Software Engineering, 2009, 35(4): 551-565.

[104] Voigt P, Von dem Bussche A. The eu general data protection regulation (gdpr)[J]. A Practical Guide, 1st Ed., Cham: Springer International Publishing, 2017, 10(3152676): 10.5555.

[105] Wallace K. Anonymity[J]. Ethics and Information technology, 1999, 1(1): 21-31.

[106] Wang R, Strong D. Beyond accuracy: What data quality means to data consumers[J]. Journal of management information systems, 1996, 12(4): 5-33.

[107] Wang Y, Norcie G, Komanduri S, et al. " I regretted the minute I pressed share" a qualitative study of regrets on Facebook[C]//Proceedings of the seventh symposium on usable privacy and security. 2011: 1-16.

[108] Webber J. A programmatic introduction to neo4j[C]//Proceedings of the 3rd annual conference on Systems, programming, and applications: software for humanity. 2012: 217-218.

[109] Wittgenstein L, Anscombe G E M, von Wright G H, et al. On certainty[M]. Oxford: Blackwell, 1969.

[110] World Bank. Information and Communications for Development 2018: Data-Driven Development[J]. 2018.

[111] Wu X. Data Mining: Artificial Intelligence in Data Analysis[J]. IEEE Computer Society, 2004:7-7.

[112] Wyner G. Digital Footprints Abound[J]. American Marketing Association, Accessed January, 2018, 20: 2018.

[113] Xia P, Zhang L, Li F. Learning similarity with cosine similarity ensemble[J]. Information Sciences, 2015, 307: 39-52.

[114] Zaslavsky A, Perera C, Georgakopoulos D. Sensing as a service and big data[J]. arXiv preprint arXiv:1301.0159, 2013.

[115] Zeleny M. Management support systems: towards integrated knowledge management[J]. Human systems management, 1987, 7(1): 59-70.


攻读硕士学位期间取得的学术成果

科研项目:

1. 国家自然科学基金(No. 61662021No. 72062015)

2. 海南省自然科学基金(No. 618MS025No. 620RC561No. 719MS031)

3. 海南省教育厅项目(No. Hnky2019-13)

4. 海南大学教育教学改革研究项目(No. HDJY2102, No. HDJWJG03)

5. 赛尔网络下一代互联网技术创新项目(No. NGII20180607)

 

发表论文:

1. 基于DIKW图谱的虚拟社区用户性格分类与转换方法

2. Technical Implementation Framework of AI Governance Policies for Cross-modal Privacy Protection

3. 面向跨模态隐私保护的AI治理法律技术化框架

4. Purpose-driven Content Network Transmission Protocol Crossing DIKW Modals

 

授权发明专利:

1. 面向意图计算与推理的DIKW资源传输方法及装置(授权号:ZL 2021 1 1297647.1 ) 

2. 意图计算导向的跨DIKW模态传输与优化系统(授权号:ZL 2021 1 1006628.9)

3. 面向跨模态隐私保护的AI治理方法和装置(授权号:ZL 2021 1 0908765.5)

4. 意图驱动的多模态DIKW内容传输方法(授权号:ZL 2021 1 0867169.7)

5. 基于DIKW的虚拟社区用户类型的转换方法及系统(授权号:ZL 2021 1 0908785.2)

6. 基于DIKW图谱的虚拟社区人员性格分析及内容推送方法(授权号:ZL 2021 1 0788578.8)

7. 融合公平、公正和透明法规技术化的多模态隐私保护方法(授权号:ZL 2020 1 1098222.3 )

 

所获荣誉:

1. 2020年研究生国家奖学金

2. 2020~2021学年海南大学优秀研究生

 

 

 


致谢

当在论文的结尾写下致谢,我的研究生生涯真的要结束了,三年前,我第一次飞到海南岛的上空,迎接我的湛蓝天空仿佛还像昨天一般历历在目。这不是我离家最远的一次,却是我离家最久的一次。作为一名同时跨专业,跨地区,跨学校的“三跨”调剂生,初到海大的我对未来充满了懵懂和无知。

这三年云波诡谲,百年不遇的大疫空降人间,打乱了所有人的生活节奏,这注定会是我人生中最为刻骨铭心的一段记忆,在这段时间,我得到了许多关心我的人的帮助,在这里我要真挚的向他们一一道谢。

首先,我要感谢海南大学,她给予了我们值得珍藏一生的美好回忆,她教会了我们宽容、务实、坚忍,他日迈出校园,便要乘风破浪,感激海大给予我勇气,助我们在人生的新起点扬帆起航。

同样,我也要深深地感谢我的导师段玉聪教授,研究生的这三年里,我成长了很多。在老师的指导下,我从一个科研小白逐渐成长,有幸参与了不同类型的学术会议,感受不同的人生。给予我信任,给了我难得的信心。值此论文成稿之际,谨向辛勤培育我段老师表示由衷的感谢和深深的祝福!

最后,感谢我亲爱的父母,在当日以一分之差名落孙山,我觉得自己的世界都崩塌了,感谢父母作为我最坚实的后端,漫漫求学路没有他们的支持和关怀,我不能有今天的成缋。谢谢给予我的理解和支持,让我更有时间和精力全身心完成学业,开启新的人生起点。点点滴滴,铭记于心,没齿难忘。

 




https://blog.sciencenet.cn/blog-3429562-1369751.html

上一篇:面向DIKW的跨模态内容建模研究和处理实践(指导的2022年5月硕士毕业论文旧版)
下一篇:DIKWP团队第70件发明专利(加拿大发明授权):“面向本质计算与推理的跨DIKW模态文本歧义处理方法”
收藏 IP: 117.126.75.*| 热度|

2 杨正瓴 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 04:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部