||
科学界面对人工智能融入的关键问题
周 健
巴黎的国际科学理事会下属的未来科学中心的专家们最近讨论了科学界面对人工智能(AI)融入的关键问题,他们基于一个国家如何将AI的发展纳入一个健全的研究生态系统的角度,思考和讨论了这方面的问题,其中一些观点颇具前瞻性。这对于当前如日中天的AI研究和开发而言,不失为一个有效的助推器。无论是政府官员,科学家,工程师,教师,学生或其它相关人员,或许都能从这些问题中获得某些新的认知或启示。
1.优先级设置。我们必须找到方法,确定AI发展和科学界吸纳的战略部门。机制可能包括筹资、基础设施发展和能力建设等方案。
2.AI能力会取代科学资助决策中的科学价值吗?AI强度可能成为决定资源分配和决定科学发现轨迹的一个不恰当的决定因素。它的突出性可能会关闭不使用它的研究领域。研究内部的竞争可能不是一个价值问题,而是一个获取AI的问题。这可能存在决策不当和研究资金进一步集中的风险。
3.AI在资源分配中的应用。AI依赖于从现有材料中获得的机器学习,它可能会产生固有的保守性的意见,并重现旧的偏见。
4.AI对评估小组的影响。AI驱动的科学倾向于是跨学科的,因为AIs不知道学科的边界。今天的领域专家小组可能无法充分审查它,尽管最近有许多人呼吁科学应该更多的跨学科。
5.在科学界提高AI技能。需要为各级的学习者和从业者提供广泛、但有差异化的AI技能发展。重要方面包括AI教育、特定领域使用的培训、伦理和跨学科能力。教学还必须认识到,这是一个快速发展的主题。
6.AI研究的多样性。有必要确保人工劳动力的性别、种族和文化多样性,为了公平、并提高研究质量和其他结果。机器学习可以重现现有的不平等现象。我们必须为学科和跨学科的高等教育制定正确的激励措施。
7.公共科学部门的人才保留。公共部门的科学,包括大学和研究中心,需要获取和留住人才。因为私营部门对人工智能技能的需求强烈。不同寻常的是,这是一个私营部门可以提供有趣的工作岗位和高薪的领域。
8.发展适合科学的云计算。对云计算和研究数据存储库的不确定资金限制了科学的进步。在缺乏公共云容量的情况下,较富裕的研究机构可能会与私人公司签订合同,从而限制其研究数据的共享,并将不那么富裕的机构抛在身后。
9.数字鸿沟是算法鸿沟。我们必须确定个人、群体、学术学科、组织和地点之间的AI获取的不平等,如何导致较差的研究结果。
10.AI的科学工具的开发。我们必须确定什么样的伙伴关系,将鼓励开发适合专门研究机构的AI工具。我们如何确保新的AI技术不是仅仅由AI和机器学习社区驱动,而是与所有研究社区共同开发?
11.法律制度之间的差异。我们需要评估国家之间,治理和数据保护的司法差异如何影响国际研究与合作。
12.对科学和研究工作的影响。有必要监测AI的进步如何影响科学工作的数量和性质。
13.连续的AI训练。有必要为科学家和研究人员开发跟上AI工作进度的方法,以产生更好的研究成果,并尽量减少失业人数。可能需要有专业的AI培训师和教师。例如,以帮助用户理解AI提出的伦理问题。
14.AI对科学网络安全的影响。科学机构必须确保尽可能最好的网络健康状态,确保合作伙伴、组织的安全,并控制来自个人的网络安全风险。他们如何保护设施免受知识产权盗窃、获取私人和敏感数据以及为了赎金的攻击?为了保护数据的质量和完整性,需要控制对存储库的访问,以及高素质的人员、强大的合作伙伴关系和适当的构建环境。
15.当前科学的原理和价值。AI可能会在定义当今科学的一些核心原则和价值观之间产生紧张关系。这些矛盾可能包括开放与严谨;隐私和保密与开放科学;大量数据与高质量数据;以及可解释性与“黑箱”的两难结果。
16.结果的可靠性和可解释性。在科学、科学领域和其它活动中,缺乏对AI的信任,可能会给其融入科学带来挑战。但不加批判的信任,将导致对AI技术及其产生的结果的潜在危险的过度依赖。AI倾向于产生规范的结果,而不是开创性的见解,因为它是基于现有的知识和现有的观点。
17.可重现性。今天的科学已经有了严重的可重复性问题。我将如何使它们恶化或康复?为了提高AI的再现性,它需要更加透明,提供更多关于代码、底层数据和实验设计的信息。这既适用于AI的研究,也适用于使用AI的研究。
18.结果的可解释性。科学方法要求科学主张可以解释和理解。一些流行的AI方法就像一个黑箱一样。因此不可能说它们是如何得出结论的,也不可能识别虚假的相关性或因果关系。
19.数据使用伦理。大数据和AI的使用,使当今的同意和人类研究参与者的概念以及数据收集和使用的方式变得复杂。AI伦理和审查委员会关注人类的主题。除了履行其目前的重要作用外,它们还应该能够审查对更广泛的社会可能造成的危害。
20.负责任。当错误的行为可以追溯到AI时,我们必须确定谁应该对制造、伪造、剽窃和其它不良行为负责。如果AI有一个明显的所有者,答案可能很简单;但在未来,如果没有一个明确的所有者时,我们应该如何处置?
21.利益冲突。我们需要看看随着AI的扩散,是否会出现新的利益冲突。目前的利益冲突政策可能不包括它们在内。
22.对贡献者和作者的认可。研究人员必须解释AI是如何被用于生产研究产出的。
23.AI与学术不端。出版商必须确定是否应该使用AI来检测非AI产生的制造、伪造和剽窃。
24.精确性。更大的数据集更适合训练AIs,但它们也更有可能基于可用数据(过拟合)产生响应,或包含可能导致错误或误导性结果的不准确和偏差。来源错误的数据、弗兰肯斯坦数据集和有偏见的数据集已经对科学产生了危险的影响。这个问题需要在各个层面得到解决,从治理和管理到操作使用。
25.偏见和排斥。虽然AI特别是大型语言模型,在数据中使用“偏差”(统计相似性)来产生结果,但重要的是要管理训练数据,以避免特定群体和区域的进一步边缘化。数字排斥导致了数据上的缺口。此外,我们如何代表那些离线的人?
26.数据的学科导向与AI研究的跨学科性质。大多数的科学知识都来自于一个特定的学科。我们需要编码和使用它,同时实现领域之间的通信,并允许跨学科知识产生和存在。
27.数据编码和注释。AIs,特别是大型语言模型,需要人类对他们使用的数据进行编码和注释。这些个体必须意识到在注释过程中在数据中嵌入文化差异的风险。
28.开放数据与AI的安全性。获取高质量的数据对科学领域的AI的发展至关重要。但公众利益,以及个人利益,呼吁建立治理结构来保护隐私,并保证数据的使用符合伦理规则。
29.访问与利益。发展科学AI所需的许多数据将不属于开放数据倡议的范围,例如私营部门持有的数据。支持访问和保持商业优势之间的紧张关系,可能导致高质量的数据被保密。
30.数据基础设施。科学的发展需要实践的协调和社区的发展。目前关于生产和使用数据的规范和做法,在不同学科和机构之间有所不同。随着科学组织增加他们的数据管理和存储容量,他们将需要增加存储库之间的互操作性。
31.来源数据标准。必须适当地披露和评估培训数据的来源。一个特别关注的问题是数据和数据源的伦理方面,以及它对AI中的偏见的影响。
32.质量数据标准。应实施技术标准、认证和合规性,以确保在科学中使用的数据得到适当的管理和存储。
33.用AI进行的研究的法律责任。我们必须协调传统的责任制度与业务流程和产出,以及其不同程度的自主性和透明度。在什么情况下,AI,而不是它的制造者,会对自己的行为负责?
34.如何对机器生成的创作进行版权或专利保护?对AI生成的、创作的版权保护的资格和适当性的不确定性,可能导致使用专利或贸易保密技术来保护知识产权。这将减少公众对AI项目的积极和消极的宝贵成果的评价。
35.数字数据的保护和使用。文本和数据挖掘可能存在通过创建未经授权的副本而侵犯版权的风险,并可能违反网站和数据库的条款。英国正在为文本和数据挖掘创建一个版权例外规则,其他司法管辖区可能会遵守。为数据挖掘的作品可以受到版权保护,但数据本身通常只有是原始数据集的一部分时才会受到保护。这可能会导致使用商业秘密来保护数据。欧盟保护从受保护的数据库中提取的数据用于科学研究。但数字数据的无国界特征加剧了司法管辖区之间的紧张关系。
36.在国内的监管环境。国内监管将是不同考虑和需求之间的平衡。在这些平衡中,各国必须为其科学和研究部门创造有利条件,并为共同利益而努力。
37.监管在其他司法管辖区的影响。观察其他国家的行动,可能导致跳跃和统一规定;或者,监管的不确定性,可能导致一些法律制度通过不那么严格的监管来寻求竞争优势,从而损害创造国家的国家利益。
参考文献:国际科学理事会《科学界面对AI的关键问题》
二0二四年四月三日
Contact: zhoujian.china@aliyun.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 00:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社