||
机器翻译的数据与算法偏见规避策略研究
摘要:机器翻译中的数据与算法偏见问题不仅影响翻译结果的客观性和准确性,还可能引发文化、性别及意识形态等方面的歧视性表达,具体表现为低资源语言质量劣化、性别角色刻板化及意识形态倾向的隐性渗透,其根源在于训练数据中存在的不平衡或偏差、模型设计中隐含的主观假设以及评价体系对特定语言或群体的不平等对待。这些因素严重威胁翻译结果的公正性。为应对这些问题,本文从伦理视角探讨消除数据及算法偏见的策略,包括引入多样化、高质量的语料库,减少数据来源的片面性;建立可解释算法评估机制,增强模型对不同文化和意识形态的包容性;强化人工译者在译后编辑中的审校作用,以校正潜在的歧视性翻译内容。研究表明,这些策略能够有效缓解偏见问题,提升机器翻译的公平性与准确性,为其可持续发展提供坚实基础。
关键词:
基金资助:
国家社科基金一般项目“神经网络机器翻译质量提升研究”(项目编号:22BYY042)的阶段性研究成果;
DOI:
10.16362/j.cnki.cn61-1023/h.2025.06.009
专辑:
哲学与人文科学
专题:
中国语言文字
分类号:
H085;H059
在线公开时间:
2025-11-26 11:55
Machine Translation: Debiasing Strategies for Data and Algorithms
DAI Guangrong, Zheng Yu
Abstract:The problem of data and algorithm bias in machine translation not only affects the objectivity and accuracy of translation results, but also may trigger discriminatory expressions in terms of culture, gender and ideology. The specific manifestations are deteriorated quality of low-resource languages, stereotyped gender roles and implicit penetration of ideology, which are rooted in the under-representation of the training corpus, the subjective assumptions implied in the design of the model and the unequal treatment of specific groups or languages in the evaluation system. These factors seriously threaten the fairness of the translation results. To address these problems, this paper explores strategies to eliminate data and algorithm bias from an ethical perspective, including, to introduce a diverse and high-quality corpus to reduce the one-sidedness of data sources, to establish an interpretable algorithmic evaluation mechanism to enhance the model’s inclusiveness to different cultures and ideologies, and to strengthen the role of human translator in post editing and correct potentially discriminatory translation content. The study shows that these strategies can effectively mitigate bias, enhance the fairness and accuracy of machine translation, and provide a solid foundation for sustainable development.
Key words:machine translation; data bias; algorithm bias; translation ethics; translation quality
1. 引言
大数据时代,ChatGPT等人工智能产物对人们的生产生活方式产生重要影响,在翻译研究领域,大数据、机器翻译等话题日益占据更重要的地位。人工智能技术的飞速发展,推动了自然语言处理领域的技术革新。作为自然语言处理领域最具应用价值的突破性技术,机器翻译系统通过神经网络架构实现了从源语言到目标语言的端到端映射,其翻译质量在一些量化指标上已逼近人类译者水平(戴光荣、刘思圻 2023:82)。AI大模型及其算法的深度嵌入,使得机器翻译系统的质量和效率大幅提升,具备更强的上下文理解能力和更自然的语言生成能力,在跨国商业合作、多语言教育和文化传播等领域发挥着重要作用(Pym & Hao 2025:xviii)。
机器翻译系统在显著提升跨语言沟通效率、重塑全球知识传播格局的同时,其技术伦理风险日益凸显。这一表面依托海量语料实现客观中立翻译的技术体系,实则暗含双重偏见困境:其一,数据偏见源于训练语料的历史局限性(如语言资源分布失衡、文化表征碎片化),导致机器翻译系统天然具备数据基因中的不平等印记;其二,算法偏见通过神经网络架构的参数固化与注意力机制偏差,在语料筛选、语义映射、文化适配等环节形成系统性偏差(Gallegos et al. 2024:1098;吴小坤、邓可晴2024:10)。在神经网络机器翻译与大语言模型驱动的翻译(下文统称为机器翻译)实践中,数据-算法协同作用进一步放大了偏见效应,低资源语言翻译质量持续滞后、性别职业称谓的刻板映射、文化负载词的语义窄化等问题频发,甚至可能对语言多样性构成潜在威胁。偏见问题不仅是工程技术层面的挑战,更是认知与伦理维度的重要议题。在认知科学中,“偏见”常被定义为启发式捷径所导致的系统性偏差,即人类为了快速反应而形成的心理捷径(Tversky & Kahneman 1973:207)。人工智能研究则将偏见视为模型输出相较于理想值或期望值的系统性偏离(Rich & Gureckis 2019:174),尤其当模型依赖伪相关特征或非预期路径进行预测时,更易形成有害偏差(Glymour & Herington 2019:269;Shah et al. 2020:5248)。在机器翻译中,若系统输出表现出对某些群体的歧视性取向,或隐含价值立场的不平衡,则可认定其存在偏见(Savoldi et al. 2021:846)。Bender和Friedman(2018:587)进一步指出,偏见不仅可能引发技术失误,更可能放大社会不公,其规避与治理应成为技术发展中的伦理底线。因此,在全球语言服务产业智能化转型的关键节点,识别并回应机器翻译系统中隐藏的数据—算法偏见,是推动技术治理、优化人机协作模式与建构数字语言平等生态的重要议题。
本研究旨在为突破人机协作模式中的认知壁垒、建立动态翻译质量评估体系、提升跨文化传播效度提供理论支撑。在全球语言服务产业智能化转型的关键节点,消解翻译中的数据-算法偏见不仅是技术优化的必然要求,更是维护语言平等权、构建包容性数字语言生态的伦理使命。
2. 机器翻译中的数据、算法偏见表现
在机器翻译的技术链条中,数据作为模型训练的基石,其质量、多样性及伦理属性直接决定了翻译系统的性能上限与社会影响边界;算法作为语言转换的核心引擎,其设计逻辑与优化目标直接决定了翻译结果的准确性、文化适配性及社会公平性。当前,数据与算法层面的挑战已超越技术范畴,演变为涉及文化公平、语言权利与社会包容的复杂议题,是机器翻译研究领域不可忽视的问题。数据偏见经过机器翻译系统的算法处理,通过模型迭代持续复制,会进一步演变为新的社会歧视源头,形成跨语境交流中的偏见,包括语言偏见、性别偏见、意识形态偏见以及其他类型偏见。
机器翻译中的语言偏见是指机器翻译模型在多语言处理能力上存在的不均衡现象,具体表现为:在训练语料充足的语言上表现更优异,而在训练语料缺乏的语言上表现不够理想,且该偏见会进一步削弱模型对低资源语言或少数方言的支持(Ferrara 2023:2)。由于数据的可用性有限(Faheem et al. 2024:1),且语言模型在内部和外部知识之间存在不一致(戴光荣、黄栋樑 2025:106),因此低资源语言的机器翻译存在巨大的挑战。当翻译系统缺乏足够的语料,在理解该语言的文化背景时,容易产生不准确的语义表达,翻译质量往往较差。例如乌尔都语(Urdu)作为一种低资源语言,在神经机器翻译系统中的表现一直受到研究者的关注。Shah等人(2024:14)对Google Translate在2018-2021年间的乌尔都语—英语翻译质量进行了历时研究,探讨了其句法和语义特征的演变情况,研究发现,尽管机器翻译技术的发展提高了乌尔都语翻译的可理解性,但仍存在多义词处理不当、句法结构的转换错误、代词与敬语歧义、固定表达翻译不准确等错误。语言偏见不仅体现在高资源语言与低资源语言之间的性能差距,也广泛存在于标准语言与方言、变体之间的处理能力差异之中。传统的方言被定义为基于地区或地方的语言变体(Haugen 1966:924)。标准自然语言处理系统主要基于高资源语言变体进行训练,而对于方言的适应性较差。Blodgett等人(2016:1119)的研究发现非洲裔美国英语常被误分类为非英语文本,在句法、拼写和词汇选择上与标准英语存在显著差异。句子结构如“He be working”(表示长期状态)在标准英语中并不存在,这导致机器翻译系统难以正确解析,翻译质量相比于高资源语言变体较低。
机器翻译中的性别偏见通过数据投射与模型迭代,逐渐演变为跨语境交流的歧视性框架。当训练数据蕴含特定文化语境中的性别范式时,机器翻译模型会构建隐性的注意力权重分配机制,在语言转换过程中形成系统性偏差。这种偏差表现为对性别指称的路径依赖选择:当源文本存在语义模糊或中立表述时,算法倾向于激活预设的性别联想网络,优先选择男性代词或性别标记词汇,将职业角色、性格特质等与特定性别范畴强制锚定(Vanmassenhove 2024:225)。例如在职业称谓翻译中,“医生”常被系统默认为男性指称,而“护士”则固化为女性表述,形成“医生-男性/护士-女性”的强关联映射(Stanovsky et al. 2019:1679)。此类算法决策不仅遮蔽现实中的性别多样性,更通过语言再生产机制强化社会性别秩序的不平等结构。当这种偏见嵌入全球性技术平台后,会在跨语言传播中形成自我维系的歧视循环,使特定群体持续暴露于表征性伤害与分配性不公的风险之中。
机器翻译中的意识形态偏见体现为文化价值观的算法固化。生成式AI虽能高效处理多语言转换,但其训练数据中隐含的西方中心主义叙事与权力话语体系,使跨文化阐释易沦为意识形态规训工具(高玉霞、任东升 2023:11)。Motoki等(2024:3)对ChatGPT的分析揭示,该模型在处理涉及种族、宗教及政治议题时,会通过选择性事实强化、情感极性操控等机制输出偏见性表述。这种偏见不仅表现为对特定群体的错误表征,更通过扭曲语义呈现损害翻译的文化适配性与价值中立性,最终在跨语言传播中形成文化霸权的再生产循环,加剧数字时代的文明隔阂。
除了语言偏见、性别偏见和意识形态偏见,机器翻译中还表现出多种其他形式的偏见。文化语境失真表现为机器翻译在处理具有特定文化背景的文本时,未能准确传达源语言中蕴含的文化细节,导致译文缺乏对目标语言文化的适应性;地域偏见则表现为翻译模型在训练过程中过于依赖某一地区的语言习惯,进而导致翻译结果倾向于该地区的表达方式,忽视了其他方言或地域性特点的表达;历史语境偏见反映了翻译模型未能充分考虑历史背景的演变,从而对特定历史事件或文化语境产生误解,影响了译文的准确性;情感偏见则表现在机器翻译未能有效传达源文本中的情感色彩或语气,尤其在翻译情感丰富的文本时,往往导致情感信息的丧失或误传。
上述偏见的存在揭示了机器翻译技术在处理跨文化和跨语境文本时所面临的诸多挑战。为了系统理解偏见生成的内在机制,下文将深入分析机器翻译中偏见的来源,以期为后文的去偏路径探讨提供基础。
3.机器翻译偏见来源
从上文论述可以看出,机器翻译系统的技术偏见呈现双重叠加特征:数据偏见作为底层逻辑,通过训练语料的隐性缺陷传递系统性歧视;算法偏见作为执行机制,通过模型架构与优化目标的缺陷进一步放大偏差。二者在语料处理、语义解析与文化迁移等环节形成耦合效应。
机器翻译中的偏见来源于数据、模型设计以及外部评价体系等多方面的因素,这些因素相互交织,导致翻译结果在性别、意识形态、文化以及语言资源等方面呈现不公平或偏颇的表现。
3.1数据层面:代表性不足与偏向性问题
传统深度学习方法在这些任务上的表现依赖于大规模人工标注数据,而人工标注成本高昂,并且在某些领域(如低资源语言)标注数据十分稀缺。训练数据本身可能包含原始文本中的偏见,包括社会偏见、刻板印象和文化假设。基于大规模且未经严格筛选的互联网数据进行训练,模型将不可避免地默认了其中的刻板印象、错误表述、贬损性和排斥性语言等偏见行为,这些行为往往影响到已经处于弱势和边缘化的群体(Gallegos et al. 2024:1107)。这种现象表明,模型对训练数据的特定特征过度依赖,从而限制了其在多样化输入环境中的适应能力和翻译精度。
3.2模型设计层面:隐含假设与主观取舍
大语言模型是在Transformer架构基础上构建的深度神经网络模型。Transformer作为一种基于注意力机制的序列到序列(Sequence-to-Sequence)模型,由编码器和解码器构成,其核心组件包括多头自注意力机制(Multi-Head Attention)、前馈神经网络(Feed-Forward Network)、位置编码(Positional Encoding)等(Vaswani et al. 2017:6002)。相较于传统的循环神经网络(RNN)与卷积神经网络(CNN),Transformer在翻译性能、并行处理能力和对长距离依赖的建模上表现更为优越,已成为多语言翻译、文本生成和自然语言理解等任务的基础架构。然而,Transformer的性能高度依赖于大规模训练语料的质量和分布。由于模型本身不具备内置的先验社会知识或价值判断机制,其学习主要基于训练数据中的统计规律。如前所述,如果训练语料中存在性别、种族或文化方面的偏见(例如职业术语与性别的高频共现),模型可能在训练过程中学习并内化这些偏见。
3.3评价体系层面:偏向高资源语言和文化的单一标准
当前主流机器翻译评价体系在设计与应用中,普遍以高资源语言(如英语、法语等)及其文化表达范为基准,形成了对高资源语言和文化的隐性偏向。在低资源语言场景中,这些语言结构和书写系统通常比许多高资源语言更加复杂、更具差异性(Her & Kruschwitz, 2024:155)。以单一语言文化中心为基础的评价标准,忽视了不同语言在句法结构、语义模糊性、文化隐喻与语用功能上的差异,进而对低资源语言和非西方文化语境的翻译效果产生系统性低估。传统的自动化评估方法,如BLEU、METEOR等,主要依赖n-gram层面的表面词汇匹配,难以识别在语义上等价但形式表达不同的翻译。例如,在多义词的翻译、语序灵活语种的处理或文化隐喻的再现过程中,这类指标往往无法有效捕捉语义深层关系,进而影响对模型真实翻译能力的判断。在具有强烈文化特征的文本中,这一问题尤为显著。面对隐喻、习语、宗教术语或地方性文化负载词,现有评价体系更关注参考译文的一致性,而忽略了翻译的语义准确性与文化适应性(Bender et al., 2021:610)。非主流文化在模型输出中的价值被低估,语言的表现力与多样性也受到抑制,不利于构建真正包容、多元的机器翻译能力体系。
4.基于伦理视角的去偏策略
随着机器翻译技术在全球文化交流中日益扮演重要角色,解决其可能导致不公平和歧视性结果的固有偏见至关重要。训练数据、模型开发和质量评估中的偏见问题,可能加剧刻板印象的延续,并导致某些群体的边缘化,进而引发严峻的伦理挑战。确保机器翻译公平性,要求通过实施有效的策略来识别并消除偏见,保障不同语言和方言之间的公平待遇(Anderson 2024:1)。消除机器翻译中的数据与算法偏见,需综合考虑数据来源的多样性、算法的可解释性、训练过程中的公平性以及评价体系的全面性,从而实现更加公正、透明且符合伦理规范的机器翻译系统。
4.1构建多样化语料库,减少低资源语言偏见
尽管当前的机器翻译系统已具备强大的多语言能力,甚至能在部分语种间实现零样本翻译(zero-shot translation),但高质量的翻译仍高度依赖高质量的双语平行语料。然而,在全球超过7000种语言中,真正拥有丰富平行语料的语言只是少数,这种语料资源的不均衡严重制约了低资源语言的翻译质量提升,进一步加剧了数字鸿沟。为打破这一局面,BigScience Workshop(2023:43)提出的Bloom模型将英语语料的占比降低到30.03%,同时将语料支持的语言数增加到46种,提升了模型的多语言支持能力。NLLB Team(2024:841)提出“No Language Left Behind”大规模多语言模型,旨在实现对200种语言的支持,其中包括许多低资源语言。该模型NLLB-200采用了稀疏门控专家混合(Sparsely Gated Mixture of Experts)架构,能够通过跨语言迁移学习有效共享参数,同时减少不相关语言之间的干扰。结合BLEU、chrF++等自动化指标以及人工评估方法,NLLB-200模型在翻译质量上较之前最先进的系统平均提升44%。
4.2加强语料清洗,提升语料质量
翻译技术开发人员在为人工智能提供深度学习语料时,必须确保所提供的语料符合规范,避免其中包含任何偏见(陆艳2024:123)。然而,自动化生成的平行语料库往往存在噪音问题,这些噪音会导致机器翻译模型训练效率下降,并影响翻译质量。因此,提高机器翻译质量的关键在于清洗语料,以确保训练数据的准确性和可用性(Srivastava et al. 2019:2)。语料清洗是指对机器翻译或自然语言处理所使用的原始语料进行筛选、规范化处理和优化的过程,其目的是剔除低质量或不相关的文本数据,确保模型训练所用的语料质量高且一致性强,从而提升模型的性能和输出质量。例如,C4语料库是基于Common Crawl进行清洗后得到的,其原始大小约为400TB,但经过清洗后缩减至约305GB。尽管经过压缩,基于C4训练的模型性能优于基于Common Crawl训练的模型,进一步证明了语料质量对模型效果的重要性(Raffel et al. 2020:3; 徐月梅等 2024:682)。语料清洗中的规范化处理,如统一翻译标准和去除偏见性表达,可以提升数据的公正性和多样性。对平行语料进行语义验证和对齐校验,能够避免因对齐错误或语料信息不对等而引发的偏差。最后,结合人工审查和偏见检测工具,对敏感主题进行细致过滤,可以进一步确保语料在伦理和文化方面的中立性。通过这些清洗措施,机器翻译模型在训练过程中能更全面地学习多样化和客观的语言特征,从而有效降低翻译中的算法偏见。
4.3引入透明化、可解释的算法机制
机器学习模型中,黑箱模型(Black-box Model)的内部工作机制不易被访问或解释。这些模型基于输入数据进行预测,但用户无法了解模型决策过程及其背后的推理逻辑。这种缺乏透明性的特点使得用户难以理解模型的行为、检测潜在的偏差或错误,也难以对模型的决策进行问责。机器翻译系统中的算法偏见问题,部分源于当前模型的黑箱属性,导致其决策过程难以被理解和追踪。引入透明化、可解释的算法机制是解决这一问题的重要途径,这不仅可以帮助定位偏见的来源,还能增强模型的信任度和应用的伦理规范性。目前,SHAP(Shapley Additive Explanations)和LIME(Local Interpretable Model-agnostic Explanations)为两种常见的解释性技术,可用于揭示机器学习模型的决策过程,特别是黑箱的内部逻辑(Hassija et al. 2024:47)。SHAP通过量化每个输入特征对输出的贡献,解释模型为何选择某种翻译方式。LIME对模型的局部决策进行近似解释,揭示翻译系统在某些特定输入上的行为。通过技术可解释化等方法,研究人员和开发者可以更清晰地理解模型的行为,并优化系统以减少性别、文化和语言偏见的传播。
4.4优化训练模型以减少隐含偏见
在模型设计方面,正则化(Regularization)和对抗性训练(Adversarial Training)是减少隐含偏见的核心技术。正则化方法通过在训练过程中对偏见特征施加约束,避免模型过度依赖性别、种族等敏感信息(Ng 2004)。这种约束能有效避免模型强化语料库中的隐含偏见,使翻译结果更加平衡和公平。对抗性训练是一种通过引入对抗性样本来增强神经机器翻译模型鲁棒性的重要方法。对抗性训练通过生成对抗性扰动样本,让模型在面对偏见信息时能够保持中立。例如在应对性别偏见时,可以构造特定的对抗性样本(如“他是护士”和“她是工程师”),通过训练让模型学会更平衡地处理不同性别的职业关联(Prates et al. 2020:6363)。对抗性训练的目标是让模型在具有偏见倾向的样本中学习通用的、不依赖偏见特征的翻译规则。正则化和对抗性训练可以相辅相成。通过对抗性训练生成偏见样本,并结合正则化方法对模型参数施加约束,可以进一步提升模型的鲁棒性和公平性。这种结合方法在优化模型对不同语境和特定偏见特征的适应能力上表现出色,尤其在低资源语言和性别中立翻译的任务中效果显著(Hassan et al. 2018:13)。
4.5构建多维评价标准,纳入文化语境和意识形态的考量
在构建更全面的机器翻译评估体系时,仅依赖传统的自动化指标已难以满足多样化应用场景的需求。过去常用的BLEU指标主要基于词汇与短语的n-gram匹配,虽然在早期具有较强的可操作性和对齐性,但其对语义一致性、上下文连贯性以及文化语境的理解能力严重不足,已逐渐被更新的评估方法所取代。近年来,研究开始引入更具语义感知能力的指标,如BERTScore、MoverScore和COMET,这些方法通过句子嵌入表示或上下文建模来更精准地衡量翻译的语义准确性与自然度。尽管这些新兴指标在多个生成任务中展现出更接近人工判断的表现,它们在跨文化、跨意识形态表达上的公平性和解释性仍存在局限。为进一步提升评估的全面性,当前的研究趋势是使用大语言模型本身作为翻译输出的自动评估器,以实现更贴近人类理解方式的评价方式。例如,使用ChatGPT等模型对翻译质量进行上下文、风格、语气和文化适配度的综合判断(王继辉等 2024:76)。然而,这种方式也引入了新的挑战,如评估模型可能带来的系统性偏差或价值倾向问题。如何在利用大模型增强评估能力的同时,控制和消除其潜在偏见,仍是当前研究的重要方向(Chang et al. 2024:33)。
4.6 加强国际合作,制定更加合理的伦理体系
数据与算法并非完全客观和价值中立的技术,而是被内在或外部赋予了政治性,算法偏见本质上是社会偏见的映射,体现了对公民平等权、隐私权和数据安全的侵害。在机器翻译领域,偏见问题不仅是一个技术性挑战,更涉及到全社会在合作与共享过程中的公平性和伦理性问题(贾诗威、闫慧 2022:65)。为应对由人工智能广泛应用所带来的伦理风险与治理需求,多个国家与国际组织已相继出台人工智能伦理框架与政策指南,旨在为包括机器翻译在内的智能系统提供价值导向与行为规范。我国于2019年发布《新一代人工智能治理原则》,强调技术发展应与社会价值协调一致;联合国教科文组织于2021年通过《人工智能伦理问题建议书》,倡导在推动技术创新的同时,尊重少数语言、边缘群体及其所依托的社会文化语境;欧盟委员会于2024年正式审议通过《人工智能法案》,标志着人工智能领域进入制度化治理新阶段,确立了对高风险系统(包括语言技术)的合规要求与伦理审查标准。此外,还应建立有效的监管机制,委托专业机构对相关企业进行审查与监管,确保技术的合规性与安全性(王贇、张政 2024:101)。通过国际组织牵头,联合各国政府、学术机构和科技企业,共同制定全球统一的伦理标准,明确机器翻译中对性别、种族、文化等敏感内容的公平要求,定期审查翻译系统的偏见问题,提升公平性和包容性。
4.7 强化人工译者在后期校正中的作用
随着机器翻译技术不断进步和语言服务需求持续增长,机器翻译译后编辑(MTPE)逐渐成为翻译行业中的重要工作流程。MTPE通过人工干预和部分自动化方式,优化机器翻译的输出,以确保翻译结果达到特定的质量标准。这一过程不仅是提高机器翻译质量的关键途径,也体现人机协同翻译的核心价值。大语言模型的诞生及其广泛应用,推动了交互式译后编辑的兴起。在交互式译后编辑中,翻译人员通过与大模型进行问答式互动,完成校对、润色等编辑任务。这种新的编辑模式不仅能够显著提高翻译效率,也有助于进一步提升翻译质量,推动翻译工作流程的优化(王律、王湘玲 2023:17)。尽管机器翻译在精度上有所提升,但人工编辑在解决潜在偏见、弥补文化背景适配等方面仍不可替代。此外,人工编辑的反馈配合智能辅助工具,如偏见标注器和语义分析系统,可以直接用于模型优化,从而实现人机协同提升翻译质量的目标。
机器翻译系统在处理高风险内容(如医疗、法律、新闻等领域)时,往往面临专业术语误译、文化语境失真以及隐含偏见扩大的挑战。这些问题可能导致翻译结果的不准确、不公平甚至引发伦理争议。在这些场景下,借助领域专家对翻译结果进行审查和校对,不仅能够提升翻译的准确性,还能减少偏见传播和伦理风险(Béchara et al. 2021:1)。在专业翻译人员进行微调步骤后,机器翻译性能得到提升,实践应用中将更具有实用价值(Dogru & Moorkens 2024:149)。Zhu等人(2025)提出了专家混合大型语言模型MoE-LLM(Mixture-of-Experts Large Language Model),这是一种新颖的融合框架,通过混合迁移学习,引入翻译专家,从而增强大语言模型的多语言翻译能力。与直接微调LLMs相比,MoE-LLM显著提高了翻译质量,在某些任务上BLEU值提升很高。MoE-LLM为将预训练的LLM适应于多语种机器翻译提供了一种有效且可解释的解决方案,在低资源和零样本场景中具有独特优势。
5.结语
本文探讨了机器翻译中的数据与算法偏见问题,深入分析偏见的主要表现形式及其来源。这些偏见表现为低资源语言翻译质量面临显著挑战、性别刻板印象的强化以及意识形态倾向的隐性渗透,指出偏见的来源主要包括语料层面数据代表性不足与偏向性问题、模型设计中隐含假设与主观取舍,以及评价体系对高资源语言和文化的单一标准。这些对机器翻译的公平性和准确性产生了深远影响。针对这些问题,本文提出了一系列去偏路径,包括构建多样化、高质量的语料库,引入透明化和可解释的算法机制,优化训练模型以减少隐含偏见,完善多维度评价体系,同时加强人工审校与人机协作,以实现更加公平和可靠的翻译系统。
未来机器翻译技术需要从两个主要方向持续改进。首先,技术层面需要进一步优化数据与机器翻译算法,使其能够更好地适应多样化的语言和文化背景,尤其是在低资源语言和多模态翻译领域,应努力提升模型的性能,以应对复杂的跨文化交流需求。其次,应将偏见研究拓展到相关领域,如语音识别和图像处理,探索更多潜在的偏见表现形式,提供高效解决方案。通过多学科、多领域的协同努力,机器翻译技术将在实现全球化语言平等和文化交流中发挥更重要的作用。这一目标的实现不仅需要技术优化,还需要国际社会在伦理准则、数据共享和多文化适配等方面的广泛合作。只有通过持续的研究和实践,机器翻译技术才能真正成为促进多语言、多文化社会公平的桥梁。
参考文献:
[1] Anderson, O. Ethical considerations in machine translation: Bias, fairness, and accountability [J]. Innovative Computer Sciences Journal, 2024(1): 1−7.
[2] Béchara, H., Orăsan, C., Parra Escartín, C., et al. The role of machine translation quality estimation in the post-editing workflow [J]. Informatics, 2021(3): 61.
[3] Bender, E.M. & Friedman, B. Data statements for natural language processing: Toward mitigating system bias and enabling better science [J]. Transactions of the Association for Computational Linguistics, 2018: 587–604.
[4] Bender, E.M., Gebru, T., McMillan-Major, A., et al. On the dangers of stochastic parrots: Can language models be too big? [A]. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency[C]. New York, NY, USA: Association for Computing Machinery, 2021: 610–623.
[5] BigScience Workshop, Le Scao, T., Kalo, J.-C., van der Wal, O., & Wang, B. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. [J/OL]. arXiv, https://doi.org/10.48550/arXiv.2211.05100, 2023: (accessed2023/06/27).
[6] Blodgett, S.L., Green, L. & O’Connor, B. Demographic dialectal variation in social media: A case study of african-American English [A]. In Su J, Duh K, & Carreras X, (eds.). Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing[C]. Austin, Texas: Association for Computational Linguistics, 2016: 1119–1130.
[7] Chang, Y., Wang, X., Wang, J., et al. A survey on evaluation of large language models [J]. ACM Trans. Intell. Syst. Technol., 2024(3): 39:1-39:45.
[8] Dogru, G. & Moorkens, J. Data augmentation with translation memories for desktop machine translation fine-tuning in 3 language pairs [J]. The Journal of Specialised Translation, 2024(41): 149–178.
[9] EU Commission. The Artificial Intelligence Act. [EB/OL]. https://artificialintelligenceact.eu/the-act/. 2024.
[10] Faheem, M.A., Wassif, K.T., Bayomi, H., et al. Improving neural machine translation for low resource languages through non-parallel corpora: A case study of egyptian dialect to modern standard arabic translation [J]. Scientific Reports, 2024(1): 2265.
[11] Ferrara, E. Should ChatGPT be biased? Challenges and risks of bias in large language models [J]. First Monday, 2023.28(11).
[12] Gallegos, I.O., Rossi, R.A., Barrow, J., et al. Bias and fairness in large language models: A survey [J]. Computational Linguistics, 2024(3): 1097–1179.
[13] Glymour, B. & Herington, J. Measuring the biases that matter: The ethical and casual foundations for measures of fairness in algorithms [A] Proceedings of the Conference on Fairness, Accountability, and Transparency[C]. New York, NY, USA: Association for Computing Machinery, 2019: 269–278.
[14] Hassan, H., Aue, A., Chen, C., et al. Achieving human parity on automatic chinese to english news translation [J/OL]. https://doi.org/10.48550/arXiv.1803.05567, 2018. (accessed 2018/06/29).
[15] Hassija, V., Chamola, V., Mahapatra, A., et al. Interpreting black-box models: A review on explainable artificial intelligence [J]. Cognitive Computation, 2024(1): 45–74.
[16] Haugen, E. Dialect, Language, Nation [J]. American Anthropologist, 1966(4): 922–935.
[17] Her, W. & Kruschwitz, U. Investigating neural machine translation for low-resource languages: Using bavarian as a case study [A]. In Melero M, Sakti S, & Soria C, (eds.). Proceedings of the 3rd Annual Meeting of the Special Interest Group on Under-resourced Languages @ LREC-COLING 2024[C]. Torino, Italia: ELRA and ICCL, 2024: 155–167.
[18] Motoki, F., Pinho Neto, V. & Rodrigues, V. More human than human: Measuring ChatGPT political bias [J]. Public Choice, 2024(1): 3–23.
[19] Ng, A.Y. Feature selection, L1 vs. L2 regularization, and rotational invariance [A]. Proceedings of the twenty-first international conference on Machine learning[C]. New York: Association for Computing Machinery, 2004: 78.
[20] NLLB Team, Costa-jussà, M.R., Cross, J., et al. Scaling neural machine translation to 200 languages [J]. Nature, 2024(8018): 841–846.
[21] Prates, M.O.R., Avelar, P.H. & Lamb, L.C. Assessing gender bias in machine translation: a case study with Google translate [J]. Neural Computing and Applications, 2020(10): 6363–6381.
[22] Pym, A. & Hao, Y. How to augment language skills: generative AI and machine translation in language learning and translator training [M]. London& New York: Routledge, 2025.
[23] Raffel, C., Shazeer, N., Roberts, A., et al. Exploring the limits of transfer learning with a unified text-to-text transformer [J]. Journal of Machine Learning Research, 2020(140): 1–67.
[24] Rich, A.S. & Gureckis, T.M. Lessons for artificial intelligence from the study of natural stupidity [J]. Nature Machine Intelligence, 2019(4): 174–180.
[25] Savoldi, B., Gaido, M., Bentivogli, L., et al. Gender bias in machine translation [J]. Transactions of the Association for Computational Linguistics, 2021: 845–874.
[26] Shah, T.Z., Imran, M. & Ismail, S.M. A diachronic study determining syntactic and semantic features of urdu-English neural machine translation [J]. Heliyon, 2024:10(1). e22883
[27] Shah, D.S., Schwartz, H.A. & Hovy, D. Predictive biases in natural language processing models: A conceptual framework and overview [A].In Jurafsky D, Chai J, Schluter N, et al., (eds.). Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics[C]. Online: Association for Computational Linguistics, 2020: 5248–5264.
[28] Srivastava, J., Sanyal, S. & Srivastava, A.K. An automatic and a machine-assisted method to clean bilingual corpus [J]. ACM Trans. Asian Low-Resour. Lang. Inf. Process., 2019(1):1-19.
[29] Stanovsky, G., Smith, N.A. & Zettlemoyer, L. Evaluating gender bias in machine translation [A]. In Korhonen A, Traum D, & Màrquez L, (eds.). Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics[C]. Florence, Italy: Association for Computational Linguistics, 2019: 1679–1684.
[30] Tversky, A. & Kahneman, D. Availability: A heuristic for judging frequency and probability [J]. Cognitive Psychology, 1973(2): 207–232.
[31] UNESCO. Recommendation on the Ethics of Artificial Intelligence [EB/OL]. https://unesdoc.unesco.org/ark:/48223/pf0000381137. 2022.
[32] Vanmassenhove, E. 9 Gender Bias in Machine Translation and the Era of Large Language Models[A]. In Monzó-Nebot E, & Tasa-Fuster V, (eds.). Gendered Technology in Translation and Interpreting: Centering Rights in the Development of Language Technology [C] New York: Taylor & Francis, 2024:225-253.
[33] Vaswani, A., Shazeer, N., Parmar, N., et al. Attention is all you need [A] Proceedings of the 31st International Conference on Neural Information Processing Systems[C]. Red Hook, NY, USA: Curran Associates Inc., 2017: 6000–6010.
[34] Zhu, S., Pan, L., Jian, D., et al. Overcoming language barriers via machine translation with sparse mixture-of-experts fusion of large language models [J]. Information Processing & Management, 2025(3): 104078.
[35] 戴光荣, 黄栋樑. 机器翻译中的低资源知识模型建构研究 [J]. 外语教学与研究, 2025(1): 106–117.
[36] 戴光荣, 刘思圻. 神经网络机器翻译:进展与挑战[J]. 外语教学, 2023(1): 82–89.
[37] 高玉霞, 任东升. 生成式ai时代翻译制度建设的挑战与对策 [J]. 外语电化教学, 2023(4): 9–15, 114.
[38] 贾诗威, 闫慧. 算法偏见概念、哲理基础与后果的系统回顾 [J]. 中国图书馆学报, 2022(6): 57–76.
[39] 陆艳. 人工智能时代翻译技术伦理构建[J]. 中国翻译, 2024(1): 117–125.
[40] 王继辉, 蒋东辰, 宋佳诺. ChatGPT与翻译量化评估 [J]. 外语电化教学, 2024(6): 76–80, 115.
[41] 王律, 王湘玲. ChatGPT时代机器翻译译后编辑能力培养模式研究[J]. 外语电化教学, 2023(4): 16–23, 115.
[42] 王贇, 张政. ChatGPT人工智能翻译的隐忧与纾解[J]. 中国翻译, 2024(2): 95–102.
[43] 吴小坤, 邓可晴. 算法偏见背后的数据选择、信息过滤与协同治理[J]. 中国出版, 2024(6): 10–15.
[44] 徐月梅,叶宇齐,何雪怡.大语言模型的偏见挑战:识别、评估与去偏[J].计算机应用,2024(3): 697-708.
【以上文字为发表前的修订稿,正式稿件请参考下面附录的pdf文档】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-29 18:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社