导航：首页 > 科技资讯 >

AI 考官自动评估 AI 翻译结果达摩院获 WMT2021 第一

发表于：2025-12-24 作者：创始人

编辑最后更新 2025年12月24日，记者昨日获悉，在业界权威的 WMT2021 国际机器翻译大赛上，阿里巴巴达摩院翻译团队打造的翻译质量评估系统，在极具挑战的 Sentence-level Direct Assessment QE Sh

记者昨日获悉，在业界权威的 WMT2021 国际机器翻译大赛上，阿里巴巴达摩院翻译团队打造的翻译质量评估系统，在极具挑战的 Sentence-level Direct Assessment QE Shared Task 2021 质量估计比赛上获得第一名。该系统堪比 AI 考官，能够自动给 AI 翻译的结果打分，以此不断优化翻译模型，提升 AI 翻译的质量。

国际机器翻译大赛 WMT 已有 15 年历史，其赛事众多。其中包括较为常见的翻译任务，比如将新闻从英文翻译为中文，其质量好坏评估是用人类译文来做参考，越接近越好，即 BLEU 值越高越好。大会还有更为挑战的翻译质量估计比赛，参赛者需要创造一套 AI 系统，在没有人类参考译文的情况下，自动评估机器翻译的质量，因为真实世界就是如此，很少有人类标准答案。

达摩院翻译团队打造的 AI 考官，参与了 Sentence-level Direct Assessment 任务的全部 11 项子任务，获得总平均分第一，从华为、Unbabel 等国内外资深团队中脱颖而出。其中，达摩院在 7 项有样本的语向中获得 5 项第一，分别为英语 - 中文、罗马尼亚语 - 英语、爱沙尼亚语 - 英语、尼泊尔语 - 英语、俄语 - 英语；在 4 项零样本（zero-shot）语向中获得 3 项第一，分别为英语 - 捷克语、普什图语 - 英语、高棉语 - 英语。

（达摩院翻译团队获得总平均分第一名）

据介绍，该项目的创新之处在于，达摩院翻译团队在大规模预训练模型和迁移学习的基础上，改进了机器翻译的 "白盒"特征，洞悉了机器翻译模型的内部状态和原理，包括非常重要的翻译解码概率。与此同时，他们还发现了新的重要质检特征，先使用 Levenshtein 算法和 Masked 语言模型对原文进行适度加噪，然后利用待评估质量的翻译模型提取相应的译文解码概率，结果发现它与译文质量紧密相关。更关键的是，研究团队验证发现，这些创新方法能够跨语言通用，在多语向项融合的翻译质量估计模型训练过程中也表现优秀，有望推动机器翻译整个领域的进步。

达摩院 AI 考官已用于阿里多个业务场景，包括全球速卖通 AliExpress、Lazada、钉钉、阿里云技术文档等，能实时监测线上翻译质量，定向优化翻译模型，让这些场景里的机器翻译性能提升 5%-15% 不等。

据了解，这是达摩院翻译团队第二次参与 WMT 的翻译质量估计比赛，2018 年他们曾获得英 - 德、德 - 英语向句子级别和词级别等六项质量估计子任务冠军。达摩院翻译团队近两年在国际顶会上发表论文 100 余篇，已实现 214 种语言的高质量翻译，日调用量突破 13 亿次，创造了多项世界纪录。他们还揭榜了工信部人工智能产业创新重点任务中的智能翻译系统，在 2021 年第一期评比中荣获优胜单位。

2022-05-06 11:52:37

很赞哦！