自神经机器翻译鉴于数据、计算能力、算法等诸多门槛(NMT)自产品化以来,很大程度上是互联网巨头的竞技场。
如今,另一位新的挑战者高调加入,直接将矛头指向谷歌、微软和谷歌、微软,这是行业技术标杆 Facebook。上周,来自德国的 DeepL 翻译上线,自称实现 NMT 技术的新突破创造了“世界上最准确、最自然的语言组织机器翻译系统”;并宣布在自己组织的盲测中击败谷歌翻译和微软 Facebook 的 NMT 系统,充满挑衅。
目前,DeepL 翻译已经支持英国、德国、法西等 42 门欧洲语言正在训练汉、日、俄等语言,并计划在未来发布一种 API,让开发者能够将就 DeepL 将翻译整合到其应用中。
公司前身
首先,这家公司的起源并不简单。
该公司的前身是经营近十年的在线外语词典 Linguee,DeepL 翻译也完全由 Linguee 团队打造。Linguee 在中国没有存在感,至于在海外……以前有谷歌翻译专美,存在感不是很高,但还是有一批用户认可它。
Linguee 英汉和汉英词典界面
不过,Linguee 现在的成败已经不重要了,毕竟都换马甲了——Linguee 今年正式更名 DeepL,以“Deep”提醒 VC 我是一家认真的深度学习公司。
真正重要的是 Linguee 技术积累。Linguee 前谷歌翻译研究员 Gereon Frahling 在 2007 2009年离职开发 年正式上线。据雷锋网所知,Linguee 其核心优势是其爬虫和机器学习系统,前者在互联网上掌握双语比较翻译,后者评估这些翻译的质量。两者结合,使 Linguee 成为当时“世界上第一个翻译搜索引擎”。十年积累,Linguee 数据和算法的研究都不可低估。
去年在伦敦 Noah 上演讲的 Gereon Frahling
一年前,他的研究团队开始实现一个新的目标:利用机器翻译领域多年的专业积累,打造业内最先进的一套 NMT 这就是系统 8 月 29 日上线的 DeepL 翻译。
三大优势
既然基础很厚,我们来看看这些积累。 DeepL 资源优势是什么?
雷锋网要提醒,以下信息均为 DeepL 一家之言,还没有第三方背书,大家需要自己判断其含金量。
数据
Linguee 该数据集拥有超过10亿组对比翻译语句,被称为世界上最大的人工翻译数据集。 Linguee 可以随时搜索类似的翻译结果。
计算力
DeepL 在冰岛建立了一个超级计算机,声称在世界各地 HPC 中性能排名第一 23 位、浮点运算能力达到 5.1 petaFLOPS。因此,可以实现命令 DeepL 非常自豪的计算速度:每秒处理数百万量级的词语翻译。
算法
采用 CNN 而不是 NMT 产品通用的 RNN。DeepL 宣称其技术积累使其能够克服 CNN 因此,比较的主要缺点可以实现 RNN 翻译结果更准确、更自然。
效果展示
DeepL 其翻译系统的表现击败了谷歌翻译和微软,Facebook 的 NMT 系统, 它基于两个指标:盲测反馈和 BLEU 分数。
盲测
DeepL 邀请专业翻译,对 DeepL 翻译、谷歌翻译、微软翻译 Facebook 的 NMT 该系统进行了盲测,要求测试人员选择他们认为最好的翻译结果。测试语言分为英德、英法、英西翻译三组,样本为 100 个句子。DeepL 每组参加测试的专业译者数量尚未公布。测试结果如下:
如图所示,在每次测试中选择 DeepL 测试者最多。 DeepL 英译德、英译法、英译西的优势尤为明显。其官方统计数据如下:选择 DeepL 对于最佳翻译结果的次数,选择另外三个 NMT 平均服务比例为 3:1 。
BLEU
BLEU 评分算法是业内评价机器翻译质量最常用的评分算法,其得分被认为与人类的评价结果有很大的相关性。
DeepL 宣布其英译德和英译法 BLEU 得分超过了所有已发表的分数 NMT 包括谷歌在内的研究 Transformer。结果如下:
如图所示,在英译法项目中,DeepL 的 BLEU 分数超过次优方案约 3.5%。
业内观点
踏入江湖的第一天,DeepL 自封“天下第一”。业内同行对此怎么看?
对此,雷锋网咨询了搜狗语音交互中心主任陈伟、商鹊网 CEO 邹剑宇,还有 Facebook 王杨,机器学习工程师。需要注意的是,三位老师都表示,由于缺乏关系 DeepL 算法和数据库的第一手信息没有来自第三方的信息,也无法客观判断其翻译水平。商鹊网的 CEO 邹建宇评论道:“从相关报道来看,算法的描述并不详细,也没有论文披露的细节,所以很难理解。“
因此,以下仅供这四个人看到。 DeepL 宣传信息后的一些个人观点。
一、
在 Facebook从事应用机器学习的工程师王杨听到这件事的第一反应是怀疑——只是比谷歌翻译和谷歌翻译更好Facebook NMT不拿出足够令人信服的证据,很难相信这一点。NMT 积累深厚,FacebookNMT也在快速发展。很难像它所宣传的那样超越一个新产品。
若 DeepL 在技术上确实取得了突破,所以不排除他们有全新的多语种(multilingual)模型。
至于 DeepL 基于算法模型 CNN 而不是 RNN,王杨说:“这是从侧面支持的。 Facebook 的研究”。FAIR(Facebook AI Research)一直认为 CNN 机器翻译的潜力远远大于 RNN,尤其是计算速度,这也是 Facebook 在 NMT 该领域的主要研究方向之一。
二、
搜狗语音交互中心主任陈伟刚刚在机器翻译团队 WMT 在2017年的评估中,他获得了中英英中翻译方向的第一名。他认为数据对 DeepL 贡献可能远远大于其他因素。 Linguee 数据爬取和积累是一个很大的优势。
陈伟评论道:
“从 BLEU 相比之下,改进是显而易见的。我觉得他们10亿量级的高质量数据对效果有很大帮助。每个人都认为测量是好的,这至少表明其数据的全面性是足够的。
据一位德语专业的译员说,DeepL 德英翻译的经验真的很好,这并不奇怪——作为一家德国公司,合乎逻辑,DeepL 重点是德英和法英的翻译。这是为了 DeepL 这些语言的数据积累也提供了一定的聚焦和便利。
DeepL 公布的盲测、BLEU 评分,衡量德、法、西三种欧洲语言与英语的互译。
陈伟在算法方面对雷锋网说:
“我没有看到他们技术的详细介绍,只知道他们使用了它们 CNN 而没有使用 RNN,但是我觉得架构变化不会太大,应该和它差不多 Facebook 的 convs2s。
他不承认“他不承认”CNN “神经机器翻译未来”的说法:
在搜狗的实验对比中,“RNN-NMT、CNN-NMT 和谷歌的 Transformer 框架。我们仔细研究和优化了这三种技术。 Transformer 该框架已在搜狗翻译系统中推出。从机器评分和人工评估的角度来看,它领先于主要竞争产品RNN-NMT、CNN-NMT提升也比较明显。
业内没有一致的观点认为 CNN 是 NMT 未来。我认为无论是技术方案还是技术方案 CNN、RNN、Transformer 目前还没有确定主流技术框架是什么。算法细节的抛光和各种技术的整合将是未来的发展趋势。此外,数据量将是各公司的技术障碍。
最后,根据陈伟的总结, DeepL 在公布的报告中,目前的评估有三个方面,使其技术难以评估:
人工评估的测试数据量仅为 100 句子,一般人工评估或 BLEU 数千句的数量将用于评估。
DeepL与其他家庭相比,没有使用相同的训练数据集,所以性能不能很好地评估。
未公布更多技术细节,难以把握具体情况。
三、
商鹊网 CEO 邹建宇非常同意数据和计算资源 NMT 产品重要性:
“据报道,它的训练引擎是基于冰岛超级计算机的,可以说深度学习真的需要计算能力。Linguee 它本身就是一家很好的语料库公司,数据积累有自己的特点,这应该是其优秀的引擎性能的基础。
对于发动机的评估,Linguee发动机盲测很好,BLEU 超过其他引擎的最佳质量 3 个百分点(行业通识是,2 个 BLEU 值的提高可以称为“显著”)。
对于 BLEU 邹建宇强调,需要合理看待其参考价值,不能将其等同于普通人面对翻译结果的直观体验:
“翻译评价有三种对象:科研人员、翻译人员和普通阅读用户,目标和方法不一致。BLEU 是科研环境的评价参数,与人的阅读体验有很大的不同,不能同类。
最后,他忍不住比较了自己的产品,说商鹊网的新引擎甚至比谷歌翻译还要高 6 个百分点的 BLEU 值。
读者福利
IBM 几天前内部分享AI /认知计算、云计算、区块链、物联网和对话机器人的趋势报告可能会给你一些在这些领域努力探索的灵感。关注雷锋微信(leiphone-sz),输入 “0629” 获取报告原文。
●● ●
最近的热门文章