机器翻译开放日走近工程师:揭秘百度NMT背后的故事

作者:银河娱樂城   来源:http://www.materia-ic.com    栏目: 银河娱樂城    日期:2019-10-10

  12月21日百度机器翻译技术开放日上,百度技术委员会联席主席、自然语言处理部技术负责人吴华博士展示了百度在1年多前率先发布的世界上首个互联网神经网络翻译(NMT)系统。该系统基于领先的人工智能、神经网络以及自然语言处理技术,引领机器翻译迈入神经网络翻译时代。而在这项技术的背后有着怎样不为人知的故事?奋战在第一线的工程师们为此付出了怎样的艰辛,又渗透了哪些有趣的日常呢?为了了解更多,记者走进百度翻译,和平日寡言的工程师们展开了深度对话

  伴随着技术进步及互联网的发展,机器翻译(Machine Translation,MT)如今已被越来越多的人接受和使用。尤其是近两年异军突起的神经网络翻译(Neural Machine Translation, NMT)技术,使得翻译质量获得了巨大的提升,而上一次机器翻译质量的提升得追溯到本世纪初期。一项新的技术从实验室诞生到真正的工业化应用,往往需要很长的时间。就MT而言,传统的统计机器翻译(SMT)从上世纪90年代初提出,到本世纪第一个基于SMT技术的互联网翻译系统出现,整整经历了15年的时间。

  而对于神经网络翻译技术而言,从2014年9月提出,到百度2015年5月上线首个互联网NMT系统,只用了短短8个月的时间。随后,NMT以惊人的发展速度席卷学术界和工业界。2016年学术界顶级会议上,几乎全是围绕NMT相关的创新工作,而在9月,谷歌、微软等巨头公司相继发布NMT系统。

  NMT一词的出现要追溯到2014年9月1号,加拿大蒙特利尔大学Bengio教授研究组在开放论文网站arxiv上发布了他们最新的研究成果『neural machine translation by jointly learning to align and translate』,NMT进入了人们的视野。他们设计了一组神经网络,使用一个编码器将源语言句子编码为一个向量,然后使用一个解码器对该向量进行解码,产生译文。同时,引入了注意力机制进一步提高译文质量。这种端到端(end-to-end)的翻译方式完全打破了传统的SMT框架,Bengio等人在英语到法语翻译上的实验显示这种方法可以取得跟传统SMT方法相媲美的翻译质量。

  百度翻译小组除了自身产品研发外,每天都会关注相关技术的最新进展。Bengio研究组的这篇论文引起了百度翻译工程师们的极大兴趣。经过初期的理论分析和初步验证,年轻的工程师们认为这是一个极具潜力的技术路线。它克服了传统方法将句子分割为不同片段进行翻译的缺点,充分利用上下文信息,对句子进行整体的编码和解码,能够产生更为流畅的译文。而在此论文提出时,并未在学术界引起很大的关注,更不要提工业界了。彼时,研究人员们更多的将注意力放在传统SMT方法上,或者是用神经网络的技术来提高SMT的性能。

  在一次例行的组内讨论会上,百度自然语言处理部技术负责人吴华博士说:『我们把NMT做到线上去如何?』尽管有了前期的调研结论,工程师们仍然掩饰不住惊讶的表情,大家第一反应是『不是开玩笑吧,这不可能!』。大家的担心不无道理。线上传统的SMT系统经过长时间打磨,运作良好。而NMT刚刚提出几个月的时间,尽管有其优势,但技术本身仍然存在诸多缺陷,在学术界也仍然对其性能存在争论,甚至质疑,更不要提将其发布上线,面对广大的互联网用户了。

  吴华是MT的专家,她当然清楚这件事面临的挑战,但她更多的看到了NMT带来的机遇。『既然我们相信并且验证了它是有用的,我们应该尽快让它上线,提升用户体验』。简单可依赖,百度工程师文化深入大家的骨髓。大家的热情被点燃,接下来的工作是如何克服NMT面临的一系列的缺点,发布上线。

  对于一个刚刚提出的方法,就像刚出生的婴儿一样,既有新生的力量,也有新生的柔弱,要让他经受住风浪的考验,必须使他快速成长。NMT使用了神经网络作构建翻译模型,为了降低复杂度,仅仅使用常用的几万个词语作为词表,超过词表之外的,系统都不认识,也无法翻译。另外,由于模型的复杂性,需要耗费大量的计算资源,翻译速度会慢的难以忍受,翻译一个句子通常会长达10几秒的时间,无法实时的响应线上海量的翻译需求。此外,研究论文的实验基于英语和法语,其用词、语法都比汉语和英语之间的难度小很多,并且其训练数据的规模仅仅有1000多万句对(这个量级对于研究论文足够大,但是对于一个真正实用的互联网翻译系统而言,显得微不足道。)一个个难题像一座座大山一样横亘在面前,而踏越大山的路,需要百度翻译年轻的工程师们自己去寻找。

  敢为天下先,百度翻译在2014年岁末开始NMT的上线之战。项目启动颇有特色,大家在上地的一家湘菜馆饭桌上边吃边讨论技术方案。『我觉得我们得花两个星期的时间把整个的技术框架研究明白』『不可能,怎么也得花2个月,再花几个月实现、测试、评价,明年年底上线就不错了』『现在没有可行的方案供参考,一切只能靠摸索前进,需要综合考虑多种因素』。实际上,大家对于NMT在海量数据、中英翻译上效果如何,还是没有十足的把握。出于保守的估计,将上线年也已经是惊人的速度了。要知道SMT这一过程经过了15年!

  接下来,大家分工合作,模型、算法、工程多管齐下。『头脑风暴』是一个有效的方法,以解决那些令人头疼的问题。经常会看到大家聚在会议室的白板上时而激烈的讨论、时而低头沉思、时而奋笔疾书。好多次,讨论到下午2、3点大家才发现还没有吃午饭。大家的努力很快获得了回报,词表的问题通过整合SMT的特征得到了解决,解码速度通过算法改进提升了数十倍,多语言翻译的问题也得到了完美的解决方案就这样,一个个的技术难题在大家的努力中迎刃而解,前进的道路逐渐明朗起来。

  更令人兴奋的是,在中英的测试集上,翻译质量比之前传统的方法提升了7个百分点以上。而通常,提升1个百分点,就非常的显著了。这是第一次用全网数据训练的NMT系统,相比学术界的研究论文,训练数据规模提升了几个数量级。有趣的是,百度翻译小组年轻的工程师们不仅在NMT的研发上取得了巨大进步,在生活中,他们也取得了丰硕的成果组内7位成员先后迎来了他们小宝宝的诞生。似乎是某种巧合,他们戏称每个宝宝都为1个百分点的提升带来了幸运。

  一次例行的周会上,大家讨论完毕正准备起身时,不知谁说了一句『我们为何不把上线时间提前到上半年』。对呀,既然技术都已经准备好了,为什么不提前上线?大家重回座位研究了提前上线的可能性。结论是,尽管有困难,但是经历了前期深入调研和充分准备,方案是可行的。大家为这一发现无比的兴奋,在MT领域摸爬滚打多年的工程师们意识到,这将是具有历史意义的一次上线,不仅在百度内部,在世界范围内,第一个真正实用的NMT系统为亿万网民提供更好的翻译服务。它不再是实验室中的一个原型系统,而是实实在在为大众服务的实用系统。2015年5月20号,众多的年轻人选择在这一天对爱慕的人表白『我爱你』,百度的NMT系统借着这一片祝福声上线发布了。没多久,百度翻译的用户们旋即感受到了百度翻译质量的大幅提升,很多用户在微博上留言,赞叹百度翻译太棒了!

  在2015年7月份的自然语言处理顶级会议ACL年会上,百度NMT翻译系统担任了终身成就奖颁奖典礼的实时翻译,展示在本领域世界级专家面前。而当大家听说这是最新的神经网络翻译技术时,都无一例外的流露出惊讶的表情,『真的吗?你们做到线上去了?Google都还没有听说做到线月份,Google才对外发布他们的NMT系统。

  『我们需要适应并一直保持领跑者的角色。以前我们是跟着别人跑,现在我们要带着别人跑。』吴华在总结会上如是说。这不仅是对机器翻译而言,对于整体的科学技术领域,中国科技企业正逐步摆脱跟跑、并跑角色,开始在国际中担负起领跑重任,并持续保持扩大这种领先优势。

  每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

上一篇:机器翻译评测——一份评测集的艰辛制作过程       下一篇:Facebook提出全新CNN机器翻译:准确度超越谷歌而且还