您的位置：星辰在线>> 星辰头条>> 绿色新闻

自在星辰 | 199期 | 黄学东：长沙学霸的自在人生

绿色新闻 | 2019-05-14 16:48:15

星辰在线 | 编辑：陈贝贝

　　(黄学东，长沙学霸的自在人生。)

　　星辰在线5月14日讯(星辰全媒体记者王重浪李林)湖南人会读书、爱读书，读活书，活读书的名声，数百年来闻名中外。长沙伢子黄学东，用他的几十年一贯以之的不懈奋斗，为湖南学子树立了一个新的标杆。

　　2019年春天的一个黄昏，星辰全媒体记者幸会了这位匆匆忙忙回乡省亲的湖南游子。我们从马王堆一个小餐馆里面开聊，持续到黄花机场的小饮料店，直到黄学东的飞机快要起飞了，才恋恋不舍的相互道别。

　　回乡：我是一个典型的湖南人

　　“从小到大，我都是喝湘江水长大的。我是一个典型的湖南人。”黄学东说。

　　1978年，15岁的黄学东进入湖南大学师资班(后来的电子工程系)，成为当时校园里年龄最小的学生之一。他先后获得湖南大学学士学位，清华大学硕士学位和英国爱丁堡大学博士学位。

　　“外界看到更多的是我在微软的成就，但是我不会忘记长沙以及母校湖南大学的功劳，我曾在这里打下追求科学和工程的坚实基础。湖南是我梦开始的地方。”黄学东说。

　　(黄学东在湖南大学开展讲座，讲解了语音识别领域的相关专业问题。)

　　黄学东此次回长沙是看望年迈的母亲。车至五一路，看着窗外，他颇为感慨：“留在记忆中的长沙生活，就是不断的修路。义务修路。五一路上，留着我们数不清的汗水。这么多年过去，今日的五一路，越来越繁华，真为家乡感到高兴。”提到湖南对他的影响，他说：“那就是不信邪、坚忍不拔。有了这种精神，做什么都能成功。”

　　情怀：破除语言交流的障碍

　　在爱丁堡大学念博士时，黄学东读了达尔文的“进化论”。达尔文曾在爱丁堡大学念医学，后来转到剑桥大学去念神学，毕业以后发表了进化论，跟神学完全决裂。黄学东觉得，这是很有意思的一件事。他意识到，人通过语言可以自然交流、相互合作，来自五湖四海的人，可以组织起来见面，都是因为有了语言。

　　(人工智能语音识别这条路，黄学东走了三十余年。)

　　“在人类进化的长河中，语音和语言是最重要的因素，有同样的重要性。我都想让语言能够被自如地使用，而不再是我们交流的障碍，我觉得这件事情太有意义。”黄学东说，“至少我自己 30 年如一日，从没有放弃过这份情怀。”

　　近年来，人工智能颇为火热，从“机器人写稿”、阿尔法“称霸”围棋界，到自动驾驶技术的应用，人工智能吸引了众多目光，也给未来带来无限的遐想。长沙伢子黄学东，对于人工智能的研究，已经有30余年。对于人工智能领域的一大高峰——语音识别，他经过不懈地专研，实现了5.1%的词错率，让人工智能有了“超人”的翻译能力。

　　他想打破语言交流的障碍，让五湖四海的人可以自然交流与合作。他是语音识别领域的追梦者。

　　出发：埋头专研人工智能

　　在微软这座AI领域的“黄埔军校”里，微软全球技术院士代表着技术人员的最高荣誉，到现在，全球也仅有20多人获得这项殊荣，其中就包括黄学东，微软首位华人技术院士、微软首席语音科学家。

　　1993年，他作为高级研究员加入了微软研究所并负责组建Microsoft's 语音识别技术研究团队。“人工智能研发一直在做，我1982年在清华上学的时候专业就是人工智能，经过了几十年业界的努力，很难说一年之内有大的飞跃，我也不认为明年就会比今年有很大的突破。但是现在大家对人工智能的认识已经比以前深刻了，最主要的原因就是人工智能的进步越来越快。”

　　(黄学东<前排左一>及其技术团队。)

　　黄学东告诉星辰全媒体记者，人工智能可以分为几个大的范畴，感知方面，例如计算机视觉、听觉、语音识别、图像识别，过去几年日新月异，可圈可点;更上一层是认知方面，机器学习、自然语言理解等，当然相对感知，认知进展会慢一些。再往前，人工智能最大的亮点还有语音交互和智能驾驶汽车。

　　“只有掌握了核心的语音和语言技术，人工智能才有希望，否则其它都是在‘忽悠’。”黄学东认为，在人工智能发展的过程中，语音和语言是皇冠上的明珠。

　　突破：语音识别词错率降至5.1%

　　“语音识别的发展有四个阶段，”黄学东对星辰全媒体记者说，“第一个阶段，从孤立短语开始应用;第二个阶段，做成连续的，但是中间字和字需要停顿;第三个阶段，可以识别连续的语音，是人和机器交流，不需要训练;第四个阶段，对话式的语音识别，虽然早在二十多年前就已提出，但其错误率一直徘徊在30%-50%之间。”

　　这四个阶段，横跨了语音识别探索四十余年的艰辛与梦想，也是黄学东近三十余年的奋斗历程。

　　(黄学东说，5.1%的语音识别词错率，意味着机器人有“超人”的识别能力，但要达到语义理解，还有很长一段路。)

　　2016年10月18日，由黄学东带领的微软语音团队在产业标准 Switchboard 语音识别基准测试中，实现了对话语音识别词错率(word error rate, 简称WER)低至5.9%的突破，首次达成与专业速记员持平而优于绝大多数人的表现。“这是人工智能领域突破性进展之一，意味着有史以来第一次有计算机能像人类一样，识别对话中的每一个单词。”黄学东说。

　　2017年9月，黄学东再次带领团队突破技术限制，把5.9%词错率降至5.1%。“可能表面上这个进展不大，但是在‘最后一英里’上，每 0.1 个百分点的进步都很艰难，必须保证系统没有任何bug。何况从相对错误率降幅角度， 5.9 到 5.1 是一个超过 10% 的相对进步。”

　　从 5.9% 到 5.1% 是如何实现的呢?调整结构亦或调整参数?黄学东告诉星辰全媒体记者，团队为此做了一千多个实验，评估了上百个不同的模型，几乎把所有的排列组合试了一遍，可以说是“粒粒皆辛苦”。

　　展望：“强人工智能”的来临

　　在2018年微软全球开发者大会上，微软推出的未来会议室使用360度相机和麦克风阵列，可以检测会议室中的任何人说话，并基于语义分析的会议纪要功能，进行实时同传+速记。

　　2019年5月7日，一年一度的全球开发者大会上，微软公布的未来会议室再升级。普通麦克风可“秒变”虚拟麦克风阵列，将现有设备 (如手机或笔记本电脑) 与普通麦克风如搭乐高积木一般动态地组合成一个更大的阵列，帮助客户在有或没有专门的麦克风阵列 DDK 的情况下都可以更容易地转写对话，随时随地使用 Azure 语音服务。例如，可以对多个 Microsoft Translator 应用程序进行配对，更有效地帮助多人使用移动电话进行沟通，从而将语言障碍降到最低。

　　(2019年，黄学东在牛顿住过的剑桥大学三一学院宿舍外留影，图中窗户外的苹果树是从牛顿老家移过来的。)

　　这离不开黄学东的努力。作为微软的首席语音科学家，黄学东率领团队实现了 AI 超越人类水平的历史性里程碑：2017年，在对话语音转写任务中，微软语音识别系统的词错率降到 5.1%，准确率超过专业速记员。2018 年，在汉英新闻机器翻译任务中，微软机器翻译系统达到了可与人工翻译媲美的水平。2019 年，在斯坦福对话式问答任务中，微软机器阅读理解系统刷新记录，成为目前排行榜上唯一一个模型分数超过人类分数的团队。

　　黄学东告诉星辰全媒体记者，语音识别基本解决了，只要有足够的计算资源、有足够多的场景数据就可以做得很好。下一步，是要做好语义理解。计算机语言识别是“感知”智能，因为深度学习、神经网络实现了突破，而“认知”是包括推理、理解上下文、自然语言处理，尚有待开发。机器翻译，则在感知和认知之间一个历史性的里程碑。

　　“让我们想象一下，如果有一天，机器可以理解我们所有的文本，了解上下文，有推理的功能，那么这意味着机器可以 24 小时阅读所有的新闻、所有出版过的文件、著作、科学文献，它可以上知天文下知地理，包括生物，这是不是比爱因斯坦还牛?——这才是真正的‘强人工智能’的来临。”黄学东兴奋地说。