自在星辰 | 199期 | 黄学东:长沙学霸的自在人生

绿色新闻 | 2019-05-14 16:48:15
星辰在线 | 编辑:陈贝贝


  (黄学东,长沙学霸的自在人生。)

  星辰在线5月14日讯(星辰全媒体记者 王重浪 李林)湖南人会读书、爱读书,读活书,活读书的名声,数百年来闻名中外。长沙伢子黄学东,用他的几十年一贯以之的不懈奋斗,为湖南学子树立了一个新的标杆。

  2019年春天的一个黄昏,星辰全媒体记者幸会了这位匆匆忙忙回乡省亲的湖南游子。我们从马王堆一个小餐馆里面开聊,持续到黄花机场的小饮料店,直到黄学东的飞机快要起飞了,才恋恋不舍的相互道别。

  回乡:我是一个典型的湖南人

  “从小到大,我都是喝湘江水长大的。我是一个典型的湖南人。”黄学东说。

  1978年,15岁的黄学东进入湖南大学师资班(后来的电子工程系),成为当时校园里年龄最小的学生之一。他先后获得湖南大学学士学位,清华大学硕士学位和英国爱丁堡大学博士学位。

  “外界看到更多的是我在微软的成就,但是我不会忘记长沙以及母校湖南大学的功劳,我曾在这里打下追求科学和工程的坚实基础。湖南是我梦开始的地方。”黄学东说。

  (黄学东在湖南大学开展讲座,讲解了语音识别领域的相关专业问题。)

  黄学东此次回长沙是看望年迈的母亲。车至五一路,看着窗外,他颇为感慨:“留在记忆中的长沙生活,就是不断的修路。义务修路。五一路上,留着我们数不清的汗水。这么多年过去,今日的五一路,越来越繁华,真为家乡感到高兴。”提到湖南对他的影响,他说:“那就是不信邪、坚忍不拔。有了这种精神,做什么都能成功。”

  情怀:破除语言交流的障碍

  在爱丁堡大学念博士时,黄学东读了达尔文的“进化论”。达尔文曾在爱丁堡大学念医学,后来转到剑桥大学去念神学,毕业以后发表了进化论,跟神学完全决裂。黄学东觉得,这是很有意思的一件事。他意识到,人通过语言可以自然交流、相互合作,来自五湖四海的人,可以组织起来见面,都是因为有了语言。

  (人工智能语音识别这条路,黄学东走了三十余年。)

  “在人类进化的长河中,语音和语言是最重要的因素,有同样的重要性。我都想让语言能够被自如地使用,而不再是我们交流的障碍,我觉得这件事情太有意义。”黄学东说,“至少我自己 30 年如一日,从没有放弃过这份情怀。”

  近年来,人工智能颇为火热,从“机器人写稿”、阿尔法“称霸”围棋界,到自动驾驶技术的应用,人工智能吸引了众多目光,也给未来带来无限的遐想。长沙伢子黄学东,对于人工智能的研究,已经有30余年。对于人工智能领域的一大高峰——语音识别,他经过不懈地专研,实现了5.1%的词错率,让人工智能有了“超人”的翻译能力。

  他想打破语言交流的障碍,让五湖四海的人可以自然交流与合作。他是语音识别领域的追梦者。

  出发:埋头专研人工智能

  在微软这座AI领域的“黄埔军校”里,微软全球技术院士代表着技术人员的最高荣誉,到现在,全球也仅有20多人获得这项殊荣,其中就包括黄学东,微软首位华人技术院士、微软首席语音科学家。

  1993年,他作为高级研究员加入了微软研究所并负责组建Microsoft's 语音识别技术研究团队。“人工智能研发一直在做,我1982年在清华上学的时候专业就是人工智能,经过了几十年业界的努力,很难说一年之内有大的飞跃,我也不认为明年就会比今年有很大的突破。但是现在大家对人工智能的认识已经比以前深刻了,最主要的原因就是人工智能的进步越来越快。”

  (黄学东<前排左一>及其技术团队。)

  黄学东告诉星辰全媒体记者,人工智能可以分为几个大的范畴,感知方面,例如计算机视觉、听觉、语音识别、图像识别,过去几年日新月异,可圈可点;更上一层是认知方面,机器学习、自然语言理解等,当然相对感知,认知进展会慢一些。再往前,人工智能最大的亮点还有语音交互和智能驾驶汽车。

  “只有掌握了核心的语音和语言技术,人工智能才有希望,否则其它都是在‘忽悠’。”黄学东认为,在人工智能发展的过程中,语音和语言是皇冠上的明珠。

  突破:语音识别词错率降至5.1%

  “语音识别的发展有四个阶段,”黄学东对星辰全媒体记者说,“第一个阶段,从孤立短语开始应用;第二个阶段,做成连续的,但是中间字和字需要停顿;第三个阶段,可以识别连续的语音,是人和机器交流,不需要训练;第四个阶段,对话式的语音识别,虽然早在二十多年前就已提出,但其错误率一直徘徊在30%-50%之间。”

  这四个阶段,横跨了语音识别探索四十余年的艰辛与梦想,也是黄学东近三十余年的奋斗历程。

  (黄学东说,5.1%的语音识别词错率,意味着机器人有“超人”的识别能力,但要达到语义理解,还有很长一段路。)

  2016年10月18日,由黄学东带领的微软语音团队在产业标准 Switchboard 语音识别基准测试中,实现了对话语音识别词错率(word error rate, 简称WER)低至5.9%的突破,首次达成与专业速记员持平而优于绝大多数人的表现。“这是人工智能领域突破性进展之一,意味着有史以来第一次有计算机能像人类一样,识别对话中的每一个单词。”黄学东说。

  2017年9月,黄学东再次带领团队突破技术限制,把5.9%词错率降至5.1%。“可能表面上这个进展不大,但是在‘最后一英里’上,每 0.1 个百分点的进步都很艰难,必须保证系统没有任何bug。何况从相对错误率降幅角度, 5.9 到 5.1 是一个超过 10% 的相对进步。”

  从 5.9% 到 5.1% 是如何实现的呢?调整结构亦或调整参数?黄学东告诉星辰全媒体记者,团队为此做了一千多个实验,评估了上百个不同的模型,几乎把所有的排列组合试了一遍,可以说是“粒粒皆辛苦”。

  展望:“强人工智能”的来临

  在2018年微软全球开发者大会上,微软推出的未来会议室使用360度相机和麦克风阵列,可以检测会议室中的任何人说话,并基于语义分析的会议纪要功能,进行实时同传+速记。

  2019年5月7日,一年一度的全球开发者大会上,微软公布的未来会议室再升级。普通麦克风可“秒变”虚拟麦克风阵列,将现有设备 (如手机或笔记本电脑) 与普通麦克风如搭乐高积木一般动态地组合成一个更大的阵列,帮助客户在有或没有专门的麦克风阵列 DDK 的情况下都可以更容易地转写对话,随时随地使用 Azure 语音服务。例如,可以对多个 Microsoft Translator 应用程序进行配对,更有效地帮助多人使用移动电话进行沟通,从而将语言障碍降到最低。

  (2019年,黄学东在牛顿住过的剑桥大学三一学院宿舍外留影,图中窗户外的苹果树是从牛顿老家移过来的。)

  这离不开黄学东的努力。作为微软的首席语音科学家,黄学东率领团队实现了 AI 超越人类水平的历史性里程碑:2017年,在对话语音转写任务中,微软语音识别系统的词错率降到 5.1%,准确率超过专业速记员。2018 年,在汉英新闻机器翻译任务中,微软机器翻译系统达到了可与人工翻译媲美的水平。2019 年,在斯坦福对话式问答任务中,微软机器阅读理解系统刷新记录,成为目前排行榜上唯一一个模型分数超过人类分数的团队。

  黄学东告诉星辰全媒体记者,语音识别基本解决了,只要有足够的计算资源、有足够多的场景数据就可以做得很好。下一步,是要做好语义理解。计算机语言识别是“感知”智能,因为深度学习、神经网络实现了突破,而“认知”是包括推理、理解上下文、自然语言处理,尚有待开发。机器翻译,则在感知和认知之间一个历史性的里程碑。

  “让我们想象一下,如果有一天,机器可以理解我们所有的文本,了解上下文,有推理的功能,那么这意味着机器可以 24 小时阅读所有的新闻、所有出版过的文件、著作、科学文献,它可以上知天文下知地理,包括生物,这是不是比爱因斯坦还牛?——这才是真正的‘强人工智能’的来临。”黄学东兴奋地说。

  (黄学东<右>与星辰全媒体记者合影。)

  自在星辰原创报道 第一百九十九期

  总策划:何旭

  执行策划:郑文新、王重浪、林之乐、邓皓

  监制:何乐、黄超

  文/王重浪 李林 图/受访者提供 编/陈宇 校/罗罗君


(点击进入自在星辰主页,查看更多精彩内容。)

【来源:星辰在线】

标签:
    全部评论:0