人才动态

湾区逐梦 | 杨敏:深耕自然语言处理,架起人类与机器沟通的桥梁

时间:2020-09-21  来源:文宣办 文本大小:【 |  | 】  【打印

  【2020年,是深圳经济特区建立40周年。从边陲小渔村到“综合性国家科学中心”,从“特区”到“先行示范区”,深圳始终肩负着中国改革开放和现代化建设先行探路的使命。在特区40年乘风破浪的路上,深圳先进院坚定选择与深圳这座城市同呼吸、共发展、创未来。庆祝特区成立40周年,深圳先进院推出“我为综合性国家科学中心做贡献”系列人物报道,展现科研人员开拓、创新、团结、贡献的特区精神。】

  CCF-A类学术会议和JCR一区期刊上发表高水平学术论文80余篇,获得中国人工智能学会2018年度最佳青年科技成果奖、2019年度CCF-腾讯犀牛鸟基金优秀专利奖,是中国科学院青年创新促进会成员……拥有这份亮丽简历的是来自天府之国的90后杨敏,抱着对自然语言处理技术的极大热情,她在香港大学攻读计算机科学专业博士之后,进入中国科学院深圳先进技术研究院数字所开启了她的科研之路,目前是副研究员兼博士生导师。 

  为什么选择深耕人工智能?杨敏表示兴趣与热爱是最大驱动力,“数据挖掘研究令人非常着迷,从大数据中常常能分析出有用和令人兴奋的信息。”同时,杨敏也十分看好人工智能技术的发展前景,她认为随着人类对先进便捷生活的不断追求,人工智能必将在当中扮演重要角色。

  数字所副研究员杨敏

  让机器听懂人话? 

  从模拟人类行为开始 

  近年来,随着智能技术的普及,机器人逐渐在各个领域代替人工成为客服的主力军。然而,人们在“人机对话”中常常会遇到程序繁琐、答非所问的情况。如何让智能客服更好地理解人类的真实需求?如何更快、更精准地反馈问题的答案?这些都是自然语言处理技术亟待解决的问题。 

  “要让智能问答和人类问答达到相同程度,实际上是非常困难的,”杨敏说,“目前我们还处于弱人工智能时代,需要攻克认知智能,才能让机器真正地理解问题、进行推理和解决问题,目前看来还有一定距离。” 

  为了让机器读懂人类的语言,杨敏团队尝试根据人类行为设计深度神经网络模型。“比如人类在做一篇文章的阅读理解时,通常会先粗略浏览整个文章的大致内容,第二遍再带着问题精读寻找答案,第三遍确保答案正确。” 杨敏团队从人类阅读认知角度出发,模拟人类阅读认知过程中预读、精读、后读三个阶段,提出基于先验知识的交互感知模型、目标感知的语义蒸馏模型、基于强化学习的语义反馈模型等,以更贴近人类阅读认知的方式解决自然语言理解问题。 

  光有大数据不够! 

  知识图谱给机器“补课” 

  当然,人工智能也有“过人之处”,强大的算力与大量的数据让机器能够快速获得学习的资源,但只有大数据还远远不能达到人类的水平。 

  “尽管通过大数据的挖掘分析能够得到很多有用的信息,但只有数据驱动是不够的,人类之所以能够快速做出决策,是因为拥有丰富的经验常识和背景知识。”杨敏表示,她们团队尝试用数据驱动和知识驱动相结合的方式,通过建立完善的知识图谱,补齐人工智能背景知识的“短板”。 

  此外,模型压缩也是杨敏团队主攻的技术方向。当对模型训练的强度越来越大,数据量越来越多,精度越来越高时,消耗也会越来越大。特别是在线上运行时,由于模型过于复杂,反馈结果的时间会从毫秒级拖延成秒级,导致用户体验效果不佳。 

  “通过模型压缩能够在不影响运算精度的情况下,让参数变少,效率提高,节省训练时间的同时,降低对数据的要求,提升用户体验。”据杨敏介绍,团队目前正与腾讯、神州泰岳等企业合作进行模型压缩的攻关研究,主要应用于自然语言理解和推荐系统任务。 

  在应用落地方面,杨敏团队还与深圳市得理科技有限公司成立了“法律人工智能联合实验室”,将自然语言处理和推荐系统的核心算法应用到司法领域,开发案件判决预测、类案智能搜索、法律智能问答等系统。 

  得理法律平台

  为科技之城贡献力量 

  在杨敏加入深圳先进院之前,她曾在科技企业有过短暂的工作经历,她感到科研机构与企业最大的不同之处在于,在科研机构能够有机会深入研究一些“有难度又有研究价值的课题”,尽管短时间未必能很快看到结果,但能够投入更多时间和精力专注攻克,希望能取得突破性的进展。  

  不仅如此,深圳先进院对于产学研融合的大力支持,也让杨敏感到“能够真正将基础研究写在祖国大地上”,既能打破技术壁垒,又能快速找到产业界合作的落脚点,快速验证自己的算法是否实用。 

  来深3年,深圳带给川妹子杨敏最大的感受是“科技之城”,“科研技术公司非常多,对于我们寻找产业合作伙伴和学生寻找实习工作都非常有利。同时,深圳出台了非常多吸引高端人才的政策,使得深圳汇聚了全世界顶尖的人才,集聚效应产生过人才又反哺深圳,为深圳的发展做贡献,形成良性循环,对于我们年轻人而言,充满吸引力。” 

 杨敏团队