多模态言语交互学术研讨会在深圳先进院顺利召开
7月5日, 由中国科学院人机智能协同系统重点实验室和深圳市言语治疗及康复技术工程实验室联合举办的多模态言语交互学术研讨会在中国科学院深圳先进技术研究院B810会议室举行。
本次会议的主题是“多模态言语交互”,由中科院人机智能协同系统重点实验室副主任王岚博士主持会议,邀请了香港中文大学电子工程系教授李丹博士,中国科学技术大学电子工程与信息科学系副教授凌震华博士,中山大学-卡内基梅隆大学联合工程学院副教授李明博士,先进院集成所环绕智能研究室副研究员燕楠博士和中山大学数据科学与计算机学院副教授成慧博士。会议还邀请了香港中文大学的Andrew X. Liu 教授,南方科技大学的陈霏副教授,深圳大学的郑能恒副教授共同参加研讨。各邀请嘉宾分别介绍了最新研究进展,来自粤港两地的数十位师生参加了研讨会。
李丹博士作了题为“Use of ASR technology in automatic assessment of disordered speech”的报告,他首先介绍了病理嗓音和言语发音障碍的临床特点,利用基于DNN-HMM模型的自动语音识别系统对病理语音进行自动评估,通过自动对比正常人和言语障碍患者的发音声学参数,可以有效区分患者的言语障碍的不同程度,解决了临床病理语音诊断的主观化、耗时等问题,并针对粤语的语音系统建立了声学常模,在此基础上开发了病理语音自动评估系统,在临床应用中获得了较好的效果。
凌震华博士主要针对“基于深度学习的语音生成”作了报告,在凌震华博士的报告中,首先介绍了传统的基于HMM的统计参数语音合成方法的局限性。利用深度受限波兹曼机建立声学模型,利用生成训练的DNN进行后置滤波,此外还利用卷积神经网络对语音带宽扩展进行波形建模和利用深层的神经网络设计语音编码器,将以上三种方法进行了统计参数语音的合成,能提高统计参数语音合成的效果。
李明博士作了关于“多模态自闭症行为分析”的报告,其团队主要对自闭症儿童多模态行为信号开展了深入的分析与理解,通过无接触摄像的方式采集自闭症儿童的语音、面部图像、眼动等多模态数据,分别建立了基于RNN和CNN+RNN的模型,并对自闭症儿童的异常韵律进行了检测和分析。其团队还利用可穿戴式设备收集自闭症儿童日常生活的音频数据,分析自闭症儿童与成人之间的区别,对自闭症儿童的语音进行声纹识别。最后,他研究了基于图像的情感识别,以预测自闭症儿童的心理状况。该团队的一系列科研工作进一步深化了我国自闭症的多模态研究。
燕楠博士作了“言语生成建模与客观评估在言语康复中的应用”的报告,基于目前国内外言语障碍诊断及治疗面临的严峻现状,该团队对言语康复系统的关键技术进行了深入研究,包括言语认知加工通路的客观评估、言语障碍加工通路损伤的脑神经机制、基于普通话的三维虚拟发音模型和呼吸气流模拟等技术,并针对汉语语音特点,设计了三维虚拟说话人头像可视化模型。最后开发了一套可视化言语康复系统,并将此系统应用于自闭症儿童言语康复中,在临床应用中取得了不错的效果。
成慧博士针对“机器人的感知与控制”作了报告,在成慧博士的报告中,首先介绍了关于移动机器人感知与控制的一些关键技术,包括运动控制,场景感知和场景理解。同时介绍了智能移动机器人的自主跟随与避障,主要利用RGB-D传感器定位人体关节点。通过融合多传感器的RGB-D SLAM进行同步定位和地图构建,弥补了Kinect深度测量范围有限的不足。此外,她还展示了微小型无人机的自主飞行和无人机的自主跟踪中的视觉跟踪、云台控制、目标定位以及跟踪控制的技术,最后,采用集群无人机的自主协同的方式解决了大面积作业区域或复杂作业环境的问题。
先进院的科研人员及研究生认真听取了报告,并与五位博士进行了讨论和交流。
王岚博士介绍五位报告人
李丹博士作报告
凌震华博士报告
李明博士作报告
燕楠博士作报告
成慧博士作报告
五位博士和部分学生的合影