记者:获得国家科学技术进步奖一等奖,无论对企业还是对您个人,都是一件大事,请您谈谈此刻的感受。
刘庆峰:非常激动,也非常荣幸。这对于科大讯飞来说,是一个阶段性总结,也是新的开始。
记者:不积跬步无以至千里。科研攻关不是百米赛跑,而是一场马拉松。请简要介绍一下科大讯飞在多语种智能语音技术科研上克服了怎样的困难,取得了哪些突破性成果?
刘庆峰:持续攻关多年,科大讯飞攻克了多个技术难题,并打破美国技术封锁,提出了四个方面的技术创新。
创新点一,是复杂语音信号解耦建模关键技术突破。
语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题。
科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,解决了“鸡尾酒会”的难题,使复杂场景下语音识别准确率得到重大突破。
创新点二,是多语种共享建模关键技术突破。
为了应对多语种技术“卡脖子”问题,必须解决小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题。
科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模,显著提升了小语种语音系统性能。
相关技术在2021年的国际低资源多语种语音识别竞赛OpenASR中获得15个语种受限赛道和7个语种非受限赛道的冠军。
创新点三,是语音语义联合建模关键技术突破。
复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题。
科大讯飞提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。
创新点四,是国产异构硬件平台训练及推理加速关键技术突破。
国外高端智算芯片断供后,使用国产芯片开展智能语音算法模型训练和推理面临性能低、适配难等问题。
科大讯飞提出硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。
记者:当前人工智能大模型快速发展,已形成“百模大战”局面,讯飞如何抓住机遇,依托多语种智能语音技术的优势,在“百模大战”中赢得先机?
刘庆峰:通用人工智能时代,科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。
语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。2024年1月30日,科大讯飞就基于上述技术融合路线发布了星火语音大模型,显著超过了OpenAI的Whisper v3的语音大模型能力,Whisper v3的24个主要语种的平均识别率为82%,而星火语音大模型达到了90%。4月26日,科大讯飞又首发多情感超拟人合成和一句话声音复刻能力,使机器具备更加丰富的超拟人情绪感知和表达。
大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等未来智能产品创新,带来巨大产业机会,加速通用人工智能时代的到来。
■ 本报记者 汪永安
责任编辑:祁梦宝