在2025年大阪世博会中国馆内,一位特殊的“宣传大使”吸引了全球目光——它就是讯飞星火大模型展项“AI孙悟空”。这位能以三国语言自由切换的虚拟动画形象,不仅化身为中国馆的“智慧名片”,更以其背后的多语种大模型技术,向世界展示了中国AI的非凡实力。4日23日,科大讯飞东北亚研究院院长孙庆华在接受中国吉林网专访时,深入解读了这一创新成果背后的科研故事与吉林的科技力量。
科研实力铸就“AI孙悟空”国际范儿
“‘AI孙悟空’之所以能在国际舞台上大放异彩,离不开东北亚研究院在语音交互等核心技术上的深厚积累。”孙庆华院长自豪地介绍说。作为中国馆“唯一大模型展项”的总技术负责人,他带领东北亚研究院团队聚焦多语种大模型等技术的研发,经过三年磨砺,从2021年底成立之初便布局多语种研究,历经多个国家级、省级科研项目的锤炼,在2024年10月发布星火多语种大模型V1.0版本,并在短短数月内迭代至V2.0版本,在数学、综合考试、语言理解、机器翻译等四大核心能力的国际权威测试中,超越GPT-4o和DeepseekV3、R1,稳居国际领先地位。
多年来,科大讯飞深耕人工智能领域,深度解决多项人工智能核心技术卡脖子的问题,特别是语音交互方向上,获得多项合成、识别、语义理解国际比赛冠军。比如,2024年9月,科大讯飞参加了有“最难语音识别任务”之称的语音领域国际权威赛事——CHiME-8,在“会议室场景远场多人语音识别”(NOTSOFAR)任务中获得全部单声道、多声道两个赛道的第一名,连续五届收获冠军;从2005年参赛以来,在国际语音合成比赛(Blizzard Challenge)连续斩获14届冠军。
前沿技术支撑“AI悟空”灵动表现
让展品“活起来”、展项“动起来”,科大讯飞向全球展示生动亮丽的“中国名片”。
“要让‘AI孙悟空’动起来,还得结合大模型能力,使其回复、动作表现、与人交互的方式都高度还原孙悟空形象,这背后集成了语音识别、语音合成、虚拟人驱动、大模型等多项最前沿的多语种多模态AI技术。”孙庆华院长详细阐述了“AI孙悟空”的技术支撑。
面对高噪场景的挑战,研究院开发的高噪场景语音识别技术,在信噪比-5dB的极端环境下,识别准确率仍能保持在85%以上,远超国际竞品。在语音合成方面,通过音色解耦等创新,成功复刻了86版《西游记》中孙悟空的配音演员李世宏老师的声音,实现了中、日、英三国语言的流畅合成。而在多语种大模型对话上,研究院通过增强多轮对话和角色扮演能力,特别是针对日语对话生成中的文化差异问题,成功塑造了符合原著形象的日语孙悟空,赢得了国内外专家的高度评价。
吉林沃土滋养人工智能创新发展
谈及为何选择在吉林设立东北亚研究院,孙庆华院长表示:“吉林不仅拥有得天独厚的地理区位优势,更在汽车、农业、装备制造等产业上具有明显优势,这些优势为研究院的科研工作和成果转化提供了肥沃土壤。”
在人才方面,长春各大高校汇聚了众多高层次人才,外语专家资源丰富,为研究院的研发提供了坚实的人才保障。在产业基础和研发资源上,研究院与吉林大学、一汽集团等建立了联合实验室,借助本地科研优势,推动高质量研发。政府的大力扶持更是为研究院的发展注入了强大动力,从人才引进优惠政策到研发成果鼓励,为研究院的起步和成长提供了有力支撑。
多语种大模型 引领产业智能化转型
“多语种大模型技术能成为推动产业发展实现新质生产力的引擎之一。”孙庆华院长强调。东北亚研究院以多语种底座大模型技术为基础,积极推动在汽车、装备制造等方向的落地应用,助力吉林产业智能化转型。
以与一汽集团的合作为例,研究院的语音交互技术已广泛应用于一汽红旗、奔腾等品牌车型,智能座舱产品市占率接近100%。大模型技术于2024年1月在一汽红旗车型上定点应用,智能助理产品已覆盖一汽大众品牌所有车型。此外,研究院还在智能音效、智能驾驶等领域与一汽展开深度合作,计划于2025年在一汽奔腾E541车型上量产L2.5智驾算法,并逐步升级迭代。
吉林优势助力科研与产业的双重赋能
孙庆华院长指出,吉林在地理区位、产业基础和科研资源等方面为研究院的发展提供了诸多优势条件。长春作为东北亚的中心城市,拥有丰富的外语专家资源和汽车产业基础,与吉林大学、一汽集团等建立的联合实验室,为研究院的科研工作和成果转化提供了有力支撑。
“人工智能正在改变世界,而AI大模型将成为未来社会的重要支柱。”孙庆华院长表示,东北亚研究院将继续深耕多语种人机交互技术,推动人工智能与吉林优势产业的深度融合,为吉林的科技发展贡献更多力量。
在这片充满生机的黑土地上,科大讯飞东北亚研究院正以AI为笔,绘就着吉林科技发展的新图景,让世界看见中国AI的非凡魅力。
中国吉林网 吉刻APP
记者 姚婉如
科大讯飞供图