讯飞星火多模态交互大模型上线,实现超拟人数字人互动

11 月 14 日消息,“讯飞开放平台” 公众号宣布,讯飞星火多模态交互大模型正式上线。这一模型不仅实现了从语音交互到音视频流实时多模交互的拓展,还新增了 “多模态、超拟人和个性化” 能力,实现语音、视觉、数字人交互三合一,支持一键调用。

讯飞星火多模态交互大模型首发超拟人数字人技术,数字人躯干和四肢动作能够精准匹配语音内容,快速生成表情和动作,使 AI “栩栩如生”。通过统一文本、语音和表情,能够实现跨模态的语义一致性,从而使大模型情感表达真实连贯。

这一模型支持超拟人极速交互,采用统一神经网络直接实现语音到语音的端到端建模,响应更加快速、流畅。它可以敏锐地感知情绪变化,并根据指令自由变换声音的节奏、大小和人设,提供更自然的交互体验。

讯飞星火多模态交互大模型还支持多模态视觉交互,能够 “听懂世界”“认清万物”。它可以更全面地感知具体背景场景、物流状态等信息,对任务的理解更加精准,并通过语音、手势、行为、情绪等进行综合判断,作出合适的回复。

据了解,用户可以与数字人进行语音、视频通话,数字人可以实现与用户的自然语音对话,人物表情等也能够匹配说话的语句。星火超拟人数字人还支持多模态交互,可让数字人识别摄像头中的内容,比如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。

讯飞星火多模态交互大模型的正式上线,标志着人工智能交互技术的又一次重大突破。通过实现语音、视觉、数字人交互三合一,并引入超拟人数字人技术,讯飞星火为用户提供了更加自然、流畅的互动体验。这一技术的应用前景广阔,将为各行业的智能化发展带来新的可能性。