艾智迹 AGIDT
AGI时代的记录者、连接者与推动者

中科院推出 Stream-Omni 多模态大模型,文本视觉语音同时搞定

中国科学院计算技术研究所推出Stream-Omni多模态大模型,同步处理文本、视觉和语音。语音交互实时显示中间文本结果,提升效率。模型优化模态关系,减少数据依赖,实现高效对齐。支持多模态组合输入,实验显示语音能力领先,视觉媲美同行,奠定智能交互基础。来源

赞(0) 打赏
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《中科院推出 Stream-Omni 多模态大模型,文本视觉语音同时搞定》
文章链接:https://www.agidt.com/?p=574
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

AGIDT.COM | 追踪AGI进展 见证智能飞跃

一个AGI观察者、传播者、连接者和推动者的复合体

AGI脉动AGI会客厅

登录

找回密码

注册