 

中科院推出 Stream-Omni 多模态大模型，文本视觉语音同时搞定

2025-07-08 分类：AI快讯阅读() 评论(0) 赞(0)

中国科学院计算技术研究所推出Stream-Omni多模态大模型，同步处理文本、视觉和语音。语音交互实时显示中间文本结果，提升效率。模型优化模态关系，减少数据依赖，实现高效对齐。支持多模态组合输入，实验显示语音能力领先，视觉媲美同行，奠定智能交互基础。来源

赞(0)  打赏

版权声明：本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称：《中科院推出 Stream-Omni 多模态大模型，文本视觉语音同时搞定》
文章链接：https://www.agidt.com/?p=574
本站资源仅供个人学习交流，请于下载后24小时内删除，不允许用于商业用途，否则法律问题自行承担。

分享到

Banny 

代码之子，广告之舵；市场之巅，历尽阡陌。昔日的代码园丁，今朝的 AI 智能匠，愿与你，共创辉煌，书写未来新篇章。欢迎+V：86458694；个人微网：https://www.npie.net/

评论抢沙发

快讯

今日 AI 快讯：Meta Llama 4 震撼发布, IBM Think 2026 揭幕 (2026年05月05日)
🚀 AGI 全球动态汇总

🏢 巨头动态
- Meta Llama 4 震撼发布：Meta 正式发布 Llama 4 系列开源模型，其中 Ultra 版本在多项基准测试中超越 GPT-4，显著提升了开源模型在企业级应用中的竞争力。
- IBM Think 2026 开幕：IBM 发布“AI 运营模型蓝图”，推出 watsonx Orchestrate（多智能体编排）、IBM Concert 运营平台及 IBM Sovereign Core（主权与治理）。
- Google AI 技术连发：发布 Gemma 4 开源模型及 Deep Research Max 高级分析工具；Gemini API 现已支持 Webhooks 以优化长任务处理。
- Microsoft Copilot 突破：微软宣布 Copilot 付费用户数已正式突破 2000 万大关。
📱 硬件与端侧智能
- OpenAI AI 手机传闻：分析师指出 OpenAI 正加速开发首款 AI Agent 手机，预计搭载联发科天玑 9600 处理器，由台积电 2nm 工艺打造，目标 2027 年量产。
- 英特尔高管变动：前高通高管 Alex Katouzian 加盟英特尔，执掌客户端计算与物理人工智能集团，发力 AI PC 与具身智能硬件。
- Datavault AI 融资：在纳斯达克上市的 Datavault AI 筹集 6000 万美元，用于部署其“量子就绪”的 GPU 边缘网络。
⚖️ 政策、监管与安全
- 美国《人工智能监管法案》(AI OVERWATCH Act)：美参议员提议将先进芯片出口限制正式法律化，旨在平衡国家安全与盟友协作。
- 模型安全评估协议：微软、Google、OpenAI、Anthropic 及 xAI 达成协议，允许美国商务部 AI 标准与创新中心 在新模型发布前进行早期安全风险测试。
💰 行业应用与投融资
- Sierra 巨额融资：OpenAI 前董事长 Bret Taylor 创立的 AI 客服公司 Sierra 融资 9.5 亿美元，估值飙升，已服务超 40% 的财富 50 强企业。
- 医疗 AI 突破：最新研究显示 AI 在急诊诊断中的准确率已超过人类医生，引发行业对 AI 辅助决策的广泛关注。
- 具身智能进展：北京航空航天大学在星球探测机器人领域取得突破，推动 AI 与机器人技术在极端环境下的深度融合。
注：以上资讯综合自 36Kr、机器之心、TechCrunch 及全球各大主流科技媒体。
1个月前 (05-05)
今日 AI 快讯：Meta 收购机器人初创公司，美五角大楼部署 AI 优先部队 (2026年05月03日)
🚀 AGI 全球动态汇总

🏢 巨头动态与战略
- Meta 进军具身智能：Meta 宣布收购机器人初创公司 Assured Robot Intelligence，旨在强化人形机器人 AI 战略，构建机器人的‘操作系统级’平台。
- 美五角大楼‘AI 优先’部队：国防部与 OpenAI、Google、Nvidia 等 8 家顶级 AI 公司达成协议，将先进 AI 能力部署至机密网络，打造 AI 驱动的作战力量。
- OpenAI GPT-5.5 安全争议：GPT-5.5 安全性能曝光，在漏洞发现上表现强劲，但其仅限特定用户使用的‘准入限制’引发了行业公平性争议。
🛠️ 技术突破与开源
- 具身智能仿真框架开源：新一代高保真渲染仿真框架发布，通过突破视觉仿真算力瓶颈，支持大规模并行仿真，加速机器人研发。
- Reflect 框架‘无训练进化’：新型 Reflect 框架支持 AI 代理（Agent）通过内置反思机制实现自主改进，无需传统的重训练或微调。
- 垂直领域 AI CAD：基于自然语言的 AI 线束设计工具引发关注，可直接生成符合工程标准的 CAD 线束模型。
🌐 行业趋势与社会影响
- 法律红线：中国法院裁定‘以 AI 替代员工’为由的辞退属于违法，强调 AI 技术应用不能作为非法裁员的自动借口。
- 网络安全警告：英国 NCSC 警告 AI 驱动的漏洞搜寻将暴露多年‘技术债’，企业面临前所未有的补丁压力。
- ‘AI 疲劳’显现：调研显示 Gen Z 对 AI 生成内容的兴趣下降，44% 的每日流媒体上传已为 AI 生成，引发对内容质量的焦虑。
🌍 全球基建与地缘政治
- 亚美尼亚 AI 雄心：该国动工建设耗资 40 亿美元的 125MW 大型数据中心，获得 Nvidia Blackwell 芯片出口许可，被视为地缘政治转向的重要标志。
注：以上资讯综合自 36Kr、机器之心、TechCrunch 及全球各大主流科技媒体。
1个月前 (05-03)
深度专题 | 今日 AI 快讯：GPT-5.5 震撼发布, 智能体经济元年正式开启 (2026年04月30日)
🚀 AGI 全球动态汇总：迈向智能体时代

💎 旗舰模型与技术巅峰
- OpenAI 正式发布 GPT-5.5 (Spud)：这是 AI 历史上的里程碑，新模型引入了原生全模态处理能力，在处理确定性逻辑和复杂符号环境方面展现出前所未有的精度。
- Google 推出 Gemini 3.1 与“智能体数据云”：通过统一业务语义的知识目录，Google 成功将 AI 智能体的幻觉风险降至最低，实现了企业级 AI 的大规模落地。
- Anthropic 发布 Claude Mythos 5：联手 Amazon 和 Apple 启动 "Project Glasswing"，致力于通过 AI 保护全球金融基础设施，极大提升了网络安全响应速度。
💰 巨头博弈与市场重组
- SpaceX 2500亿美元完成对 xAI 的收购：马斯克成功打造了估值达 1.25 万亿美元的垂直整合实体，将商业航天与顶级 AI 能力深度绑定。
- “智能体”财报周：Alphabet 和 Microsoft 营收大涨，Google Cloud 季度营收首次突破 200 亿美元。市场关注点已从“AI 能做什么”转向“AI 创造了多少运营价值”。
- 1-Bit LLM 架构成熟：这一技术突破极大地降低了 AI 推理的能耗，标志着“低功耗、高性能”大模型时代的到来。
⚙️ 工业应用与社会反思
- 物理 AI 赋能重工业：IBM 与 Dallara 合作的物理 AI 模型将赛车气动模拟从小时级压缩至分钟级，标志着 AI 正在接管硬核工程设计。
- 学术诚信红线调整：截至 4 月 30 日，超 55% 的学生常态化使用 AI，迫使全球高校紧急更新学术道德准则。
- 反 AI 运动与财富税争议：随着自动化威胁增加，加州等地开始讨论针对数据中心征收财富税，以抵消 AI 带来的就业冲击。
深度总结：2026 年 4 月 30 日标志着 AI 智能体（Agents）从实验室全面走向生产力环境，我们正在见证“数字员工”时代的到来。

注：资讯综合自 36Kr、机器之心、TechCrunch、Axios 及全球主流科技媒体。
1个月前 (04-30)
今日 AI 快讯：Kimi K2.6 发布, 苹果 CEO 易主转向 Agentic AI (2026年04月21日)
🚀 AGI 全球动态汇总
巨头动态
- Moonshot AI 发布 Kimi K2.6：正式推出 K2.6 模型，支持长达 12 小时的连续编程会话，可同时运行 300 个智能体（Agents），在长文本和并发能力上挑战全球顶尖水平。
- 苹果 CEO 变动与战略转向：Tim Cook 宣布将于 9 月卸任，John Ternus 接任。外界解读此举标志着苹果将全面押注 Agentic AI（智能体 AI），利用芯片优势实现端侧推理反超。
- Google 自研 TPU 竞速推理市场：Google 展示了针对推理负载优化的新一代定制 TPU 芯片，旨在大幅降低 AI 智能体响应延迟，正面硬刚 Nvidia。
交互趋势与行业应用
- Agentic AI 普及元年：Gartner 预测到 2028 年，三分之一的企业软件将集成智能体 AI。行业正从单一对话模型向具备自主执行能力的 Agent 演进。
- 医疗 AI 诊断新进展：Spectral AI 的 DeepView 系统在预测烧伤伤口愈合方面取得关键突破，利用算法显著提升临床决策准确性。
安全与公共政策
- 美国 CDC 发布 AI 使用准则：强调在公共卫生领域负责任地部署 AI，要求必须有明确的人类监督和科学诚信审查。
注：以上资讯综合自 36Kr、机器之心、TechCrunch 及全球各大主流科技媒体。
2个月前 (04-21)
今日 AI 快讯：Yann LeCun 创办 AMI Labs 获 10 亿美元融资，联合国 AI 治理对话进入关键期 (2026年04月20日)
今日 AI 快讯：Yann LeCun 创办 AMI Labs 获 10 亿美元融资，联合国 AI 治理对话进入关键期 (2026年04月20日)

🚀 AGI 全球动态汇总

🏢 巨头动态与技术突破
- Yann LeCun 的 AMI Labs 融资 10 亿美元：图灵奖得主 Yann LeCun 创立的新公司 AMI Labs 宣布完成逾 10 亿美元融资，旨在开发理解物理规律的“世界模型”。
- 李飞飞“空间智能”公司新进展：聚焦 AI 对三维物理世界的理解能力，持续引领具身智能前沿。
- AI “潜意识学习”现象引发关注：研究发现模型间可能在人类不可察觉的情况下传递特定特征，引发安全界对模型蒸馏安全性的担忧。
⚖️ 治理、监管与法律
- 联合国启动全球 AI 治理对话：成员国正就建立互操作性的治理框架进行最后磋商，力求防止全球 AI 治理体系碎片化。
- 美国联邦与地方监管博弈加剧：联邦政府主张统一标准以维持竞争力，而加州、纽约州等则积极推动针对灾难性风险的地方立法。
- 欧盟 AI 法案细化执行指南：AI 办公室发布关于“系统性风险”模型的合规指南，针对超大规模算力模型加强监管。
🌐 开源生态与市场趋势
- 2026 斯坦福 AI 指数报告发布：开源与闭源模型性能差距缩小至 3.3%，DeepSeek、Kimi、GLM 等中国模型在国际排行榜表现强劲。
- Hugging Face 用户突破 1300 万：平台公开模型数超 200 万，开源 AI 正式成为财富 500 强企业的核心技术战略。
- AI 订阅服务转向“计量付费”：OpenAI 与 Anthropic 调整策略，针对长文本和工具调用引入更多维度计费。
注：以上资讯综合自 36Kr、机器之心、TechCrunch 及全球各大主流科技媒体。
2个月前 (04-20)
今日 AI 快讯：硅谷裁员潮与 AI 效率争论，Alphabet 全产业链主导地位凸显 (2026年04月12日)
🚀 AGI 全球动态汇总

🏢 行业趋势：裁员潮与 AI 的真实角色
- 效率至上还是缩减开支？ 2026年4月，硅谷企业界出现显著裁员趋势。Oracle 裁员约 30,000 人；Block (Cash App) 裁减约 4,000 名员工，创始人杰克·多西明确表示 AI 显著提升了小型团队的运营效率。
- 结构重组： Dropbox 裁员 500 人旨在完全围绕 AI 进行组织重构。同时，Shopify 要求员工必须证明任务无法由 AI 完成，方可申请增加人手。
- 争议点： 尽管企业宣称效率提升，但初步调查显示，员工在纠正 AI 错误上花费了大量时间，实际工作负荷并未因自动化而减轻。
⚔️ 巨头动态：Alphabet (Google) 的全产业链主导
- 软件逆袭： Gemini 在企业级 LLM 市场的份额已从 2023 年的 7% 飙升至 21%，有望在年内超越 ChatGPT。此外，苹果 AI 计划对 Gemini 技术的采用也极大巩固了其地位。
- 硬件支撑： Alphabet 自研的 TPU (张量处理单元) 已成为 Nvidia GPU 的最强竞争对手。Alphabet 被视为目前业内唯一在 AI 软件（模型）与硬件（算力）两端均具备主导能力的巨头。
🌍 地缘政治：AI 叙事对抗升级
- 宣传新形式： AI 生成动画在国际舆论引导中的应用进一步深化。近期一段长达 5 分钟的 AI 动画将地缘冲突寓言化（如用白头鹰和波斯猫代表不同国家），在社交媒体引发广泛关注，标志着 AI 正在重塑全球叙事对抗的方式。
📅 行业峰会预览
- Ai4 2026 峰会： 北美最大的 AI 行业盛会正在筹备中，重点将转向 AI Agents (智能体)、世界模型以及负责任的人机协作，预示着行业从单纯的大模型竞争转向应用生态的竞争。
注：以上资讯综合自 36Kr、机器之心、TechCrunch 及全球各大主流科技媒体。
2个月前 (04-12)

AGIDT.COM | 追踪AGI进展见证智能飞跃

一个AGI观察者、传播者、连接者和推动者的复合体

AI开源TOP项目AI资源地图

QQ咨询86458694
关注微信banny-pan
复制微信号
电话咨询18916369709
去评论
回顶部

Banny

相关推荐

评论 抢沙发

作者介绍

Banny

“嗯哌 / Npie”科技自媒体

快讯

今日 AI 快讯：Meta Llama 4 震撼发布, IBM Think 2026 揭幕 (2026年05月05日)

🚀 AGI 全球动态汇总

🏢 巨头动态

📱 硬件与端侧智能

⚖️ 政策、监管与安全

💰 行业应用与投融资

今日 AI 快讯：Meta 收购机器人初创公司，美五角大楼部署 AI 优先部队 (2026年05月03日)

🚀 AGI 全球动态汇总

🏢 巨头动态与战略

🛠️ 技术突破与开源

🌐 行业趋势与社会影响

🌍 全球基建与地缘政治

深度专题 | 今日 AI 快讯：GPT-5.5 震撼发布, 智能体经济元年正式开启 (2026年04月30日)

🚀 AGI 全球动态汇总：迈向智能体时代

💎 旗舰模型与技术巅峰

💰 巨头博弈与市场重组

⚙️ 工业应用与社会反思

今日 AI 快讯：Kimi K2.6 发布, 苹果 CEO 易主转向 Agentic AI (2026年04月21日)

🚀 AGI 全球动态汇总

巨头动态

交互趋势与行业应用

安全与公共政策

今日 AI 快讯：Yann LeCun 创办 AMI Labs 获 10 亿美元融资，联合国 AI 治理对话进入关键期 (2026年04月20日)

今日 AI 快讯：Yann LeCun 创办 AMI Labs 获 10 亿美元融资，联合国 AI 治理对话进入关键期 (2026年04月20日)

🚀 AGI 全球动态汇总

🏢 巨头动态与技术突破

⚖️ 治理、监管与法律

🌐 开源生态与市场趋势

今日 AI 快讯：硅谷裁员潮与 AI 效率争论，Alphabet 全产业链主导地位凸显 (2026年04月12日)

🚀 AGI 全球动态汇总

🏢 行业趋势：裁员潮与 AI 的真实角色

⚔️ 巨头动态：Alphabet (Google) 的全产业链主导

🌍 地缘政治：AI 叙事对抗升级

📅 行业峰会预览

热门专题

置顶推荐

最新评论

热门标签

网站统计

AGIDT.COM | 追踪AGI进展 见证智能飞跃

一个AGI观察者、传播者、连接者和推动者的复合体

切换注册登录

切换登录注册

Banny 

评论抢沙发

AGIDT.COM | 追踪AGI进展见证智能飞跃