B 站正式接入阿里大模型通义千问 Qwen3,商业应用显著提升效率
B 站通过接入通义千问 Qwen3、Qwen-VL 等模型,推出了数据洞察智能体 InsightAgent,显著提升了其商业平台「花火」和「必达」的效率。在 618 电商大促期间,「花火」平台的 AI 选人功能使商单成交效率提高了 5 倍以上,而「必达」平台则利用 InsightAgent 生成智能报告,缩短了品牌投放决策时间。
B 站通过接入通义千问 Qwen3、Qwen-VL 等模型,推出了数据洞察智能体 InsightAgent,显著提升了其商业平台「花火」和「必达」的效率。在 618 电商大促期间,「花火」平台的 AI 选人功能使商单成交效率提高了 5 倍以上,而「必达」平台则利用 InsightAgent 生成智能报告,缩短了品牌投放决策时间。
华为开发者大会 HDC 2025 主题演讲中,华为常务董事、终端 BG 董事长余承东官宣鸿蒙智能体框架 HMAF。鸿蒙智能体框架支持更自然的人机交互、更高效的服务,应用具备智能化自主能力,还支持多智能体协同完成复杂任务。鸿蒙 5 带来了 70 多种创新体验,如碰一碰、安全访问、实况窗等,已有超 9000 应用具有鸿蒙独特功能。随后,首批 50+ 鸿蒙智能体即将上线,覆盖多个场景的不同应用。
豆包电脑版和网页版已上线「AI 播客」功能,支持一键生成播客。 打开豆包官网,选择「AI 播客」,上传 PDF 文件或添加网页链接,即可生成一段双人对话播客。 据介绍,豆包播客的语音效果十分自然,可以模拟真人播客口语习惯,停顿、附和等细节恰到好处,去除了生硬的机器感。 工作时,可将行业报告或竞品分析链接发给豆包,立刻生成一段通俗易懂的播客。地址
腾讯元宝发布更新,上线 AI 编程模式。用户在电脑版选择 DeepSeek 模型并关闭深度思考后,输入 @AI 编程后,即可进入 AI 编程模式。随后,元宝会自动开启双栏展示界面,在左侧一句话提需求,右侧实时展示元宝写的代码,编程效率显著提升。如果效果不满意,只需在左侧提出修改意见,右侧就会实时更新调整。不用反复跳转界面,编程像对话一样简单。除了 HTML 即时预览,现在元宝还能在线运行多种开发语言。
腾讯 AI 团队推出一款令人振奋的 AI 唱歌模型 LeVo,以其强大的音色克隆、分轨生成和高保真音乐表现引发业界热议。据悉,LeVo 在多项关键指标上可媲美行业领先的 Suno4.5,为中国 AI 音乐生成技术赢得一席之地。腾讯表示,LeVo 将以开源形式发布,计划提供完整代码和预训练模型,供全球开发者免费使用。地址
Poe 平台正式上线由字节跳动(ByteDance)研发的即梦 3.0 图像生成模型(Seedream3.0)与 Seedance1.0Lite 视频生成模型,为全球用户带来更高效、更高质量的多模态内容创作体验。Poe 还通过其独特的一站式交互设计实现了图像与视频创作的无缝衔接。用户可以在 Poe 聊天界面中通过 @Seedance 指令,将即梦 3.0 生成的图像直接转化为动态视频,极大简化了创作流程。官网
近期,软件开发领域迎来一项重大创新,月之暗面团队推出 Kimi-Dev-72B,这是一款专为软件工程任务设计的全新开源代码大模型。在备受瞩目的 SWE-bench Verified 编程基准测试中,Kimi-Dev-72B 凭借其仅 720 亿的参数量,一举夺魁,超越了近期发布、参数量高达 6710 亿的新版 DeepSeek-R1,成为全球最高水平的开源模型。地址
谷歌公司正式推出 Gemini 2.5 Flash-Lite,这是其系列中最轻量化、最具成本效益的 AI 模型。随着科技的快速发展,AI 的应用已经深入到编码、翻译和推理等多个领域。2.5 Flash-Lite 不仅保留了 Gemini 2.5 系列的核心能力,如灵活控制推理预算、连接外部工具(如谷歌搜索、代码执行),还支持处理超长上下文,达到 100 万 token 的处理能力,这一特性让开发者在构建复杂系统时能够更游刃有余。Spline、Rooms 等公司,以及 Snap、SmartBear 等企业,已在过去数周内使用最新版本开发实际应用。

近日,百度推出全球首个双数字人互动直播间。这一创新应用基于百度文心大模型 4.5 Turbo,通过语言、声音和形象的多模态高度融合,实现了数字人与用户之间的自然、流畅互动,为直播行业带来了全新可能。据悉,这一技术依托文心 4.5T 的多模态联合建模能力,能够同时处理文本、图像和音频输入输出,确保声音与口型、表情与语义的高度一致。
MiniMax(稀宇科技)开源旗下大规模混合架构推理模型「MiniMax-M1」,号称「世界上第一个开源的大规模混合架构的推理模型」。模型信息方面,MiniMax-M1 参数大小为 456B,单 token 激活参数为 45.9B。其中最亮眼的是,M1 原生支持 100 万上下文的输入,跟闭源模型里面的 Google Gemini 2.5 Pro 一致,是 DeepSeek R1 的 8 倍。M1 采用 MoE 与「闪电注意力机制」双结合架构,从而在计算长的上下文输入以及深度推理的时候显著高效。测试结果上,M1 在软件工程、长上下文与工具使用等面向生产力的复杂场景中具备显著优势。地址