野生「DeepSeek R1」亮相,速度超越原版
德国 TNG 公司推出「DeepSeek R1T2」模型,速度超越原版 R1(0528)两倍。构建 685B 尺寸 MoE 架构,整合多版本模型。测试显示性能在 GPQA Diamond 和 AIME 24 基准优于 R1,但落后 R1(0528)。模型已登陆 HuggingFace 开放访问。来源

德国 TNG 公司推出「DeepSeek R1T2」模型,速度超越原版 R1(0528)两倍。构建 685B 尺寸 MoE 架构,整合多版本模型。测试显示性能在 GPQA Diamond 和 AIME 24 基准优于 R1,但落后 R1(0528)。模型已登陆 HuggingFace 开放访问。来源

刚刚,谷歌最新发布开源 AI 智能体 Gemini CLI,这款开源智能体将 Gemini 的能力直接接入终端,能够提供轻量化的 Gemini 访问通道。Gemini CLI 支持通过自然语言实现代码编写、问题调试及工作流优化,还可以作为多功能本地工具,完成内容生成、问题解决、深度研究及任务管理等各类任务。地址
HeyGen 推出 AI 视频 Agent,通过简单素材上传,自动完成从故事规划、脚本编写到镜头选择的整个视频制作流程,几分钟内即可获得可直接发布的专业级视频内容。支持多种视频类型,操作流程简便,无需专业视频编辑技能,智能化提示引导用户轻松上传素材并设定创作需求,AI 完成从脚本到成片的全部工作。
可灵 AI 全系列视频模型上线「视频音效」功能,用户生成视频时可同步生成立体声音效,实现「所见即所听」。升级的「音效生成」功能新增「视频生音效」模块,基于自研多模态视频生音效模型 Kling-Foley,实现音画帧级对齐。该功能已向所有用户限时免费开放。
Black Forest Labs 正式宣布,其全新图像编辑模型 FLUX.1Kontext [dev] 现已开源,这一模型作为 FLUX.1 系列的最新成员,以其强大的图像编辑能力和高效性能被誉为可媲美 GPT-4o 的开源替代方案。FLUX.1Kontext [dev] 基于 12 亿参数的流匹配变换器架构,专为图像编辑任务设计,支持消费级硬件运行,为创作者、开发者和研究人员提供了前所未有的灵活性。地址
OpenAI 推出两款 Deep Research API 新模型 o3-deep-research 和 o4-mini-deep-research,专为高阶分析和深度信息合成设计,支持自动化网页搜索、数据分析、代码执行等功能。定价方面,o3 模型每 1000 次调用价格为 10 至 40 美元,o4-mini 价格更低,为 2 至 8 美元。
谷歌发布并开源端侧多模态大模型 Gemma3n,为手机、平板、笔记本等端侧设备带来强大多模态功能。提供 E2B 和 E4B 两个版本,原始参数量分别为 5B 和 8B,但内存占用仅相当于传统 2B 和 4B 模型,分别只需 2GB 和 3GB 内存即可运行。原生支持图像、音频、视频和文本的多模态输入处理,支持 140 种文本语言和 35 种语言的多模态理解。地址
Anthropic 近日宣布推出名为「Artifacts」的新功能,允许用户创建个性化的应用程序。用户可以通过简单的对话进行创作,而无需任何编程知识。这一功能的推出标志着 Anthropic 在人工智能应用开发领域迈出了重要一步。
MiniMax 最近推出的视频 Agent 工具为用户提供了一种新的方式来生成高质量的视频内容,特别适用于广告、教育、社交媒体等领域的创作需求。通过文本到视频生成和人脸图片驱动等技术,MiniMax 不仅大大降低了视频创作的门槛,还使得视频内容的个性化和精准度得到了显著提升。地址
腾讯 AI Lab 推出并开源 SongGeneration 音乐生成大模型,专注解决音乐 AIGC 中音质、音乐性与生成速度这三大共性难题,基于 LLM-DiT 的融合架构,模型在保持生成速度的同时,显著提升了音质表现,生成歌曲的准确度相较部分商业闭源模型表现出相当甚至更优的质量,同时在整体表现、旋律、伴奏、音质与结构等维度也优于现有多数开源模型。此外,SongGeneration 模型还支持文本控制、多轨合成与风格跟随等功能,既满足面向 C 端创作者的可玩性,又兼具 B 端的稳定性与拓展性,构建出面向未来的音乐 AI 生产力工具。地址