腾讯混元正式推出并开源多模态定制化视频生成工具
腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具 HunyuanCustom。据悉,该模型基于混元视频生成大模型(HunyuanVideo)打造,主体一致性效果超过现有的开源方案。据介绍,HunyuanCustom 融合文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。地址

腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具 HunyuanCustom。据悉,该模型基于混元视频生成大模型(HunyuanVideo)打造,主体一致性效果超过现有的开源方案。据介绍,HunyuanCustom 融合文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。地址
OpenAI 近期宣布了一项重大技术革新,将 o4-mini 模型与强化微调技术(RFT)相结合,这一组合为企业级 AI 定制化带来了革命性的变化。通过少量训练数据,企业可以轻松将通用 AI 模型转变为特定领域的专家系统,极大地降低了 AI 专业化的成本和技术难度。强化微调技术 RFT 是此次发布的核心亮点,它标志着 OpenAI 在定制化 AI 模型领域取得了重大突破。与传统的监督式微调不同,RFT 采用了强化学习算法,通过奖励机制驱动训练循环,优化模型表现。开发者无需提供固定的目标输出,而是利用评分器(Grader)来评估模型的回答质量,从而引导 AI 学习复杂任务的推理模式。
OpenAI 最近宣布对其 AI 驱动的深度研究工具进行升级,新增 GitHub 连接器,旨在帮助开发者更有效地分析代码库和工程文档。该功能允许用户直接询问代码相关问题,极大地方便了编程工作。与此同时,OpenAI 也在加强其辅助编码工具,并对特定功能进行验证限制,以确保安全性。
美图公司旗下 AI 视觉创作工具 WHEE 与视觉创意平台站酷联合推出一项设计师专属 AI 工具「小素材生成器」。据介绍,「小素材生成器」支持一键生成免抠、同款素材,以 AI 创作为小素材设计效率赋能。同时,首发上线了 3D 树脂、3D 潮酷、扁平渐变、卡通扁平、扁平插画、现代水彩 6 大专业风格模板。该生成器自研针对设计师专业水准 LoRA 模型,适配电商、UI、平面等多场景,支持 AI 生成素材的智能延展与风格迁移,实现「生成-套用-迭代」的全链路效率提升。
Google 最近对其 Gemini 2.0 Flash 图像生成功能进行了显著升级,推出了全新的模型 gemini-2.0-flash-preview-image-generation。此次更新不仅提升了图像的视觉质量,使得生成的图像更加自然且细节丰富,还改善了文字渲染的准确性,解决了以往文字扭曲和不清晰的问题。此外,内容安全机制的优化也使得生成效率和可用性得到了提升。
ChatGPT 的 Android 应用程序近日迎来一次重大更新,新增了一项备受瞩目的功能——语音模式下的实时字幕显示。用户只需轻触界面上的「更多」按钮,并选择「开启字幕」选项,即可在语音对话过程中同步查看对话内容的文字转录。这一创新不仅显著增强了应用的易用性,还为听力受限或在嘈杂环境中使用应用的用户带来了极大的便利。
Figma 在 Config2025 年度盛会上发布了一系列新功能,旨在提升设计师的创作效率。新推出的 Figma Draw 允许用户在平台内自由绘图,极大简化了设计流程。Figma Sites 功能则支持一键生成可访问的网站,增强了 Figma 的竞争力。此外,AI 智能增强功能提供智能布局建议,开发交接的优化减少了设计与开发之间的沟通成本。查看详情
谷歌的 Gemini 聊天机器人进行重要的更新,新增多图上传和 AI 图像编辑功能。该更新目前已向部分用户开放,允许在网页端同时上传多张图片,并对 AI 生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放,但它们为用户提供了更大的创作灵活性,提升整体用户体验。
Claude 移动应用即将进行重要升级,推出备受期待的语音模式功能。该模式采用推按式对话,支持多种声音选项,并具备网页搜索能力,搜索结果以要点形式呈现,便于用户理解和跟进。此外,用户可以上传文件作为上下文参考,提升了交互体验。
Runway 最近推出的 Gen-4References 功能为其 AI 视频生成模型增添了图像一致性参考能力,使创作者能够通过上传参考图像来提取人物、场景或风格特征,从而在生成内容中保持高度一致性。这一功能支持多张图像的混合生成,为视频创作提供了更大的控制力与创意自由,极大地简化了设计流程,推动了 AI 在影视制作领域的应用。