微软发布极速 AI 模型 Phi-4-mini,笔记本也能跑大模型
微软近日宣布开源轻量化 AI 模型 Phi-4-mini-flash-reasoning,该模型采用全新 SambaY 架构实现推理效率飞跃。通过跨层记忆共享与无显式位置编码技术,其长文本生成速度达传统模型 10 倍,32K 上下文处理延迟降低 2-3 倍。实测显示,模型在数学推理、文献检索等场景表现优异,复杂公式推导逻辑清晰度显著提升。来源
微软近日宣布开源轻量化 AI 模型 Phi-4-mini-flash-reasoning,该模型采用全新 SambaY 架构实现推理效率飞跃。通过跨层记忆共享与无显式位置编码技术,其长文本生成速度达传统模型 10 倍,32K 上下文处理延迟降低 2-3 倍。实测显示,模型在数学推理、文献检索等场景表现优异,复杂公式推导逻辑清晰度显著提升。来源
xAI 推出了全新旗舰 AI 模型 Grok4,分普通版和编程版。编程版助开发者编写代码、查找错误。模型实时抓取 X 平台热点新闻。训练耗费 20 万 GPU,性能提升 10 倍。目前仅处理文本,图像视频功能后续添加。用户需 X 高级会员或访问官网体验。官网
阿里通义实验室开源 ThinkSound AI 工具,免费自动添加视频音效。该工具分析画面和文字描述,生成匹配音效,例如森林场景配鸟鸣。音画同步精准,支持 4K 视频。GitHub 开放模型代码下载,帮助创作者节省成本。用户能语音调整音效,如“风声调小”。适用于短视频、电影和游戏开发。来源
智谱 AI 上线 AI Slides 工具,用户输入主题或上传文档,5 分钟生成专业 PPT。工具免费,支持职场汇报、学术研究等场景。基于 GLM 模型分析信息生成结构清晰内容。用户登录智谱清言平台切换模型即可使用。来源
谷歌 DeepMind 开源 Python 库 GenAI Processors,助力开发者轻松构建生成式 AI 工作流。提供统一 Processor 接口,分割任务处理音频、文本、图像等多模态数据。优化异步并发执行,利用 asyncio 降低延迟加速实时应用。集成 Gemini API,内置处理器快速开发翻译助手等代理。支持 Python,开放社区贡献功能。未来协作扩展覆盖更多场景语言,降低开发复杂性推动生态开放。来源
Google 宣布为 Gemini 应用新增图像转视频功能,支持 Veo 3。用户上传照片生成视频短片,添加声音描述。视频可下载分享。目前仅限 AI Ultra 和 Pro 用户使用,每天最多创建 3 个。上线七周用户已生成超 4000 万视频。所有视频带 Veo 水印和 SythID 数字水印。Google 提供检测 synthID 工具。
可灵 AI 发布了新一代图像生成模型 可图 2.1,在指令遵循、人像美感和电影质感等方面有显著提升,并且具备强大的文字生成能力。新模型支持超过 180 种风格响应,为用户提供更丰富的创作选择。
墨刀 AI 上线全新原型生成能力,用户输入想法,AI 仅需 30 秒生成高保真可编辑原型。支持局部修改,轻松上手。生成手机、网页、平板等设备尺寸原型。上传草图,AI 识别布局快速创建页面。提供双模式编辑,二次调整布局,一键分享演示。自动生成文档,梳理逻辑。原型与代码联动,集成 UI 组件,适配多端,覆盖电商、社交、官网等场景,大幅提升设计效率。官网
苹果联合哈佛医学院等机构开发可穿戴行为模型 WBM,利用超 25 亿小时行为数据训练。新模型分析步数、活动能力等高阶指标,突破传统生理监测局限。WBM 在 18 项健康预测任务超越传统方法,结合生理数据时怀孕检测准确率高达 92%。模型捕捉长期行为变化,与短期生理监测互补,提升健康预警能力。来源
Soul ID 是 Higgsfield AI 推出的一款革命性 AI 工具,能够通过上传 10 张以上个人照片生成高度个性化的虚拟形象。其核心功能包括真实感与多样性的完美融合、多样化风格预设以及自动提示词优化,为内容创作者和时尚博主提供了强大的创作工具。来源