艾智迹 AGIDT
AGI时代的记录者、连接者与推动者
132025-07

微软发布极速 AI 模型 Phi-4-mini,笔记本也能跑大模型

微软近日宣布开源轻量化 AI 模型 Phi-4-mini-flash-reasoning,该模型采用全新 SambaY 架构实现推理效率飞跃。通过跨层记忆共享与无显式位置编码技术,其长文本生成速度达传统模型 10 倍,32K 上下文处理延迟降低 2-3 倍。实测显示,模型在数学推理、文献检索等场景表现优异,复杂公式推导逻辑清晰度显著提升。来源

xAI 发布 Grok4 AI 模型,编程助手兼实时新闻追踪

xAI 推出了全新旗舰 AI 模型 Grok4,分普通版和编程版。编程版助开发者编写代码、查找错误。模型实时抓取 X 平台热点新闻。训练耗费 20 万 GPU,性能提升 10 倍。目前仅处理文本,图像视频功能后续添加。用户需 X 高级会员或访问官网体验。官网

阿里免费开源 ThinkSound AI 工具,自动生成视频音效

阿里通义实验室开源 ThinkSound AI 工具,免费自动添加视频音效。该工具分析画面和文字描述,生成匹配音效,例如森林场景配鸟鸣。音画同步精准,支持 4K 视频。GitHub 开放模型代码下载,帮助创作者节省成本。用户能语音调整音效,如“风声调小”。适用于短视频、电影和游戏开发。来源

智谱 AI 推出 Slides 工具,5 分钟生成专业 PPT

智谱 AI 上线 AI Slides 工具,用户输入主题或上传文档,5 分钟生成专业 PPT。工具免费,支持职场汇报、学术研究等场景。基于 GLM 模型分析信息生成结构清晰内容。用户登录智谱清言平台切换模型即可使用。来源

DeepMind 开源 GenAI 库,AI 工作流构建更轻松

谷歌 DeepMind 开源 Python 库 GenAI Processors,助力开发者轻松构建生成式 AI 工作流。提供统一 Processor 接口,分割任务处理音频、文本、图像等多模态数据。优化异步并发执行,利用 asyncio 降低延迟加速实时应用。集成 Gemini API,内置处理器快速开发翻译助手等代理。支持 Python,开放社区贡献功能。未来协作扩展覆盖更多场景语言,降低开发复杂性推动生态开放。来源

谷歌 Veo3 新增图像转视频功能,七周超 4000 万视频诞生

Google 宣布为 Gemini 应用新增图像转视频功能,支持 Veo 3。用户上传照片生成视频短片,添加声音描述。视频可下载分享。目前仅限 AI Ultra 和 Pro 用户使用,每天最多创建 3 个。上线七周用户已生成超 4000 万视频。所有视频带 Veo 水印和 SythID 数字水印。Google 提供检测 synthID 工具。

可灵 AI 发布可图 2.1 模型,支持 180 种风格

可灵 AI 发布了新一代图像生成模型 可图 2.1,在指令遵循、人像美感和电影质感等方面有显著提升,并且具备强大的文字生成能力。新模型支持超过 180 种风格响应,为用户提供更丰富的创作选择。

墨刀 AI 推出 30 秒原型生成功能,设计师福音

墨刀 AI 上线全新原型生成能力,用户输入想法,AI 仅需 30 秒生成高保真可编辑原型。支持局部修改,轻松上手。生成手机、网页、平板等设备尺寸原型。上传草图,AI 识别布局快速创建页面。提供双模式编辑,二次调整布局,一键分享演示。自动生成文档,梳理逻辑。原型与代码联动,集成 UI 组件,适配多端,覆盖电商、社交、官网等场景,大幅提升设计效率。官网

苹果公布穿戴设备 AI 模型,怀孕检测准确率 92%

苹果联合哈佛医学院等机构开发可穿戴行为模型 WBM,利用超 25 亿小时行为数据训练。新模型分析步数、活动能力等高阶指标,突破传统生理监测局限。WBM 在 18 项健康预测任务超越传统方法,结合生理数据时怀孕检测准确率高达 92%。模型捕捉长期行为变化,与短期生理监测互补,提升健康预警能力。来源

上传 10 张照片,AI 秒变时尚大片!Higgsfield Soul ID 火爆全球

Soul ID 是 Higgsfield AI 推出的一款革命性 AI 工具,能够通过上传 10 张以上个人照片生成高度个性化的虚拟形象。其核心功能包括真实感与多样性的完美融合、多样化风格预设以及自动提示词优化,为内容创作者和时尚博主提供了强大的创作工具。来源

AGIDT.COM | 追踪AGI进展 见证智能飞跃

一个AGI观察者、传播者、连接者和推动者的复合体

AI开源TOP项目AI资源地图

登录

找回密码

注册