艾智迹 AGIDT
AGI时代的记录者、连接者与推动者
082025-07

 AI 神器 Shortcut 颠覆 Excel 操作,说话生成报表提速 10 倍

AI 助手 Shortcut 引爆办公场景,用户直接说话即可操控 Excel 生成报表、透视表及趋势图,彻底摆脱公式与 VBA 编码。实测显示:该工具处理锦标赛案例仅需 10 分钟,效率超人类冠军 10 倍,评分达 80%。财务、分析师群体可借自然语言指令快速完成数据分析,新手友好。当前开放邀请制测试,常规数据处理流畅,超大数据集待优化。来源

Gemini CLI 升级支持音视频处理与隐私

谷歌开源命令行工具 Gemini CLI 发布新版本。更新合并 85 个 PR,51 位社区贡献者参与。新增音视频处理功能,支持终端处理音频视频文件。增强 Markdown 文件处理,实现嵌套导入和表格渲染。添加 /privacy 命令强化隐私控制。升级 Ink6 和 React19 框架,兼容 VSCodium 与 Neovim 编辑器。优化历史压缩机制,防止无限循环提升稳定性。免费提供百万 token 上下文窗口和高请求配额。来源

Claude 即将发布 Claude Neptune v3 模型,数学能力超强

Anthropic 正在测试代号为‘Claude Neptune v3’的新 AI 模型,该模型可能成为 Claude4.5 的前身或全新突破。目前处于内部红队测试阶段,重点测试其宪法 AI 系统的稳健性,并在数学推理能力上表现出色。

开源 AI 桌面助手 Glass 一夜爆火,会议记录灵感捕捉不在话下

Pickle 团队推出开源 AI 桌面助手 Glass,火爆开发者和职场圈。助手隐形运行后台,实时处理屏幕音频,主动分析任务提供建议。会议中自动监听音频,生成记录摘要,整理结构化笔记。支持学习编程,分析文档网页优化代码。开源 GitHub 可定制,免费运行 macOS,未来扩展 Windows Linux 功能。来源

中科院推出 Stream-Omni 多模态大模型,文本视觉语音同时搞定

中国科学院计算技术研究所推出Stream-Omni多模态大模型,同步处理文本、视觉和语音。语音交互实时显示中间文本结果,提升效率。模型优化模态关系,减少数据依赖,实现高效对齐。支持多模态组合输入,实验显示语音能力领先,视觉媲美同行,奠定智能交互基础。来源

OpenAI 宣布 GPT-5 将整合多种模型,实现全新突破

OpenAI CEO 奥尔特曼播客确认 GPT-5 今夏推出。模型整合文本、图像、语音和视频处理能力,提供统一界面。用户无需切换工具,简化体验。支持更大上下文窗口,处理复杂任务。自主调整响应,适应用户行为个性化输出。OpenAI 提升性能易用性,强化竞争优势。

062025-07

谷歌 Veo 3 视频生成模型全球上线,输入文字秒变短视频

谷歌宣布推出 Veo 3 视频生成模型,全球 159 国以上 Gemini 用户现已可用。用户输入文本提示,轻松生成最长八秒视频,简化短视频创作过程。该工具面向创意用户,助力社交媒体内容生产。目前仅限 AI Pro 计划付费用户使用,每日最多生成三段视频。官网

腾讯上线微信支付 MCP,赋能 AI 智能体支付变现

腾讯元器平台推出微信支付 MCP,解决智能体支付需求。开发者快速接入支付功能,支持生成二维码链接和微信端拉起支付。提供体验版免费测试及正式版申请,无需商户认证,腾讯协助注册收款账号。简化订单查询流程,推动智能体创作者实现服务变现,打通 AI 代理支付最后一公里。来源

字节跳动开源 Trae-Agent,推动智能编程普及

字节跳动宣布开源 Trae-Agent 核心组件。开发者运行 git clone 和 cd 命令即可获取该工具。Trae-Agent 利用自然语言自动化编程任务,大幅提升效率。兼容 OpenAI、Anthropic 等模型,集成文件编辑、脚本执行功能,支持多轮交互,自动保存日志,适配 Python3.12。开源行动鼓励社区贡献,打造智能编程未来。目前 Trae 月活用户超百万,交付代码突破 60 亿行。来源

野生「DeepSeek R1」亮相,速度超越原版

德国 TNG 公司推出「DeepSeek R1T2」模型,速度超越原版 R1(0528)两倍。构建 685B 尺寸 MoE 架构,整合多版本模型。测试显示性能在 GPQA Diamond 和 AIME 24 基准优于 R1,但落后 R1(0528)。模型已登陆 HuggingFace 开放访问。来源

AGIDT.COM | 追踪AGI进展 见证智能飞跃

一个AGI观察者、传播者、连接者和推动者的复合体

AI开源TOP项目AI资源地图

登录

找回密码

注册