艾智迹 AGIDT
AGI时代的记录者、连接者与推动者
082025-07

开源 AI 桌面助手 Glass 一夜爆火,会议记录灵感捕捉不在话下

Pickle 团队推出开源 AI 桌面助手 Glass,火爆开发者和职场圈。助手隐形运行后台,实时处理屏幕音频,主动分析任务提供建议。会议中自动监听音频,生成记录摘要,整理结构化笔记。支持学习编程,分析文档网页优化代码。开源 GitHub 可定制,免费运行 macOS,未来扩展 Windows Linux 功能。来源

中科院推出 Stream-Omni 多模态大模型,文本视觉语音同时搞定

中国科学院计算技术研究所推出Stream-Omni多模态大模型,同步处理文本、视觉和语音。语音交互实时显示中间文本结果,提升效率。模型优化模态关系,减少数据依赖,实现高效对齐。支持多模态组合输入,实验显示语音能力领先,视觉媲美同行,奠定智能交互基础。来源

OpenAI 宣布 GPT-5 将整合多种模型,实现全新突破

OpenAI CEO 奥尔特曼播客确认 GPT-5 今夏推出。模型整合文本、图像、语音和视频处理能力,提供统一界面。用户无需切换工具,简化体验。支持更大上下文窗口,处理复杂任务。自主调整响应,适应用户行为个性化输出。OpenAI 提升性能易用性,强化竞争优势。

062025-07

谷歌 Veo 3 视频生成模型全球上线,输入文字秒变短视频

谷歌宣布推出 Veo 3 视频生成模型,全球 159 国以上 Gemini 用户现已可用。用户输入文本提示,轻松生成最长八秒视频,简化短视频创作过程。该工具面向创意用户,助力社交媒体内容生产。目前仅限 AI Pro 计划付费用户使用,每日最多生成三段视频。官网

腾讯上线微信支付 MCP,赋能 AI 智能体支付变现

腾讯元器平台推出微信支付 MCP,解决智能体支付需求。开发者快速接入支付功能,支持生成二维码链接和微信端拉起支付。提供体验版免费测试及正式版申请,无需商户认证,腾讯协助注册收款账号。简化订单查询流程,推动智能体创作者实现服务变现,打通 AI 代理支付最后一公里。来源

字节跳动开源 Trae-Agent,推动智能编程普及

字节跳动宣布开源 Trae-Agent 核心组件。开发者运行 git clone 和 cd 命令即可获取该工具。Trae-Agent 利用自然语言自动化编程任务,大幅提升效率。兼容 OpenAI、Anthropic 等模型,集成文件编辑、脚本执行功能,支持多轮交互,自动保存日志,适配 Python3.12。开源行动鼓励社区贡献,打造智能编程未来。目前 Trae 月活用户超百万,交付代码突破 60 亿行。来源

野生「DeepSeek R1」亮相,速度超越原版

德国 TNG 公司推出「DeepSeek R1T2」模型,速度超越原版 R1(0528)两倍。构建 685B 尺寸 MoE 架构,整合多版本模型。测试显示性能在 GPQA Diamond 和 AIME 24 基准优于 R1,但落后 R1(0528)。模型已登陆 HuggingFace 开放访问。来源

302025-06

Gemini CLI 开源发布,免费提供 AI 编程助手挑战 Cursor

刚刚,谷歌最新发布开源 AI 智能体 Gemini CLI,这款开源智能体将 Gemini 的能力直接接入终端,能够提供轻量化的 Gemini 访问通道。Gemini CLI 支持通过自然语言实现代码编写、问题调试及工作流优化,还可以作为多功能本地工具,完成内容生成、问题解决、深度研究及任务管理等各类任务。地址

HeyGen AI 视频 Agent 一键生成爆款视频

HeyGen 推出 AI 视频 Agent,通过简单素材上传,自动完成从故事规划、脚本编写到镜头选择的整个视频制作流程,几分钟内即可获得可直接发布的专业级视频内容。支持多种视频类型,操作流程简便,无需专业视频编辑技能,智能化提示引导用户轻松上传素材并设定创作需求,AI 完成从脚本到成片的全部工作。

可灵 AI 推出「视频音效」功能,实现「所见即所听」沉浸体验

可灵 AI 全系列视频模型上线「视频音效」功能,用户生成视频时可同步生成立体声音效,实现「所见即所听」。升级的「音效生成」功能新增「视频生音效」模块,基于自研多模态视频生音效模型 Kling-Foley,实现音画帧级对齐。该功能已向所有用户限时免费开放。

AGIDT.COM | 追踪AGI进展 见证智能飞跃

一个AGI观察者、传播者、连接者和推动者的复合体

AI开源TOP项目AI资源地图

登录

找回密码

注册