 

Gemini 2.5 Pro 实现 6 小时视频理解，AI 视觉能力迈入新纪元

2025-05-13 分类：AI快讯阅读(4) 评论(0) 赞(0)

谷歌的 Gemini 2.5 Pro 模型近日在视频理解领域取得重大突破，支持长达 6 小时的视频分析和高达 200 万 Token 的上下文窗口。通过 API 解析 YouTube 链接，模型在 VideoMME 基准测试中表现出色，准确率接近行业顶尖水平。其技术应用于教育、创意产业和商业分析等多个领域，展现了 AI 视觉能力的新纪元。

赞(0)  打赏

版权声明：本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称：《Gemini 2.5 Pro 实现 6 小时视频理解，AI 视觉能力迈入新纪元》
文章链接：https://www.agidt.com/index.php/2025/05/13/gemini-2-5-pro-%e5%ae%9e%e7%8e%b0-6-%e5%b0%8f%e6%97%b6%e8%a7%86%e9%a2%91%e7%90%86%e8%a7%a3%ef%bc%8cai-%e8%a7%86%e8%a7%89%e8%83%bd%e5%8a%9b%e8%bf%88%e5%85%a5%e6%96%b0%e7%ba%aa%e5%85%83/
本站资源仅供个人学习交流，请于下载后24小时内删除，不允许用于商业用途，否则法律问题自行承担。

分享到

Banny 

代码之子，广告之舵；市场之巅，历尽阡陌。昔日的代码园丁，今朝的 AI 智能匠，愿与你，共创辉煌，书写未来新篇章。欢迎+V：86458694；个人微网：https://www.npie.net/

评论抢沙发

快讯

Anthropic 发布 Claude4，加剧与 OpenAI 和谷歌的竞争

Anthropic 在昨日举行的首届开发者大会上正式发布 Claude4 模型系列，包括 Claude Opus4 和 Claude Sonnet4 两款新模型。该公司声称这些模型在多项流行基准测试中达到业界领先水平，专门针对编程任务进行了优化。新发布的 Claude4 系列具备分析大型数据集、执行长期任务和处理复杂操作的能力。两款模型均在编程任务中表现优异，特别适合代码编写和编辑工作。

28分钟前
豆包宣布 App 上线实时视频通话功能

豆包官方微信公众号今日发文，宣布豆包App上线实时视频通话功能，用户在电话界面开启视频画面后，豆包能基于真实场景与用户进行实时问答互动，模型能够融合视觉与语言输入，进行综合的深度思考和创作。据介绍，豆包本次升级基于视觉推理模型，支持联网搜索工作、生活和学习遇到的问题，随时可以和豆包视频对话。

28分钟前
OpenAI 以 65 亿美元收购前苹果首席设计师创业公司，明年将推 AI 新设备

OpenAI 正式官宣，将以接近 65 亿美元（折合人民币 468.16 亿元）的价格收购由 OpenAI CEO Sam Altman 与前苹果首席设计官 Jony Ive 联合创办的 AI 设备初创公司 io。据悉，收购成功后，交易完成后，OpenAI 将获得一个由约 55 名硬件工程师、软件开发者和制造专家组成的团队，其中包括多位曾参与 iPhone 等标志性产品设计的前苹果设计师。

1天前
Google Sparkify 实验性产品发布：输入问题瞬间变动画短片

谷歌推出了一款名为 Sparkify 的新实验性 AI 产品，该产品利用 Gemini 和 Veo 模型，使用户能够通过简单输入问题或概念，在两分钟内生成直观的动画短视频，解释复杂概念，适用于教育、科普和内容创作领域。地址

1天前
DeepMind 发布新 AI 音乐生成模型 Lyria2，支持实时创作

谷歌 DeepMind 正式发布其最新音乐生成模型 Lyria2，标志着人工智能在音乐创作领域的又一重大突破。作为前代 Lyria 模型的升级版本，Lyria2 以其高保真音质、实时交互功能和多风格适配性，为音乐家、制作人和内容创作者提供了前所未有的创作工具。地址

1天前
谷歌推出新工具 SynthID Detector ，助力识别 AI 生成内容

谷歌推出名为 SynthID Detector 的新工具，旨在帮助用户检测内容是否由其 AI 工具生成。该工具能识别 AI 生成的内容并突出显示带有 SynthID 水印的部分，目前正面向早期测试者推出。来源

1天前

AGIDT.COM | 追踪AGI进展见证智能飞跃

一个AGI观察者、传播者、连接者和推动者的复合体

AGI脉动AGI会客厅

QQ咨询86458694
关注微信banny-pan
复制微信号
电话咨询18916369709
去评论
回顶部