Gemini 2.5 Computer Use – 谷歌推出的计算机使用模型

智能 PRO 稿源：AI工具集 2025-10-11 05:05

Gemini 2.5 Computer Use是什么

Gemini 2.5 Computer Use 是谷歌 DeepMind 推出的基于 Gemini 2.5 的计算机使用模型。模型能让 AI 直接控制浏览器，执行点击、滚动和输入等操作。模型通过视觉理解和推理能力，帮助用户完成各种任务，例如从网页中获取信息或整理笔记。模型在基准测试中表现优异，速度也很快。开发者能通过 Google AI Studio 和 Vertex AI 使用，用户能在 Browserbase 的托管的演示环境中试用。

Gemini 2.5 Computer Use的主要功能

浏览器操作：直接在浏览器中执行点击、滚动、输入等基本操作，帮助用户完成网页任务。
任务自动化：模型能处理多步复杂任务，例如从一个网站获取信息并输入到另一个系统，或安排后续预约。
视觉理解和推理：通过视觉解析网页内容，识别页面元素，根据用户请求推理出下一步操作。
安全机制：在执行每个动作前，独立安全服务会评估风险，对于高风险操作会请求用户确认，确保操作安全。

Gemini 2.5 Computer Use的技术原理

核心工具：通过 Gemini API 中新增的 computer_use 工具实现，支持模型直接与用户界面交互。
输入与输出：

输入：用户请求、当前环境的截图、最近执行动作的历史记录。可以指定是否排除某些 UI 动作或添加自定义函数。
输出：模型生成响应，通常是代表 UI 动作的函数调用（如点击、输入或滚动）。对于某些高风险操作，模型会请求用户确认。

循环流程：模型在一个循环流程中运行，每次执行动作后，系统将最新截图和当前 URL 返回给模型，重新启动循环。循环会持续进行，直到任务完成、出现错误，或因安全机制或用户决定而终止。
安全机制：在推理阶段，独立安全服务评估每个模型拟执行的动作，确保操作的安全性。开发者能设定在特定高风险操作前，智能体必须拒绝或请求用户确认。例如，防止模型绕过验证码或控制医疗设备。

Gemini 2.5 Computer Use的项目地址

项目官网：https://blog.google/technology/google-deepmind/gemini-computer-use-model/
技术论文：https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf