选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    Gemini 2.5 Computer Use – 谷歌推出的计算机使用模型

    智能 PRO 稿源:AI工具集 2025-10-11 05:05

    Gemini 2.5 Computer Use是什么

    Gemini 2.5 Computer Use 是谷歌 DeepMind 推出的基于 Gemini 2.5 的计算机使用模型。模型能让 AI 直接控制浏览器,执行点击、滚动和输入等操作。模型通过视觉理解和推理能力,帮助用户完成各种任务,例如从网页中获取信息或整理笔记。模型在基准测试中表现优异,速度也很快。开发者能通过 Google AI Studio 和 Vertex AI 使用,用户能在 Browserbase 的托管的演示环境中试用。

    Gemini 2.5 Computer Use的主要功能

    • 浏览器操作:直接在浏览器中执行点击、滚动、输入等基本操作,帮助用户完成网页任务。
    • 任务自动化:模型能处理多步复杂任务,例如从一个网站获取信息并输入到另一个系统,或安排后续预约。
    • 视觉理解和推理:通过视觉解析网页内容,识别页面元素,根据用户请求推理出下一步操作。
    • 安全机制:在执行每个动作前,独立安全服务会评估风险,对于高风险操作会请求用户确认,确保操作安全。

    Gemini 2.5 Computer Use的技术原理

    • 核心工具:通过 Gemini API 中新增的 computer_use 工具实现,支持模型直接与用户界面交互。

    • 输入与输出

      • 输入:用户请求、当前环境的截图、最近执行动作的历史记录。可以指定是否排除某些 UI 动作或添加自定义函数。

      • 输出:模型生成响应,通常是代表 UI 动作的函数调用(如点击、输入或滚动)。对于某些高风险操作,模型会请求用户确认。

    • 循环流程:模型在一个循环流程中运行,每次执行动作后,系统将最新截图和当前 URL 返回给模型,重新启动循环。循环会持续进行,直到任务完成、出现错误,或因安全机制或用户决定而终止。

    • 安全机制:在推理阶段,独立安全服务评估每个模型拟执行的动作,确保操作的安全性。开发者能设定在特定高风险操作前,智能体必须拒绝或请求用户确认。例如,防止模型绕过验证码或控制医疗设备。

    Gemini 2.5 Computer Use的项目地址

    • 项目官网:https://blog.google/technology/google-deepmind/gemini-computer-use-model/

    • 技术论文:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

    Gemini 2.5 Computer Use的应用场景

    • UI 测试:帮助开发者快速测试用户界面,自动化执行各种交互操作,显著提高软件开发效率。
    • 个人助理:为用户提供个性化的任务自动化服务,例如自动填写表单、安排预约或整理信息。
    • 工作流自动化:简化重复性任务,如数据输入、信息收集和跨平台操作,提升工作效率。
    • 客户服务:自动处理客户请求,例如在客户支持系统中填写工单或查询信息,提高响应速度。
    • 教育与培训:辅助在线学习平台,帮助学生完成练习或模拟操作,增强学习体验。

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接