OpenAI 升级 Operator 代理:全新 o3 模型提升性能与安全性
2025-05-25 00:26 loading...
OpenAI 近日宣布,将 Operator 的 AI 模型从之前的 GPT-4o 定制版本升级为基于 o3 的模型。o3 是 OpenAI o 系列“推理”模型中的最新成员之一。这一新模型针对计算机使用场景进行了额外的安全数据微调,并包含旨在训练模型决策边界的安全数据集。
此次升级还引入了全新的计算机使用代理 (CUA) 模型,该模型基于 OpenAI 的 o3 版本构建。与之前的版本相比,新模型在浏览器交互时表现出更强的持久性和准确性,从而显著提高了整体任务成功率。此外,它还能生成更结构化、更清晰、更全面的响应。
根据 OpenAI 的测试结果,新的 CUA 模型在 OSWorld 和 WebArena 等基准测试中达到了业界领先水平(SOTA),并且在人类偏好评估中也表现出了优于前一版本的相对性能。
OpenAI 将基于 GPT‑4o 的模型替换为基于 o3 的版本
OpenAI 暗示 ChatGPT 操作员代理将迎来重大升级pic.twitter.com/iGPQp9butD
— SabatAge (@sabatage) 2025年5月22日
尽管 API 版本仍将基于 GPT-4o,但 OpenAI 表示,o3 Operator 采用了与 GPT-4o 相同的多层安全方法。此外,o3 Operator 还针对计算机使用场景添加了额外的安全数据进行微调,包括旨在教授模型确认和拒绝行为的安全数据集。
OpenAI 发布的一份技术报告显示,o3 Operator 在特定安全评估中的表现优于 GPT-4o Operator 模型。例如,o3 Operator 更少拒绝执行“非法”活动或搜索敏感个人数据的任务,同时对一种被称为“即时注入”的人工智能攻击具有更高的抵抗力。
“o3 Operator 采用与 GPT-4o 版本相同的多层安全方法……虽然 o3 Operator 继承了 o3 的编码功能,但它无法原生访问编码环境或终端。”
–OpenAI
OpenAI 还透露,基于 o3 的新模型已通过标准安全评估,Operator 将继续作为研究预览版向全球 ChatGPT Pro 用户开放。不过,升级后的模型仅在 ChatGPT 的 Operator 版本中提供。
Knoop 怀疑运行 OpenAI 的 o3 模型的成本可能比预期更高
上周,负责维护和管理 ARC-AGI 的 Arc Prize 基金会更新了 o3 的近似计算成本。该组织最初估计,其测试的最佳 o3 配置(o3 high)解决单个 ARC-AGI 问题的成本约为 3000 美元。然而,基金会现在认为,实际成本可能比之前的估计高出 10 倍,每个任务的成本可能达到约 3 万美元。
尽管 OpenAI 尚未正式发布 o3 或对其进行定价,但 Arc Prize Foundation 的联合创始人之一 Mike Knoop 认为,o1-pro 模型的定价可以作为一个合理的参考,以更准确地反映 o3 的真实成本。他补充说,在官方定价公布之前,o3 将继续在排行榜上被标记为预览版,以反映不确定性。
据 Arc Prize Foundation 称,考虑到该模型所使用的计算资源量,o3 high 的高价并非不可能。为了解决 ARC-AGI 问题,o3 high 使用的计算量是 o3 low(o3 的最低计算配置)的 172 倍。
有传言称,自 3 月初以来,OpenAI 一直在考虑为企业客户推出价格不菲的计划。据报道,该公司可能会向专门的 AI“代理”(例如软件开发人员代理)收取每月高达 2 万美元的费用。
然而,尽管有人认为,即使是 OpenAI 最昂贵的模型,其成本也远低于典型的人类承包商或员工的收费,但人工智能研究员 Toby Ord 指出,这些模型的效率可能不及人类。例如,o3 high 在 ARC-AGI 的每项任务中都需要尝试 1024 次才能获得最佳成绩。
Cryptopolitan 学院:厌倦了市场波动?了解 DeFi 如何助你建立稳定的被动收入。立即注册
相关阅读
-
OpenAI 的 Operator 代理通过新的 AI 模型获得提升区块链资讯 2025-05-24 20:39
-
OpenAI CFO谈收购:像io这种公司,不看现在看未来区块链资讯 2025-05-23 16:39
-
OpenAI 以 65 亿美元收购乔纳森·艾维的初创公司 io区块链资讯 2025-05-22 07:33
-
贝莱德加倍押注人工智能股票,建立 1600 亿美元模型投资组合区块链资讯 2025-05-22 07:32
-
OpenAI 和 AI 同行斥资数百万美元争夺人才区块链资讯 2025-05-22 02:27
-
权益证明优势:Justin Drake 为何认为以太坊在安全性上胜过比特币比特币资讯 2025-05-18 05:31
-
OpenAI与阿联酋合作建设全球最大数据中心区块链资讯 2025-05-17 21:54
-
OpenAI 的新 Codex 代理助您缩小开发团队规模区块链资讯 2025-05-17 02:28
-
OpenAI 将其 GPT-4.1 和 GPT-4.1 迷你模型引入 ChatGPT区块链资讯 2025-05-16 20:53
-
Pharos Network发布高性能测试网,推动RWA与企业级DeFi应用落地区块链资讯 2025-05-16 15:24