OpenAI 发布 Codex 代理工作研究
6 月 25 日,OpenAI 把 Codex 的使用数据从代码助手讲成可委派的长任务劳动力。为什么现在:代理使用正在从工程部门外溢到采购、支持、财务和运营。今天可做 2 小时代理任务账本,记录输入、运行时长、人工验收点、产出物和重跑成本;业务负责人愿意按流程采购,就是成功信号。查看研究 ↗
本期公开线索转向代理工作账本、Copilot 治理、缓存成本、推理供给和 reasoning 预算;基础设施交易线索则显示账号生命周期、官方 key/云/API、Pro/Max/code 池和路由验真都在进入可复测竞争。
6 月 25 日,OpenAI 把 Codex 的使用数据从代码助手讲成可委派的长任务劳动力。为什么现在:代理使用正在从工程部门外溢到采购、支持、财务和运营。今天可做 2 小时代理任务账本,记录输入、运行时长、人工验收点、产出物和重跑成本;业务负责人愿意按流程采购,就是成功信号。查看研究 ↗
Copilot code review 改用 CLI/SDK 文件探索工具,并称审查成本降低约 20%;企业还可用 strictKnownMarketplaces 限制 Copilot CLI 和 VS Code 插件来源。今天可做 AI 审查深度 + 插件白名单样例,输出默认审查级别、允许市场、阻断项和例外流程。代码审查 ↗ 插件治理 ↗
Google 把缓存成本拆成动态租/买决策,指出部分 serverless 云供应商的 1 GiB 内存每日成本可到 3 美元。AI 接口中转、RAG、图像队列和客服并发都需要缓存命中、余额扣减和内存占用证据。今天可做 1 页缓存/路由成本表。研究博客 ↗
6 月 24 日,OpenAI 和 Broadcom 公布面向 LLM 推理的 Intelligence Processor,强调 9 个月 tape-out 和 2026 年底开始部署。今天可建上游推理供给雷达,按模型、区域、延迟、限流、价格波动和备用入口记录;客户愿为多入口稳定性付费,就是好信号。发布说明 ↗
研究显示推理轨迹可通过额外计算缓冲和事实预热提升简单事实回忆,但中间事实一旦幻觉,最终答案更容易出错。今天可给知识库问答做 direct vs thinking 对照表,记录 token 成本、正确率、中间事实可验证率和失败样例。研究博客 ↗
KYC/注册/恢复/封控、支付/卡/退款和账号生命周期线索较前一日明显放大。现在买卖双方不只问有没有号,而是在追问地区、支付主体、恢复路径和封控后责任。可做账号生命周期诊断表,减少后续赔付争议。
官方 key、AWS/Azure/GCP/Vertex、OpenAI/Claude/API 入口都出现回升。采购要拆成账户归属、账单主体、额度/RPM、可部署模型和异常责任。比起单一报价,尽调表更能筛出可长期合作渠道。
外接、客户端限制、用量窗口、批次寿命和售后责任共同决定交付质量。抽样记录登录地区、客户端限制、外接方式、额度窗口、失败码、恢复时间和复测周期,才是稳定池的可售卖证据。
低倍率话术正在绑定缓存命中、备用模型、余额可查和分组路由等卖点。每个入口至少要说明模型标识、缓存命中、扣量记录、错误码、失败切换和客户可见口径;可观测性会成为中转服务的溢价项。
短线价格不再足以覆盖交付风险;bug、短保、注册、曝光和灰色链路需要隔离。图像模型、4K 输出和相关云入口仍被询问,但更适合先做固定 prompt 对照测试,记录清晰度、失败率、排队时间和内容标识。
用 2 小时选择一个非工程流程,输出任务拆解、代理运行记录、人工验收点、失败重跑成本和交付物模板。
用 90 分钟给一个仓库写出审查深度、插件白名单、例外审批和 PR 证据清单。
抽一个接口入口,记录缓存命中、扣量、延迟、错误码、备用切换和上游成本。
把邮箱、接码、IP、地区、KYC、支付主体、设备环境、恢复路径和退款边界拆成字段。
围绕主流模型 API 和云渠道,记录区域、限流、延迟、价格波动、备用入口和复测日期。
选 20 个事实类问题做 direct vs thinking 测试,记录 token 成本、中间事实可验证率和最终正确率。
按账号池、官方 key、云账号、中转接口、邮箱/IP/KYC、后台运维六类记录证据、限制条件、复测周期和售后责任。
无账单或额度证明、未披露模型替换、短保资源和封控规避经验,不进入客户生产交付。
4 月 30 日发布的“清朗·整治 AI 应用乱象”专项行动为期 4 个月,覆盖备案登记、安全审核、训练语料、数据投毒、生成合成内容标识、违法违规活动和开源模型安全等问题。查看通知 ↗
GitHub 的 strictKnownMarketplaces 更新说明企业会先控制插件来源,再允许 AI 工具执行。查看更新 ↗
中间事实幻觉会拖累最终答案,知识库、合规问答和采购报告需要可验证的中间事实,而不是只看模型是否开启 thinking。查看研究 ↗
缓存命中、低倍率和备用路由只能说明某个样本的调用表现,不能替代模型标识、日志和长期复测。
邮箱、接码、IP、地区、KYC、支付主体和恢复路径任一环节不稳定,都会放大售后责任。
没有请求、扣量、错误码、限流、路由和恢复记录,就无法判断是可运营通道还是一次性库存。
扫码进群