Daily AI Intel

每日 AI 情报

2026.06.30 周二移动 agent · AI skills · 模型评测 · 云额度验真

本期公开线索集中在 Cursor for iOS、Databox Skills、Hugging Face Every Eval Ever、ScarfBench 与 GitHub Copilot 成本预算；基础设施交易线索显示 Code/Pro/Max 池买方追样本、云额度验真更尖、账号退款风险抬头，429/RPM 正成为成交门槛。

移动 agent 审批数据源 AI skills模型评测证据429 / RPM 验真

// 公开 AI 机会情报 · OPPORTUNITY RADAR

从公开信号里找今天能试的机会

移动 agent

Cursor for iOS 在 6 月 30 日进入 public beta

Cursor for iOS 当天以移动端代码代理入口发布，页面主张可以在 iPhone 上启动和监控云端 agent、控制本地 agents、收通知、review 变更并合并 PR。为什么现在：coding agent 正从桌面 IDE 扩展到移动审批和异步交付，客户会开始问“谁在手机上批准、日志在哪里、哪类任务能离开电脑继续跑”。AIRelay 读者今天可做：2 小时内做一张“移动 coding agent 操作边界卡”，只选低风险仓库，记录任务启动、PR review、通知、合并权限、失败回滚和账号隔离；成功信号是客户愿意把移动端只用于审批与监控，而不是直接处理生产密钥。对读者意味着：可把 Cursor/Copilot/Claude Code 访问卖成“异步 agent 值班 + 权限边界”服务，收入来自远程交付效率和少一次误合并带来的售后节省。相关链接：查看链接 ↗

AI skills

Skills Marketplace by Databox 在 6 月 30 日把 AI 分析技能打包成可安装资产

Databox 当日发布 Skills Marketplace，公开页把付费广告、网站表现、电商、收入和管理层报告等“AI skills”做成可安装能力，接入数据源后可在 Databox、Claude 或 n8n 里生成分析、预测和建议。为什么现在：AI skills 不再只是开发者提示词目录，而开始绑定真实数据源、业务指标和自动化编排。AIRelay 读者今天可做：90 分钟内选一个客户常见数据源，如 GA4、Shopify、广告账户或 CRM，做一页“数据源权限 → skill 输出 → 人工复核 → 交付报告”的小样；成功信号是客户愿意给只读样本数据跑一次周报。对读者意味着：跨境 AI 账号/API 可以加卖数据连接、Claude/n8n 自动化和报告复核，利润来自把一次性接入变成每周复购的业务读数。相关链接：查看链接 ↗

模型评测

Hugging Face 在 6 月 30 日把 Every Eval Ever 接入模型页和社区评测

Hugging Face 当天发布 Every Eval Ever 与 Community Evals 的互通方案，评测结果可以按标准元数据挂到模型页和排行榜，覆盖模型、数据集、任务、指标、复现命令和社区提交。为什么现在：客户采购模型和中转入口时，越来越难只靠模型名判断质量，公开评测开始变成采购证据层。AIRelay 读者今天可做：2 小时内选 3 个正在被客户问到的模型入口，补一张“公开评测指标 + 自己的中文/英文业务小测 + 成本/延迟”的对照表；成功信号是客户能决定哪些任务用低价模型，哪些必须保留 Claude/OpenAI 兜底。对读者意味着：可卖模型采购验收和多入口路由建议，省下错配模型造成的无效调用和退款。相关链接：查看链接 ↗

迁移 benchmark

ScarfBench 在 6 月 30 日公开企业 Java 迁移 benchmark

IBM Research 与 Hugging Face 发布 ScarfBench，包含 34 个可构建运行的 Java 应用、102 个框架迁移实现、204 个迁移任务、约 151K 行代码、约 2000 个文件和 1331 个测试；公开文中还指出当前 coding agents 在行为正确迁移上低于 10%。为什么现在：agent 编程的买点正在从“能改代码”进入“能不能在企业旧系统里迁移且通过行为测试”。AIRelay 读者今天可做：2 小时内给一个遗留 Java/Spring 客户做迁移验收清单，字段包括 build、测试、配置、行为差异、人工 review 和回滚；成功信号是客户愿意先拿一个低风险模块试迁移。对读者意味着：可把 Claude/Codex/Cursor 访问包装成“迁移前可行性评测”，先卖测试与验收，避免直接承诺整库迁移后被返工吃掉毛利。相关链接：查看链接 ↗

预算治理

新进展：GitHub Copilot 在 6 月 30 日同步推进 Sonnet 5 GA 与成本中心预算

GitHub 当天宣布 Claude Sonnet 5 在 Copilot 中进入 generally available，同时 Copilot AI credit budgets 可按 cost center 设置 per-user 预算；管理员可以用 API 给成本中心里的用户设月度上限，避免共享预算池被少数重度用户提前耗尽。为什么现在：Copilot 企业采购从“开不开模型”进入“哪些用户、哪些模型、多少预算、超限后怎么切换”的运营问题。AIRelay 读者今天可做：90 分钟内为一个团队做 Copilot seat/成本中心表，列出模型策略、用户组、每人预算、超限提醒、备用模型和账单复核；成功信号是客户能在不扩预算的情况下先放开一组高价值 agent 任务。对读者意味着：可把企业 AI 访问卖成预算治理和模型策略服务，靠减少过量调用和账单争议保住续费。相关链接：查看链接 ↗ / 查看链接 ↗

// AI 基础设施交易情报 · MARKET INFRA

把交易信号转成采购与使用判断

需求强于供给

Plus / Pro / Max / ccmax / Claude Code 池｜需求强于供给，代码池从清库存转为抢可用样本

供需情况分析：6 月 30 日 Code/Pro/Max/池类线索 53 条，接近 6 月 29 日的 56 条，但买方动作从 7 条升至 12 条，供方动作从 23 条降至 4 条，盘面从供给喊单转成买方追问可用样本。产品以及价格/容量线索：出现 Plus/Pro 低倍率、ccmax 0.8、0.035/0.05、1r、1 万 RPM 等口径，分别对应买方 bid、供方 ask、容量承诺和风险诱饵；低价与高 RPM 不能合并理解。热点议题：Claude/ccmax 是否真能跑代码任务、Plus/Pro 池与 Claude Code 的客户端兼容、隔天掉线、429、RPM 和账号恢复。交易判断/今天动作：收样本，不清库存；把入口分成普通聊天池、代码任务池、移动审批池和高 RPM 测试池，同题复测并隔天复验。钱点在把“能打开”与“能交付代码任务”拉开价格，同时减少退款和重测工单。相关链接：查看链接 ↗

云额度验真

Azure / AWS / Gemini / Vertex / OpenAI API 与云账号｜云资源需求更尖，官 key 总盘基本均衡

供需情况分析：API/key/cloud 类线索 89 条，基本持平 6 月 29 日的 91 条；OpenAI/GPT 线索里买方 8 条、供方 5 条，云账号与 Gemini/Vertex/AWS/AZ 线索里买方 9 条、供方 1 条，说明“能调通 API”不缺，缺的是可复核云额度和区域。产品以及价格/容量线索：出现 1.5 折、2 折、1 折、0.5 折、3K、50w、500r、8K 等口径，分别是供方 ask、额度/容量口径和风险 bait；GLM/千问线索只有小盘供给，不能当主行情。热点议题：Azure/AWS 账号归属、Gemini/Vertex 区域、账单/额度证明、模型是否套壳、直 key vs routed endpoint、余额扣量和隔天复测。交易判断/今天动作：找供给时先要账单主体、额度截图、可复现请求日志、模型区域和 24 小时复测；钱点在云/API 采购尽调，把便宜入口筛成可交付资源，避免额度被套或模型错配。相关链接：查看链接 ↗

售后边界

账号生命周期 / KYC / 邮箱 / 支付退款｜需求强于供给，风险触发显著抬头

供需情况分析：账号生命周期类线索 102 条，较 6 月 29 日的 107 条小幅回落；买方动作 18 条、供方动作 7 条，供给更谨慎。风险触发从 6 月 29 日的 24 条升至 54 条，支付/退款/结算相关线索 119 条，其中退款与责任边界被反复提到。产品以及价格/容量线索：出现 190r、8u、34U、2r、0.3/0.7 等口径，混合了账号、付款、退款、短保和风险 bait；不能把其中任何一项写成长期行情。热点议题：KYC 来源、邮箱质量、IP/地区一致性、支付主体、退款是否到账、首登后责任、封控恢复和二次验证。交易判断/今天动作：先做账号生命周期诊断，不把来路不清资源放进客户交付；成交前拆出注册来源、邮箱/接码、IP、支付主体、二验、封控触发、恢复责任和退款边界。钱点在尽调与售后责任拆分，少赔一次就保住毛利。相关链接：查看链接 ↗

稳定性门槛

RPM / 429 / 路由中转 / 错误归因｜小盘升温，稳定性正在变成成交门槛

供需情况分析：路由、后台、日志、压测、RPM、缓存、扣量和错误归因类线索 34 条，高于 6 月 29 日的 20 条；买方 6 条、供方 5 条，供需接近，但风险触发 13 条，集中在 429 与 RPM。产品以及价格/容量线索：出现 1 万 RPM、1.5 折、500r、0.07/0.1、缓存与扣量等口径，分别是容量承诺、倍率口径和验真字段。热点议题：429 是上游账号、并发、网关还是模型限流导致；缓存是否真实省钱；中转是否能给模型标识、请求日志、余额变化和错误码。交易判断/今天动作：每个入口挂隔离测试池，记录模型名、RPM/429、请求日志、余额变化、缓存、错误码和失败切量；钱点在把不透明低价入口变成可观测交付，卖长期稳定费而不是一次性差价。相关链接：查看链接 ↗

只收样本

image2 / 4K / Seedance 生图通道｜热度回升但买盘仍小，适合做质量基准不适合备货

供需情况分析：图像/视频相关线索 64 条，高于 6 月 29 日的 36 条，但买方动作只有 2 条、供方动作 2 条，更多是功能、图片和质量讨论，不是明确大单。产品以及价格/容量线索：目标日能抓到的具体口径主要是 image2、4K 和 Seedance，价格/容量线索不充分。热点议题：4K 是否真原生、中文文字和商品图是否稳定、失败重试成本、内容标识、图像质量是否可复现。交易判断/今天动作：只收样本，不备库存；固定 10 个 prompt 做人物、商品、中文字、复杂背景、4K 和失败重试对照。钱点在质量验收包和通道筛选，而不是押大额库存。相关链接：查看链接 ↗

// 今日可执行项 · ACTIONS

今天能推进的动作

今天可试

Cursor for iOS 移动 agent 边界卡

2 小时内选一个低风险仓库，跑一次移动端启动、通知、PR review 和合并前阻断流程；产出物是权限边界与回滚清单，成功信号是客户把手机端限定为审批/监控而非生产密钥操作。

今天可试

Databox Skills 数据源周报小样

90 分钟内接一个只读样本数据源，输出“数据源权限、skill 输出、人工复核、报告交付”四栏样例；成功信号是客户愿意把每周数据读数交给 AI 辅助生成。

今天可试

ScarfBench 式迁移验收表

2 小时内把一个 Java/Spring 或老框架客户需求拆成 build、测试、行为差异、人工 review、回滚五栏；成功信号是客户先给一个低风险模块试迁移。

今天可试

Code/Pro/Max 池同题复测

90 分钟内抽 3 个入口，跑同一组 bugfix、测试修复和长上下文任务，记录 429、RPM、客户端、隔天可用性和答案质量；成功信号是能把普通池与代码任务池分层。

需要跟进

Hugging Face EEE 模型采购证据表

选 3 个客户常问模型，补公开评测、自测 prompt、延迟、失败率和成本观察，明天沉淀成可复用模板。

需要跟进

GitHub Copilot 成本中心样例

把 Sonnet 5、备用模型、用户组、per-user 预算和超限动作写成一页，给企业客户做续费前预算治理。

需要跟进

Azure/AWS/Gemini 云额度验真

对接供方时只收带账单主体、额度、模型区域、请求日志和 24 小时复测的样本。

暂缓观察

无日志的高 RPM 承诺

1 万 RPM、429 规避、缓存命中和低倍率没有请求日志、模型标识、错误码与隔天复测前，只进隔离测试池。

暂缓观察

账号/KYC/退款链路不清的资源

注册来源、邮箱、IP、支付主体、封控触发和补偿边界不清时，不进入客户交付。

暂缓观察

image2/4K/Seedance 大额备货

目标日明确买盘仍小，先做质量样本和失败率记录，不押库存。

// 风控 / 政策动态 · RISK RADAR

需要先画清边界的风险

需求强于供给

GitHub Copilot 成本中心预算会改变企业交付话术

6 月 30 日的 per-user AI credit budgets 说明企业会要求按用户组控费；AIRelay 读者做 Copilot/Claude Code 接入时，必须把模型策略、预算上限、超限替代和账单复核写清。相关链接：查看链接 ↗

云额度验真

移动端 coding agent 不能默认等同于生产操作权限

Cursor for iOS 适合启动、监控、review 和审批，但涉及生产密钥、支付、客户数据和不可逆合并时，应使用测试账号、最小权限、PR 审批和回滚流程。相关链接：查看链接 ↗

售后边界

公开评测不是客户场景验收

Hugging Face EEE 和 ScarfBench 能提供采购证据，但中文业务 prompt、企业旧系统、私有数据权限、延迟和失败恢复仍要自测，不能把 leaderboard 直接写成交付承诺。

稳定性门槛

账号、KYC、邮箱、IP、支付和退款集中隔离处理

涉及短保、注册工具、bug、封控恢复、二验、支付主体、退款承诺和来源不清资源的线索，不进入客户生产交付；价格、倍率、库存、容量和有效期只作市场观察，不写成 AIRelay 报价、稳定可用承诺或客户交付依据。

只收样本

AI 应用专项治理仍在执行窗口

4 月 30 日发布的“清朗·整治 AI 应用乱象”专项行动为期 4 个月，覆盖备案登记、安全审核、训练语料、生成合成内容标识和开源模型安全等问题。相关链接：查看链接 ↗

// 下一步

先做可复测证据，再谈规模化出售

公开机会先落成移动 agent 边界卡、数据源周报小样、模型评测证据表和迁移验收表。
基础设施交易先拿账单额度、RPM/429 复测、请求日志、账号生命周期边界和退款责任。

扫码进群