架构解析 · 2026-05

AI 购物 agent 到底读你的页面里什么?

三类 agent——训练爬虫、实时浏览、商业专用——读的是完全不同的层。一张实操地图:每个修复影响哪类 agent,AEO 和 SEO 真正会冲突的地方在哪。

商家问「AEO 我该优化什么」时,诚实的回答是:看是哪类 agent。这个词其实包了三种完全不同的访问模式,规则各异。混为一谈是网上 AEO 建议互相打架的根本原因。

下面是实际地图。

类型 1 — 训练爬虫(Training-time crawler)

这些是为模型建知识的爬虫。例子:GPTBotClaudeBotanthropic-aiPerplexityBotGoogle-Extended。它们按计划全网扫,摄取页面,喂下一代训练快照。

  • 读什么:HTML body、JSON-LD、链接、带 alt 的图片。严格遵守 robots.txt——把它们加入 allow 才能进下一代模型。
  • 影响什么:模型内的长期品牌心智。用户问 ChatGPT「有哪些舒适日常运动鞋」时,模型从训练语料里抽出来回答——你在不在那个语料里决定你被不被提到。
  • 时间尺度:慢。效果出现在下一个模型快照——几周到几个月。

类型 2 — 实时浏览 agent(Inference-time browser)

这些是用户提问时实时抓页面的 agent。例子:ChatGPT browsing、Claude web search、Perplexity Sonar、Gemini grounding。它们不在训练,而是「带了一个浏览器的模型,此刻就在用」。

  • 读什么:渲染后的 HTML body、Product JSON-LD、OG 标签、页面上的价格。它们大部分不查 robots.txt——把请求当作 user-initiated,跟你点链接时浏览器的行为一样。
  • 影响什么:实时可发现性。用户提问触发模型现在去查你的页面,它能不能在几百毫秒里抽出一个干净答案?密集事实化 HTML + Product JSON-LD 胜出。臃肿的营销文案输。
  • 时间尺度:立刻。改完页面,下一次实时查询就生效。

类型 3 — 商业专用 agent(Commerce-specific agent)

这些是专门做交易的商业表面。例子:Shopify Agentic Commerce、Google Agentic Checkout、ChatGPT Shopping、Amazon Rufus。它们围绕结构化商业协议构建,强烈偏好机器可解析的 payload 而不是抓 HTML。

  • 先读什么:/.well-known/ucp——UCP manifest,声明 services、capabilities、payment handlers、签名密钥。你的 origin 在这个路径没响应 → 即使 HTML 再完美,也对商业表面隐形。
  • 接着读什么:带完整 identifier 的 Product JSON-LD(brand、GTIN/MPN、availability、aggregateRating)。HTML body 是结构化数据缺失时的 fallback。
  • 时间尺度:立刻,且高风险——这些 agent 推动的是真实交易,不只是被提及。

矩阵

Surface训练爬虫实时浏览商业 agent
HTML body读(主)读(主)fallback
Product JSON-LD读(加分)读(主)读(主)
Open Graph 标签次要次要
/.well-known/ucp不读不读读(入口)
llms.txt刚开始可能 / 否不读
robots.txt allow严格遵守大部分忽略忽略
Sitemap.xml不读不读

「AEO 不和 SEO 打架」是什么意思

很多 AEO 建议让商家把 body 文案重写成参数表式密度——剥掉营销文字,塞满数字和引用。这条建议对三类中的一类(实时浏览 agent)技术上是对的,但忽略了它对 SEO 和品牌调性的影响。

清晰的分层是:

  • HTML body 是共享的。人类、Googlebot、实时浏览 agent 都读它。SEO 已经在做这一层,别炸了。
  • JSON-LD 也是共享的。Googlebot 用它出 Rich Results,商业 agent 把它当主馈源,实时浏览 agent 抽取它快速回答。在这一层加字段是纯增量——Googlebot 不会因为你声明了更多结构化产品数据而扣分。
  • sidecar 层——/.well-known/ucpllms.txt、robots.txt 的 AI bot 规则——根本不在 SEO 输出里。没有 SEO 工具会输出这些,没有 SEO 排名信号依赖它们。加了它们也不可能伤排名,因为它们不在排名图谱里。

所以「AEO 会不会伤我 SEO」的答案完全取决于你执行哪类建议。sidecar 层 → 零风险。body 重写 → 真实风险,需要判断。

我们能保证什么,不能保证什么

当下可观测且已标准化的:

  • Product JSON-LD 在所有 agent 类型里都生效。Schema.org 是目前最接近「通用商业接口」的东西。
  • UCP 正在被商业专用 agent 采用。Shopify 默认下发,Google 的 Agentic Commerce 框架消费它。
  • 训练爬虫遵守 robots.txt。放行 GPTBot 可观察地让你进入下一次 OpenAI 训练。

不能保证的:

  • llms.txt 当前还没被 GPT 或 Claude 官方消费。它是个提议中的标准。我们仍然 ship,因为成本是零,future-proofing 价值不是零,但别期待今天就拉召回。
  • 实时浏览 agent 大部分忽略 robots.txt。禁用 GPTBot 并不会让你对 ChatGPT browsing 隐形。
  • agent 格局还会持续变化。我们今天审计的是 2026 年的经验快照,不是冻结的标准。

aeoprepared 怎么对照这套框架打分

每次 scan 我们都对所有四个表面做仪器化采集——UCP manifest 探测、结构化数据扫描、把页面交给三个模型的识别测试、不给页面的冷启动跨 agent 召回测试。综合 AEO Score 不是单一代理指标,是四块加权的混合,因为每一块映射到不同类型的 agent。

如果你只记一句:JSON-LD 是普适的,UCP 是 agentic commerce 入口,llms.txt 是 bet-the-future,HTML body 是 SEO 工具和 AI 浏览器都会继续一起读的那层。

看 agent 眼里你的店是什么样的

免费审计,横跨三类 agent——协议 manifest、结构化数据、跨 agent 召回。

运行我的扫描 →