架构解析 · 2026-05

AI 购物 agent 到底读你的页面里什么？

三类 agent——训练爬虫、实时浏览、商业专用——读的是完全不同的层。一张实操地图：每个修复影响哪类 agent，AEO 和 SEO 真正会冲突的地方在哪。

商家问「AEO 我该优化什么」时，诚实的回答是：看是哪类 agent。这个词其实包了三种完全不同的访问模式，规则各异。混为一谈是网上 AEO 建议互相打架的根本原因。

下面是实际地图。

类型 1 — 训练爬虫（Training-time crawler）

这些是为模型建知识的爬虫。例子：GPTBot、ClaudeBot、anthropic-ai、PerplexityBot、Google-Extended。它们按计划全网扫，摄取页面，喂下一代训练快照。

读什么：HTML body、JSON-LD、链接、带 alt 的图片。严格遵守 robots.txt——把它们加入 allow 才能进下一代模型。
影响什么：模型内的长期品牌心智。用户问 ChatGPT「有哪些舒适日常运动鞋」时，模型从训练语料里抽出来回答——你在不在那个语料里决定你被不被提到。
时间尺度：慢。效果出现在下一个模型快照——几周到几个月。

这些是用户提问时实时抓页面的 agent。例子：ChatGPT browsing、Claude web search、Perplexity Sonar、Gemini grounding。它们不在训练，而是「带了一个浏览器的模型，此刻就在用」。

读什么：渲染后的 HTML body、Product JSON-LD、OG 标签、页面上的价格。它们大部分不查 robots.txt——把请求当作 user-initiated，跟你点链接时浏览器的行为一样。
影响什么：实时可发现性。用户提问触发模型现在去查你的页面，它能不能在几百毫秒里抽出一个干净答案？密集事实化 HTML + Product JSON-LD 胜出。臃肿的营销文案输。
时间尺度：立刻。改完页面，下一次实时查询就生效。

这些是专门做交易的商业表面。例子：Shopify Agentic Commerce、Google Agentic Checkout、ChatGPT Shopping、Amazon Rufus。它们围绕结构化商业协议构建，强烈偏好机器可解析的 payload 而不是抓 HTML。

先读什么：/.well-known/ucp——UCP manifest，声明 services、capabilities、payment handlers、签名密钥。你的 origin 在这个路径没响应 → 即使 HTML 再完美，也对商业表面隐形。
接着读什么：带完整 identifier 的 Product JSON-LD（brand、GTIN/MPN、availability、aggregateRating）。HTML body 是结构化数据缺失时的 fallback。
时间尺度：立刻，且高风险——这些 agent 推动的是真实交易，不只是被提及。

Surface	训练爬虫	实时浏览	商业 agent
HTML body	读（主）	读（主）	fallback
Product JSON-LD	读（加分）	读（主）	读（主）
Open Graph 标签	次要	读	次要
/.well-known/ucp	不读	不读	读（入口）
llms.txt	刚开始	可能 / 否	不读
robots.txt allow	严格遵守	大部分忽略	忽略
Sitemap.xml	读	不读	不读

很多 AEO 建议让商家把 body 文案重写成参数表式密度——剥掉营销文字，塞满数字和引用。这条建议对三类中的一类（实时浏览 agent）技术上是对的，但忽略了它对 SEO 和品牌调性的影响。

清晰的分层是：

HTML body 是共享的。人类、Googlebot、实时浏览 agent 都读它。SEO 已经在做这一层，别炸了。
JSON-LD 也是共享的。Googlebot 用它出 Rich Results，商业 agent 把它当主馈源，实时浏览 agent 抽取它快速回答。在这一层加字段是纯增量——Googlebot 不会因为你声明了更多结构化产品数据而扣分。
sidecar 层——/.well-known/ucp、llms.txt、robots.txt 的 AI bot 规则——根本不在 SEO 输出里。没有 SEO 工具会输出这些，没有 SEO 排名信号依赖它们。加了它们也不可能伤排名，因为它们不在排名图谱里。

所以「AEO 会不会伤我 SEO」的答案完全取决于你执行哪类建议。sidecar 层 → 零风险。body 重写 → 真实风险，需要判断。

当下可观测且已标准化的：

不能保证的：

llms.txt 当前还没被 GPT 或 Claude 官方消费。它是个提议中的标准。我们仍然 ship，因为成本是零，future-proofing 价值不是零，但别期待今天就拉召回。
实时浏览 agent 大部分忽略 robots.txt。禁用 GPTBot 并不会让你对 ChatGPT browsing 隐形。
agent 格局还会持续变化。我们今天审计的是 2026 年的经验快照，不是冻结的标准。

每次 scan 我们都对所有四个表面做仪器化采集——UCP manifest 探测、结构化数据扫描、把页面交给三个模型的识别测试、不给页面的冷启动跨 agent 召回测试。综合 AEO Score 不是单一代理指标，是四块加权的混合，因为每一块映射到不同类型的 agent。

如果你只记一句：JSON-LD 是普适的，UCP 是 agentic commerce 入口，llms.txt 是 bet-the-future，HTML body 是 SEO 工具和 AI 浏览器都会继续一起读的那层。

免费审计，横跨三类 agent——协议 manifest、结构化数据、跨 agent 召回。