实验 · 2026-05

我们在 27 家 DTC 店做了 A/B 测试。这是真正让 AI 推荐率上升的修复。

加数字：推荐率 +13.5pp。组合优化：+20.9pp。只加引用：负面。完整数据 + 方法 + 局限，来自针对电商场景对 GEO 论文的可重复实验。

核心发现

→ 在产品描述里加 10 个具体数字，AI 推荐率翻倍以上 （9.8% → 23.3%，n=27）。
→ 组合优化拉升推荐率约 21 个百分点 （9.8% → 30.7%）——四个变体里效果最好。
→ 引用的「格式」比引用的「内容」更重要。 同样 3 个引用，用 <cite> 标签包：推荐率 +9.9pp、identification +6.1pp。同样内容用裸 URL：confidence 掉 12.6pp。**格式直接反转了效果方向。**
→ body 改写动不了 identification。 body 文字改写并不改变「这是什么产品」——它改变的是 AI 是否足够自信去推荐它。

方法

从公开 benchmark 的 27 家店开始，每家抓页面、然后用一次 LLM 调用生成 4 个变体（按严格 schema）：

V0 — 原始：不动，对照组。
V1 — +统计：原始 + 至少 10 个具体数字（尺寸、重量、%、耐用度、比较）。
V2 — +引述：原始 + 至少 2 段 verbatim 客户引述，<blockquote> 包裹。
V3 — +引用：原始 + 至少 3 个外链引用句（带方括号 URL）。
V4 — 全部 + 词汇多样化：V1+V2+V3 组合，且禁止任何关键词重复超过 3 次。

每个变体喂给我们的 identification simulator：GPT-5.4 mini、Claude Haiku 4.5、Gemini 3.5 Flash 每家拿到页面数据后回答 4 个结构化问题——这是什么产品、还缺什么信息、会不会推荐、为什么。我们在 3 个模型上对每个变体聚合 3 个响应级信号：

Identification 分：confidence ≥ medium 的模型比例
推荐率：返回 "would recommend: yes" 的模型比例
高 confidence 率：返回 high confidence 的模型比例

27 店 × 5 变体 × 3 模型 = 405 次 frontier 调用，加 27 次 rewrite 调用。总成本 <$2，wall-clock 11 分钟。

结果

变体	n	内容分 %	Identification	推荐率	高 confidence
V0 — 原始	27	37.2%	84.1%	9.8%	74.1%
V1 — +10 个统计数字	27	38%(+0.8)	82.9%(-1.2)	23.3%(+13.5)	68%(-6.1)
V2 — +2 段引述	27	38%(+0.8)	81.6%(-2.5)	13.6%(+3.8)	55.6%(-18.5)
V3 — +3 个外链引用	27	38%(+0.8)	81.6%(-2.5)	4.9%(-4.9)	48.2%(-25.9)
V4 — 全部 + 词汇多样化	27	38%(+0.8)	86.5%(+2.4)	30.7%(+20.9)	68.1%(-6)

读这张表：除 V0 外每格都是 vs 原始基线的 delta。绿 = 上升，红 = 下降。**「推荐率」列**是最可操作的——它捕捉「AI 购物助手拿到这个页面后，如果用户问，会不会自信地推荐这个产品」。

发现 1 — 数字是单一最高杠杆的修复

V1（只加统计）把推荐率从 9.8% 拉到 23.3%——绝对提升 13.5 个百分点，相当于基线 2.4 倍。confidence 略掉（-6.1pp）是因为描述变长变密，但模型在面对具体数字时**更愿意推荐**。

这和 GEO 论文 top-3 发现一致。我们的实验追加了**电商语境下的具体量级**：如果商家只有时间做一件事，「加 10+ 个具体数字」**单独就能产生可测的提升**。

发现 2 — 单独加引用是个陷阱

V3（只加引用）是意外。GEO 论文显示引用在通用文本场景里对 subjective impression score 影响最大。在**电商页面**，body 里的裸 URL 没有配套结构，效果比原始还差：推荐率 −4.9pp，高 confidence 率 −25.9pp。

两个我们还无法区分的假说：

Spam-pattern 检测。电商页面里 body 全是裸 URL，对模型看起来像 SEO 垃圾。如果用结构化引用（<cite>、schema.org references、脚注式编号链接），可能不会触发同一模式。下一轮实验会测。
稀释。引用替换了产品具体描述，变成了权威归属语言。没配套统计的话读起来像挥手（"tested by Wirecutter" 但没指标），降低感知专业性。

实操含义：从不要在「没通过 data-signals」的页面上加引用。先数字、再引用。

发现 3 — 组合修复完胜任意单一修复

V4（三种注入 + 词汇多样化）是**唯一让 identification 上升的变体**（+2.4pp），同时拥有**最高的推荐率提升**（+20.9pp），且 confidence 大致持平。这是我们对「联合分布」论证的最强证据：AEO 杠杆是**相加的，不是替代的**。

对商家的实操含义：要么承诺完整的 stats+quotes+citations 重写，要么只做 stats——「停在只加引述」或「只加引用」的半吊子可能比什么都不做还糟。

发现 4 — Identification 主要靠 JSON-LD，不靠 body 文案

Identification 分跨变体几乎不动（最大 delta ±2.5pp）。这和事实一致：每个变体都有相同的品牌、名字、图、结构化数据 identifier——只 body 描述不同。如果模型已经知道这是什么产品，body 改写不会移动这个分——它移动的是模型是否愿意推荐。

推论：结构化数据修复（Product JSON-LD / brand / GTIN / aggregateRating）影响 identification。Body 文案修复影响推荐。它们是**互补杠杆**，分别针对 agent pipeline 的不同阶段。

子实验 — 引用「格式」比引用「内容」更重要

发现 2 留下一个开放问题：V3（只加引用）效果差——是引用本身的问题，还是我们把它写成那个样子的问题？跟进的子实验在同样 27 家店上做了对比测试：每店拿同样 3 个引用，写成 5 种不同的 markup 格式，**只改格式不改内容**。

引用格式	n	Identification	推荐率	高 confidence
V0 — 原始	27	82.9%	7.4%	69.3%
V_naked — 裸 URL	27	81.7%(-1.2)	14.7%(+7.3)	56.7%(-12.6)
V_cite — <cite> 标签	27	89%(+6.1)	17.3%(+9.9)	61.8%(-7.5)
V_anchor — <a href> 链接	27	79.2%(-3.7)	14.7%(+7.3)	61.7%(-7.6)
V_quote — verbatim 引述	27	82.9%	16%(+8.6)	63%(-6.3)
V_footnote — 上标 + 脚注	27	86.5%(+3.6)	11.1%(+3.7)	58%(-11.3)

结果非常清晰：

<cite> 标签是唯一在每个指标都正向的变体。 identification +6.1pp、推荐率 +9.9pp、confidence 跌幅最小。**跨三个指标的明确赢家。**
裸 URL 让 confidence 掉 12.6pp。原来 V3 用的就是这种格式——**炸的不是"加了引用"这件事，是这种**写法**。
内联 <a href> 链接居然伤 identification。意外：「正经的」HTML 超链接让模型识别能力反而下降（-3.7pp）。假设：anchor markup 给 body 加了视觉噪音，模型把它当成 link-spam，即使人类读起来没问题。
Verbatim 引述保 confidence 最好（-6.3 vs 裸 URL 的 -12.6），同时推荐率提升接近 <cite>。<cite> 用不了时的安全备选。
Footnote 风格平衡但平庸。末尾放参考列表不会像 inline <cite> 那样让模型兴奋。

具体处方：商家 authority-signals 失败时，不要笼统说「加 3 个外链」。要说「每个引用用 <cite>Wirecutter (2025)</cite> 标签包，不要用方括号 URL 或 anchor 链接」。**同样的引用换错格式是负面的，换对格式拉 +9.9pp 推荐率。**

这种发现 paper 级 GEO 研究做不出来——因为 paper 测的是「信号类别」，不是「信号的 markup」。也是为什么在电商页面上做经验复现重要：**实现细节会反转 lift 的方向。**

我们的打分系统哪里对、哪里错

用结果反推我们当前的权重：

Stats 权重应该加。当前 8 分（满分 114）。推荐率上的效应量提示应该是 12-15 分。
Quotation 权重差不多。当前 6 分；单独效果有限，权重小合理。
Citation 权重可能需要条件打分。有统计的页面上的引用值得满分；没统计的页面上的引用可能应该 0 分。后续打分版本可能加交互项。
关键词堆砌很少见。27 家店里只有 5 家 top word 密度 >4%。负面信号检测在该触发时触发了，但不是我们以为的普遍问题。

横截面 pilot — 什么预测冷启动可见性

并行算了 27 家店每个 check 通过/未通过对跨 agent 召回的 Pearson 相关。最强信号既不意外又让人谦卑：品牌心智支配一切。协议层得分低的店（一些没 UCP manifest 的大品牌）往往比结构完美但无人知晓的 Shopify 小店召回率更高。

这告诉我们页面质量修复影响的是 inference-time 可见性（模型拿到你的页面时会不会推荐），不是 training-time 召回（模型从训练记忆里能不能想起你）。后者由多年品牌建设和第三方引用决定，结构化数据 hygiene 救不了。如果你的品牌没人认识，页面优化救不了——外联才能。页面优化在 AI 购物浏览器**此刻正在看你页面**时才生效。

不藏着的局限

n=27 偏小。效应量是方向性的，没有 p<0.05 的统计确认。
变体是 LLM 生成的，不是真实商家编辑。合成引述可能触发 spam 检测，真实评论可能不会。
Identification probe ≠ 冷启动召回。我们的因变量是「模型拿到页面后会做什么」。冷启动召回（模型从训练记忆里推荐你）是另一个机制，短期没法 A/B 测。
单一领域（DTC 电商、Shopify-偏重数据集）。结果可能不适用于 B2B、marketplace、非产品内容。
模型选择有影响。我们测的是 GPT-5.4 mini / Claude Haiku 4.5 / Gemini 3.5 Flash。满血模型可能有不同 bias。

等我们攒到 100+ 家店 + 真实商家重写时再跑一次（路线图 Phase B）。上面这些是今天能立得住的数据。

这改变了我们的审计逻辑

建议优先级。扫描结果现在按经验 lift 排序，不是理论权重。Stats 第一，组合重写第二。
「单独加引用」警告。商家通过 citation check 但没通过 data-signals 时，我们标为陷阱。
跨 agent 召回当品牌强度信号，不当页面修复信号。Citation Discovery（真实外联目标）才是这一层的正确杠杆。

原始数据集、变体文本、每店结果——可在 repo 索取。直接扫你的店。

看你店的推荐率

我们的审计跨 GPT、Claude、Gemini 跑同一个 probe。免费，无账号，60 秒。

运行我的扫描 →