我们在 27 家 DTC 店做了 A/B 测试。这是真正让 AI 推荐率上升的修复。
加数字:推荐率 +13.5pp。组合优化:+20.9pp。只加引用:负面。完整数据 + 方法 + 局限,来自针对电商场景对 GEO 论文的可重复实验。
核心发现
- → 在产品描述里加 10 个具体数字,AI 推荐率翻倍以上 (9.8% → 23.3%,n=27)。
- → 组合优化拉升推荐率约 21 个百分点 (9.8% → 30.7%)——四个变体里效果最好。
- → 引用的「格式」比引用的「内容」更重要。 同样 3 个引用,用
<cite>标签包:推荐率 +9.9pp、identification +6.1pp。同样内容用裸 URL:confidence 掉 12.6pp。**格式直接反转了效果方向。** - → body 改写动不了 identification。 body 文字改写并不改变「这是什么产品」——它改变的是 AI 是否足够自信去推荐它。
方法
从公开 benchmark 的 27 家店开始,每家抓页面、然后用一次 LLM 调用生成 4 个变体(按严格 schema):
- V0 — 原始:不动,对照组。
- V1 — +统计:原始 + 至少 10 个具体数字(尺寸、重量、%、耐用度、比较)。
- V2 — +引述:原始 + 至少 2 段 verbatim 客户引述,
<blockquote>包裹。 - V3 — +引用:原始 + 至少 3 个外链引用句(带方括号 URL)。
- V4 — 全部 + 词汇多样化:V1+V2+V3 组合,且禁止任何关键词重复超过 3 次。
每个变体喂给我们的 identification simulator:GPT-5.4 mini、Claude Haiku 4.5、Gemini 3.5 Flash 每家拿到页面数据后回答 4 个结构化问题——这是什么产品、还缺什么信息、会不会推荐、为什么。我们在 3 个模型上对每个变体聚合 3 个响应级信号:
- Identification 分:confidence ≥ medium 的模型比例
- 推荐率:返回 "would recommend: yes" 的模型比例
- 高 confidence 率:返回 high confidence 的模型比例
27 店 × 5 变体 × 3 模型 = 405 次 frontier 调用,加 27 次 rewrite 调用。总成本 <$2,wall-clock 11 分钟。
结果
| 变体 | n | 内容分 % | Identification | 推荐率 | 高 confidence |
|---|---|---|---|---|---|
| V0 — 原始 | 27 | 37.2% | 84.1% | 9.8% | 74.1% |
| V1 — +10 个统计数字 | 27 | 38%(+0.8) | 82.9%(-1.2) | 23.3%(+13.5) | 68%(-6.1) |
| V2 — +2 段引述 | 27 | 38%(+0.8) | 81.6%(-2.5) | 13.6%(+3.8) | 55.6%(-18.5) |
| V3 — +3 个外链引用 | 27 | 38%(+0.8) | 81.6%(-2.5) | 4.9%(-4.9) | 48.2%(-25.9) |
| V4 — 全部 + 词汇多样化 | 27 | 38%(+0.8) | 86.5%(+2.4) | 30.7%(+20.9) | 68.1%(-6) |
读这张表:除 V0 外每格都是 vs 原始基线的 delta。绿 = 上升,红 = 下降。**「推荐率」列**是最可操作的——它捕捉「AI 购物助手拿到这个页面后,如果用户问,会不会自信地推荐这个产品」。
发现 1 — 数字是单一最高杠杆的修复
V1(只加统计)把推荐率从 9.8% 拉到 23.3%——绝对提升 13.5 个百分点,相当于基线 2.4 倍。confidence 略掉(-6.1pp)是因为描述变长变密,但模型在面对具体数字时**更愿意推荐**。
这和 GEO 论文 top-3 发现一致。我们的实验追加了**电商语境下的具体量级**:如果商家只有时间做一件事,「加 10+ 个具体数字」**单独就能产生可测的提升**。
发现 2 — 单独加引用是个陷阱
V3(只加引用)是意外。GEO 论文显示引用在通用文本场景里对 subjective impression score 影响最大。在**电商页面**,body 里的裸 URL 没有配套结构,效果比原始还差:推荐率 −4.9pp,高 confidence 率 −25.9pp。
两个我们还无法区分的假说:
- Spam-pattern 检测。电商页面里 body 全是裸 URL,对模型看起来像 SEO 垃圾。如果用结构化引用(
<cite>、schema.org references、脚注式编号链接),可能不会触发同一模式。下一轮实验会测。 - 稀释。引用替换了产品具体描述,变成了权威归属语言。没配套统计的话读起来像挥手("tested by Wirecutter" 但没指标),降低感知专业性。
实操含义:从不要在「没通过 data-signals」的页面上加引用。先数字、再引用。
发现 3 — 组合修复完胜任意单一修复
V4(三种注入 + 词汇多样化)是**唯一让 identification 上升的变体**(+2.4pp),同时拥有**最高的推荐率提升**(+20.9pp),且 confidence 大致持平。这是我们对「联合分布」论证的最强证据:AEO 杠杆是**相加的,不是替代的**。
对商家的实操含义:要么承诺完整的 stats+quotes+citations 重写,要么只做 stats——「停在只加引述」或「只加引用」的半吊子可能比什么都不做还糟。
发现 4 — Identification 主要靠 JSON-LD,不靠 body 文案
Identification 分跨变体几乎不动(最大 delta ±2.5pp)。这和事实一致:每个变体都有相同的品牌、名字、图、结构化数据 identifier——只 body 描述不同。如果模型已经知道这是什么产品,body 改写不会移动这个分——它移动的是模型是否愿意推荐。
推论:结构化数据修复(Product JSON-LD / brand / GTIN / aggregateRating)影响 identification。Body 文案修复影响推荐。它们是**互补杠杆**,分别针对 agent pipeline 的不同阶段。
子实验 — 引用「格式」比引用「内容」更重要
发现 2 留下一个开放问题:V3(只加引用)效果差——是引用本身的问题,还是我们把它写成那个样子的问题?跟进的子实验在同样 27 家店上做了对比测试:每店拿同样 3 个引用,写成 5 种不同的 markup 格式,**只改格式不改内容**。
| 引用格式 | n | Identification | 推荐率 | 高 confidence |
|---|---|---|---|---|
| V0 — 原始 | 27 | 82.9% | 7.4% | 69.3% |
| V_naked — 裸 URL | 27 | 81.7%(-1.2) | 14.7%(+7.3) | 56.7%(-12.6) |
| V_cite — <cite> 标签 | 27 | 89%(+6.1) | 17.3%(+9.9) | 61.8%(-7.5) |
| V_anchor — <a href> 链接 | 27 | 79.2%(-3.7) | 14.7%(+7.3) | 61.7%(-7.6) |
| V_quote — verbatim 引述 | 27 | 82.9% | 16%(+8.6) | 63%(-6.3) |
| V_footnote — 上标 + 脚注 | 27 | 86.5%(+3.6) | 11.1%(+3.7) | 58%(-11.3) |
结果非常清晰:
<cite>标签是唯一在每个指标都正向的变体。 identification +6.1pp、推荐率 +9.9pp、confidence 跌幅最小。**跨三个指标的明确赢家。**- 裸 URL 让 confidence 掉 12.6pp。原来 V3 用的就是这种格式——**炸的不是"加了引用"这件事,是这种**写法**。
- 内联
<a href>链接居然伤 identification。意外:「正经的」HTML 超链接让模型识别能力反而下降(-3.7pp)。假设:anchor markup 给 body 加了视觉噪音,模型把它当成 link-spam,即使人类读起来没问题。 - Verbatim 引述保 confidence 最好(-6.3 vs 裸 URL 的 -12.6),同时推荐率提升接近
<cite>。<cite>用不了时的安全备选。 - Footnote 风格平衡但平庸。末尾放参考列表不会像 inline
<cite>那样让模型兴奋。
具体处方:商家 authority-signals 失败时,不要笼统说「加 3 个外链」。要说「每个引用用 <cite>Wirecutter (2025)</cite> 标签包,不要用方括号 URL 或 anchor 链接」。**同样的引用换错格式是负面的,换对格式拉 +9.9pp 推荐率。**
这种发现 paper 级 GEO 研究做不出来——因为 paper 测的是「信号类别」,不是「信号的 markup」。也是为什么在电商页面上做经验复现重要:**实现细节会反转 lift 的方向。**
我们的打分系统哪里对、哪里错
用结果反推我们当前的权重:
- Stats 权重应该加。当前 8 分(满分 114)。推荐率上的效应量提示应该是 12-15 分。
- Quotation 权重差不多。当前 6 分;单独效果有限,权重小合理。
- Citation 权重可能需要条件打分。有统计的页面上的引用值得满分;没统计的页面上的引用可能应该 0 分。后续打分版本可能加交互项。
- 关键词堆砌很少见。27 家店里只有 5 家 top word 密度 >4%。负面信号检测在该触发时触发了,但不是我们以为的普遍问题。
横截面 pilot — 什么预测冷启动可见性
并行算了 27 家店每个 check 通过/未通过对跨 agent 召回的 Pearson 相关。最强信号既不意外又让人谦卑:品牌心智支配一切。协议层得分低的店(一些没 UCP manifest 的大品牌)往往比结构完美但无人知晓的 Shopify 小店召回率更高。
这告诉我们页面质量修复影响的是 inference-time 可见性(模型拿到你的页面时会不会推荐),不是 training-time 召回(模型从训练记忆里能不能想起你)。后者由多年品牌建设和第三方引用决定,结构化数据 hygiene 救不了。如果你的品牌没人认识,页面优化救不了——外联才能。页面优化在 AI 购物浏览器**此刻正在看你页面**时才生效。
不藏着的局限
- n=27 偏小。效应量是方向性的,没有 p<0.05 的统计确认。
- 变体是 LLM 生成的,不是真实商家编辑。合成引述可能触发 spam 检测,真实评论可能不会。
- Identification probe ≠ 冷启动召回。我们的因变量是「模型拿到页面后会做什么」。冷启动召回(模型从训练记忆里推荐你)是另一个机制,短期没法 A/B 测。
- 单一领域(DTC 电商、Shopify-偏重数据集)。结果可能不适用于 B2B、marketplace、非产品内容。
- 模型选择有影响。我们测的是 GPT-5.4 mini / Claude Haiku 4.5 / Gemini 3.5 Flash。满血模型可能有不同 bias。
等我们攒到 100+ 家店 + 真实商家重写时再跑一次(路线图 Phase B)。上面这些是今天能立得住的数据。
这改变了我们的审计逻辑
- 建议优先级。扫描结果现在按经验 lift 排序,不是理论权重。Stats 第一,组合重写第二。
- 「单独加引用」警告。商家通过 citation check 但没通过 data-signals 时,我们标为陷阱。
- 跨 agent 召回当品牌强度信号,不当页面修复信号。Citation Discovery(真实外联目标)才是这一层的正确杠杆。
看你店的推荐率
我们的审计跨 GPT、Claude、Gemini 跑同一个 probe。免费,无账号,60 秒。
运行我的扫描 →