实验 · 2026-05

我们在 27 家 DTC 店做了 A/B 测试。这是真正让 AI 推荐率上升的修复。

加数字:推荐率 +13.5pp。组合优化:+20.9pp。只加引用:负面。完整数据 + 方法 + 局限,来自针对电商场景对 GEO 论文的可重复实验。

核心发现

  • 在产品描述里加 10 个具体数字,AI 推荐率翻倍以上 (9.8% → 23.3%,n=27)。
  • 组合优化拉升推荐率约 21 个百分点 (9.8% → 30.7%)——四个变体里效果最好。
  • 引用的「格式」比引用的「内容」更重要。 同样 3 个引用,用 <cite> 标签包:推荐率 +9.9pp、identification +6.1pp。同样内容用裸 URL:confidence 掉 12.6pp。**格式直接反转了效果方向。**
  • body 改写动不了 identification。 body 文字改写并不改变「这是什么产品」——它改变的是 AI 是否足够自信去推荐它。

方法

从公开 benchmark 的 27 家店开始,每家抓页面、然后用一次 LLM 调用生成 4 个变体(按严格 schema):

  • V0 — 原始:不动,对照组。
  • V1 — +统计:原始 + 至少 10 个具体数字(尺寸、重量、%、耐用度、比较)。
  • V2 — +引述:原始 + 至少 2 段 verbatim 客户引述,<blockquote> 包裹。
  • V3 — +引用:原始 + 至少 3 个外链引用句(带方括号 URL)。
  • V4 — 全部 + 词汇多样化:V1+V2+V3 组合,且禁止任何关键词重复超过 3 次。

每个变体喂给我们的 identification simulator:GPT-5.4 mini、Claude Haiku 4.5、Gemini 3.5 Flash 每家拿到页面数据后回答 4 个结构化问题——这是什么产品、还缺什么信息、会不会推荐、为什么。我们在 3 个模型上对每个变体聚合 3 个响应级信号:

  • Identification 分:confidence ≥ medium 的模型比例
  • 推荐率:返回 "would recommend: yes" 的模型比例
  • 高 confidence 率:返回 high confidence 的模型比例

27 店 × 5 变体 × 3 模型 = 405 次 frontier 调用,加 27 次 rewrite 调用。总成本 <$2,wall-clock 11 分钟。

结果

变体n内容分 %Identification推荐率高 confidence
V0 — 原始2737.2%84.1%9.8%74.1%
V1 — +10 个统计数字2738%(+0.8)82.9%(-1.2)23.3%(+13.5)68%(-6.1)
V2 — +2 段引述2738%(+0.8)81.6%(-2.5)13.6%(+3.8)55.6%(-18.5)
V3 — +3 个外链引用2738%(+0.8)81.6%(-2.5)4.9%(-4.9)48.2%(-25.9)
V4 — 全部 + 词汇多样化2738%(+0.8)86.5%(+2.4)30.7%(+20.9)68.1%(-6)

读这张表:除 V0 外每格都是 vs 原始基线的 delta。绿 = 上升,红 = 下降。**「推荐率」列**是最可操作的——它捕捉「AI 购物助手拿到这个页面后,如果用户问,会不会自信地推荐这个产品」。

发现 1 — 数字是单一最高杠杆的修复

V1(只加统计)把推荐率从 9.8% 拉到 23.3%——绝对提升 13.5 个百分点,相当于基线 2.4 倍。confidence 略掉(-6.1pp)是因为描述变长变密,但模型在面对具体数字时**更愿意推荐**。

这和 GEO 论文 top-3 发现一致。我们的实验追加了**电商语境下的具体量级**:如果商家只有时间做一件事,「加 10+ 个具体数字」**单独就能产生可测的提升**。

发现 2 — 单独加引用是个陷阱

V3(只加引用)是意外。GEO 论文显示引用在通用文本场景里对 subjective impression score 影响最大。在**电商页面**,body 里的裸 URL 没有配套结构,效果比原始还差:推荐率 −4.9pp,高 confidence 率 −25.9pp。

两个我们还无法区分的假说:

  • Spam-pattern 检测。电商页面里 body 全是裸 URL,对模型看起来像 SEO 垃圾。如果用结构化引用(<cite>、schema.org references、脚注式编号链接),可能不会触发同一模式。下一轮实验会测。
  • 稀释。引用替换了产品具体描述,变成了权威归属语言。没配套统计的话读起来像挥手("tested by Wirecutter" 但没指标),降低感知专业性。

实操含义:从不要在「没通过 data-signals」的页面上加引用。先数字、再引用。

发现 3 — 组合修复完胜任意单一修复

V4(三种注入 + 词汇多样化)是**唯一让 identification 上升的变体**(+2.4pp),同时拥有**最高的推荐率提升**(+20.9pp),且 confidence 大致持平。这是我们对「联合分布」论证的最强证据:AEO 杠杆是**相加的,不是替代的**。

对商家的实操含义:要么承诺完整的 stats+quotes+citations 重写,要么只做 stats——「停在只加引述」或「只加引用」的半吊子可能比什么都不做还糟。

发现 4 — Identification 主要靠 JSON-LD,不靠 body 文案

Identification 分跨变体几乎不动(最大 delta ±2.5pp)。这和事实一致:每个变体都有相同的品牌、名字、图、结构化数据 identifier——只 body 描述不同。如果模型已经知道这是什么产品,body 改写不会移动这个分——它移动的是模型是否愿意推荐。

推论:结构化数据修复(Product JSON-LD / brand / GTIN / aggregateRating)影响 identification。Body 文案修复影响推荐。它们是**互补杠杆**,分别针对 agent pipeline 的不同阶段。

子实验 — 引用「格式」比引用「内容」更重要

发现 2 留下一个开放问题:V3(只加引用)效果差——是引用本身的问题,还是我们把它写成那个样子的问题?跟进的子实验在同样 27 家店上做了对比测试:每店拿同样 3 个引用,写成 5 种不同的 markup 格式,**只改格式不改内容**。

引用格式nIdentification推荐率高 confidence
V0 — 原始2782.9%7.4%69.3%
V_naked — 裸 URL2781.7%(-1.2)14.7%(+7.3)56.7%(-12.6)
V_cite — <cite> 标签2789%(+6.1)17.3%(+9.9)61.8%(-7.5)
V_anchor — <a href> 链接2779.2%(-3.7)14.7%(+7.3)61.7%(-7.6)
V_quote — verbatim 引述2782.9%16%(+8.6)63%(-6.3)
V_footnote — 上标 + 脚注2786.5%(+3.6)11.1%(+3.7)58%(-11.3)

结果非常清晰:

  • <cite> 标签是唯一在每个指标都正向的变体。 identification +6.1pp、推荐率 +9.9pp、confidence 跌幅最小。**跨三个指标的明确赢家。**
  • 裸 URL 让 confidence 掉 12.6pp。原来 V3 用的就是这种格式——**炸的不是"加了引用"这件事,是这种**写法**。
  • 内联 <a href> 链接居然伤 identification。意外:「正经的」HTML 超链接让模型识别能力反而下降(-3.7pp)。假设:anchor markup 给 body 加了视觉噪音,模型把它当成 link-spam,即使人类读起来没问题。
  • Verbatim 引述保 confidence 最好(-6.3 vs 裸 URL 的 -12.6),同时推荐率提升接近 <cite><cite> 用不了时的安全备选。
  • Footnote 风格平衡但平庸。末尾放参考列表不会像 inline <cite> 那样让模型兴奋。

具体处方:商家 authority-signals 失败时,不要笼统说「加 3 个外链」。要说「每个引用用 <cite>Wirecutter (2025)</cite> 标签包,不要用方括号 URL 或 anchor 链接」。**同样的引用换错格式是负面的,换对格式拉 +9.9pp 推荐率。**

这种发现 paper 级 GEO 研究做不出来——因为 paper 测的是「信号类别」,不是「信号的 markup」。也是为什么在电商页面上做经验复现重要:**实现细节会反转 lift 的方向。**

我们的打分系统哪里对、哪里错

用结果反推我们当前的权重:

  • Stats 权重应该加。当前 8 分(满分 114)。推荐率上的效应量提示应该是 12-15 分。
  • Quotation 权重差不多。当前 6 分;单独效果有限,权重小合理。
  • Citation 权重可能需要条件打分。有统计的页面上的引用值得满分;没统计的页面上的引用可能应该 0 分。后续打分版本可能加交互项。
  • 关键词堆砌很少见。27 家店里只有 5 家 top word 密度 >4%。负面信号检测在该触发时触发了,但不是我们以为的普遍问题。

横截面 pilot — 什么预测冷启动可见性

并行算了 27 家店每个 check 通过/未通过对跨 agent 召回的 Pearson 相关。最强信号既不意外又让人谦卑:品牌心智支配一切。协议层得分低的店(一些没 UCP manifest 的大品牌)往往比结构完美但无人知晓的 Shopify 小店召回率更高。

这告诉我们页面质量修复影响的是 inference-time 可见性(模型拿到你的页面时会不会推荐),不是 training-time 召回(模型从训练记忆里能不能想起你)。后者由多年品牌建设和第三方引用决定,结构化数据 hygiene 救不了。如果你的品牌没人认识,页面优化救不了——外联才能。页面优化在 AI 购物浏览器**此刻正在看你页面**时才生效。

不藏着的局限

  • n=27 偏小。效应量是方向性的,没有 p<0.05 的统计确认。
  • 变体是 LLM 生成的,不是真实商家编辑。合成引述可能触发 spam 检测,真实评论可能不会。
  • Identification probe ≠ 冷启动召回。我们的因变量是「模型拿到页面后会做什么」。冷启动召回(模型从训练记忆里推荐你)是另一个机制,短期没法 A/B 测。
  • 单一领域(DTC 电商、Shopify-偏重数据集)。结果可能不适用于 B2B、marketplace、非产品内容。
  • 模型选择有影响。我们测的是 GPT-5.4 mini / Claude Haiku 4.5 / Gemini 3.5 Flash。满血模型可能有不同 bias。

等我们攒到 100+ 家店 + 真实商家重写时再跑一次(路线图 Phase B)。上面这些是今天能立得住的数据。

这改变了我们的审计逻辑

  1. 建议优先级。扫描结果现在按经验 lift 排序,不是理论权重。Stats 第一,组合重写第二。
  2. 「单独加引用」警告。商家通过 citation check 但没通过 data-signals 时,我们标为陷阱。
  3. 跨 agent 召回当品牌强度信号,不当页面修复信号。Citation Discovery(真实外联目标)才是这一层的正确杠杆。

原始数据集、变体文本、每店结果——可在 repo 索取。直接 扫你的店

看你店的推荐率

我们的审计跨 GPT、Claude、Gemini 跑同一个 probe。免费,无账号,60 秒。

运行我的扫描 →