研究 · 2026-05

AI agent 到底怎么搜——以及商家在每一步能干预什么

现代 agent search 是个 5 阶段 pipeline：查询重写、检索、重排、答案合成、引用生成。2023-2026 的研究告诉我们每一步在哪里出错、商家在哪里能撬动。

「为 AI agent 优化」这句话掩盖了一个 5 阶段 pipeline。每个阶段跑的是不同的信号、用不同方式出错、奖励不同的商家工作。跳过 pipeline 视角，你会做一些动作——拉了一个阶段的分，同时偷偷砸坏另一个阶段。

下面是每个阶段已发表研究告诉我们的——以及商家在那一刻能用的杠杆。

阶段 1 — 查询重写（Query reformulation）

真正检索之前，agent 先把用户的 prompt 重写成几个搜索式查询。比如「有哪些舒适日常运动鞋？」会变成 3-5 个：「最舒适的男士运动鞋」「日常走路鞋轻量」「2026 最舒适休闲运动鞋」。这些重写在不同模型之间差异很大，且对商家完全不透明。

研究：Jagerman et al.（Google, 2023）表明 LLM 查询扩展的方差跨模型非常大，而召回严重依赖扩展。两个模型拿到同一个用户 prompt，路由到的文档集合**经常不重叠**。

商家可干预的：

覆盖广度。别只为一种表述优化。在描述里出现多种语义角度：「sneaker」和「walking shoe」、「轻量」和「230 克」、「可持续」和「美丽诺羊毛」都要出现。
多个重写都测试。我们的 Query Coverage Map 每次扫描用 5 个不同的品类 query 跨 3 个 frontier 模型——目标不是赢一个 query，是在现实分布上都在。

阶段 2 — 检索（Retrieval）

重写后的 query 进入混合检索系统：稠密 embedding（来自训练数据）+ 稀疏关键词（类 BM25）+ 越来越多的实时 web 搜索调用。ChatGPT 的 web search 走 Bing；Claude 走 Brave；Perplexity 走自有索引；Gemini 走 Google。

研究：混合检索文献（BEIR benchmark、MS MARCO、MTEB embedding benchmark）表明纯稠密或纯稀疏都不如「混合栈 + reranker」。现代商业 agent 普遍收敛到这个结构。

商家可干预的：

传统 SEO 在这里仍然管用。Bing 排名 = ChatGPT 实时召回。Google 排名 = Gemini 召回。agent search 的检索阶段本质上是 bolt 在搜索引擎之上的，而搜索引擎是 SEO 已经在优化的对象。
训练语料里有你。放行 robots.txt 的 GPTBot 和 ClaudeBot，让你的页面进入稠密 embedding 索引。下游效应是长期的——决定你在用户冷启动问品类问题时，是不是连候选都不是。
Title-query 语义匹配。你的 <title> 和 h1 是稀疏索引第一个看的东西。塞进真实购物者会用的品类词。

阶段 3 — 重排（Reranking）

检索栈拉回 20-50 个候选。一个二级模型——通常是较小的 LLM-based reranker（Cohere Rerank、Voyage rerank、OpenAI 自有）——根据用户原始 prompt 给候选重新打分，选出 5-10 个塞进回答模型的 context。这个阶段对商家完全不可见，但杠杆极高。

研究：2024 年的 RAG reranking surveys 显示，reranker 打分权重 title-query 语义相似度、内容密度对 query 的相关性、域名权威性、时新性。长文档通常被切 chunk，**reranker 对 chunk 逐个打分**——这意味着「全页密度高」不等于「某个 chunk 密度高」。chunk 级密度才算数。

商家可干预的：

每个 chunk 都要密集。别把统计数字全堆在一段。reranker 打分 3 个 chunk 时，如果 2 个密 1 个稀，平均分会被拉低；3 个都均匀密集才会被排上去。
显式 last-updated 日期。时新性是已记录的 reranker 因子。我们加了一个 check：<time> 标签、JSON-LD 的 dateModified、或者可见的「Updated YYYY-MM-DD」一行，三选一就 pass。
信息密集的 title。「Men's Wool Runner」对人类够；但对一个在比对几十个走路鞋页面的 reranker，「Men's Wool Runner — 230 克、可机洗、ZQ 认证」比裸标题强得多。

阶段 4 — 答案合成（Answer synthesis）

5-10 个重排后的 chunk 被打包进回答模型的 context window。模型从 retrieved 材料里写出单一答案。这是位置偏置极其残酷的阶段。

研究：Liu et al.（Stanford, 2023）—— "Lost in the Middle" ——是奠基性结果。LLM 优先注意 context 开头和结尾，中间的 doc 实际上被忽略。**同一个事实放在第 1 位 vs 第 5 位（共 5 个），抽取率差 50% 以上。**而且模型自己不知道有这个偏置。

商家可干预的：

密度跨页面分布。把至少 2 个关键统计放进第一段，再至少 2 个放进末段。把所有东西埋在中间是 AEO 最常被忽略的反模式。我们新加了 positional-density check，专门 flag「所有数字堆在中间」的页面。
用结构化数据对冲位置偏置。JSON-LD 的抽取独立于 body 位置——模型把结构化字段当一等事实看。aggregateRating 在 JSON-LD 里就稳；只埋在页面中段的 testimonial 里就赌了。
关键事实多位置重复。品牌名、关键参数、关键 claim——开头说一次、结尾再说一次——这不是 keyword stuffing，是**位置偏置感知的冗余**。

阶段 5 — 引用生成（Citation generation）

合成模型决定引用哪些 retrieved 源。引用策略各不相同：Perplexity 几乎总引用；ChatGPT 在答案高度依赖 web 抓取时引用；Claude 在 web-search 是来源时引用。

研究：Liu et al.（2023） "Evaluating Verifiability in Generative Search Engines"——以及 Mallen et al. 的 follow-up——发现 LLM 强烈偏好引用那些**能从里面抽出干净 verbatim 段**的源。带「数字 + 评价动词 + 权威名」格式的句子（"rated 4.6/5 by 1,247 Wirecutter readers"）被引用率比等效 paraphrase 显著更高。

商家可干预的：

Citation-ready 句式。至少写一句：metric + 评价动词 + 命名权威源。"Tested by Outside magazine in their 2025 winter boot review" 行得通；"a popular pick among reviewers" 不行。我们加了一个 check 专门检测这个 pattern。
可引用性 > 单纯权威性。一个带干净 verbatim 引述的页面，引用率高于一个更权威域但没东西可抽的页面。关键 claim 用 <blockquote> 包，或者用 schema.org Review markup，让 LLM 能自信地抽。
每个 claim 配来源。裸数字弱于带命名来源的数字——哪怕那个来源是你自己的认证页面。

我们的打分如何映射到 pipeline

内容打分现在覆盖全部 5 阶段的杠杆。大致：

阶段 1（重写）：Query Coverage Map——5 query × 3 模型。
阶段 2（检索）：robots.txt allow 规则 + Product JSON-LD + 传统 title / description 覆盖。
阶段 3（重排）：positional density（新）+ recency 信号（新）+ title 长度 sweet spot + 结构化数据深度。
阶段 4（合成）：positional density（新）+ data signals + social proof + authority signals + 结构化数据。
阶段 5（引用）：citation-ready 句式（新）+ quotation density + external authority links。

这些杠杆没有孤立的。一个 citation-ready 句子埋在描述中段——位置偏置就把它输掉了。位置密度好但没 recency 信号——重排阶段就输了。审计的意义是看**联合分布**，不是任何单一信号。

哪些已成熟、哪些还在演进

2026 已经成熟的：

Lost-in-the-middle 位置偏置（Liu et al., 2023；多个实验室复现）。
对可 verbatim 引用源的偏好（Liu et al., 2023）。
混合检索作为主流 agent-search 架构（BEIR、MTEB benchmark）。
查询重写跨模型方差（Jagerman et al., 2023）。

还在演进的：

多步 agent planning（planner → executor → reviewer 循环）——对 commerce 表面的影响才刚开始。
购物时的 tool-use——一些 agent 直接调结构化商业端点（UCP）而不是读 HTML。
各模型 citation 策略的差异——公开数据还不完整。

新结果出来我们会更新本文。重新扫一次会自动应用新打分逻辑。

对你的店做全 5 阶段审计

免费、无账号。审计涵盖 query coverage、retrieval 信号、reranking 因子、位置感知密度、citation-ready 句式。

运行我的扫描 →