AI agent 到底怎么搜——以及商家在每一步能干预什么
现代 agent search 是个 5 阶段 pipeline:查询重写、检索、重排、答案合成、引用生成。2023-2026 的研究告诉我们每一步在哪里出错、商家在哪里能撬动。
「为 AI agent 优化」这句话掩盖了一个 5 阶段 pipeline。每个阶段跑的是不同的信号、用不同方式出错、奖励不同的商家工作。跳过 pipeline 视角,你会做一些动作——拉了一个阶段的分,同时偷偷砸坏另一个阶段。
下面是每个阶段已发表研究告诉我们的——以及商家在那一刻能用的杠杆。
阶段 1 — 查询重写(Query reformulation)
真正检索之前,agent 先把用户的 prompt 重写成几个搜索式查询。比如「有哪些舒适日常运动鞋?」会变成 3-5 个:「最舒适的男士运动鞋」「日常走路鞋 轻量」「2026 最舒适休闲运动鞋」。这些重写在不同模型之间差异很大,且对商家完全不透明。
研究:Jagerman et al.(Google, 2023)表明 LLM 查询扩展的方差跨模型非常大,而召回严重依赖扩展。两个模型拿到同一个用户 prompt,路由到的文档集合**经常不重叠**。
商家可干预的:
- 覆盖广度。别只为一种表述优化。在描述里出现多种语义角度:「sneaker」和「walking shoe」、「轻量」和「230 克」、「可持续」和「美丽诺羊毛」都要出现。
- 多个重写都测试。我们的 Query Coverage Map 每次扫描用 5 个不同的品类 query 跨 3 个 frontier 模型——目标不是赢一个 query,是在现实分布上都在。
阶段 2 — 检索(Retrieval)
重写后的 query 进入混合检索系统:稠密 embedding(来自训练数据)+ 稀疏关键词(类 BM25)+ 越来越多的实时 web 搜索调用。ChatGPT 的 web search 走 Bing;Claude 走 Brave;Perplexity 走自有索引;Gemini 走 Google。
研究:混合检索文献(BEIR benchmark、MS MARCO、MTEB embedding benchmark)表明纯稠密或纯稀疏都不如「混合栈 + reranker」。现代商业 agent 普遍收敛到这个结构。
商家可干预的:
- 传统 SEO 在这里仍然管用。Bing 排名 = ChatGPT 实时召回。Google 排名 = Gemini 召回。agent search 的检索阶段本质上是 bolt 在搜索引擎之上的,而搜索引擎是 SEO 已经在优化的对象。
- 训练语料里有你。放行 robots.txt 的 GPTBot 和 ClaudeBot,让你的页面进入稠密 embedding 索引。下游效应是长期的——决定你在用户冷启动问品类问题时,是不是连候选都不是。
- Title-query 语义匹配。你的
<title>和h1是稀疏索引第一个看的东西。塞进真实购物者会用的品类词。
阶段 3 — 重排(Reranking)
检索栈拉回 20-50 个候选。一个二级模型——通常是较小的 LLM-based reranker(Cohere Rerank、Voyage rerank、OpenAI 自有)——根据用户原始 prompt 给候选重新打分,选出 5-10 个塞进回答模型的 context。这个阶段对商家完全不可见,但杠杆极高。
研究:2024 年的 RAG reranking surveys 显示,reranker 打分权重 title-query 语义相似度、内容密度对 query 的相关性、域名权威性、时新性。长文档通常被切 chunk,**reranker 对 chunk 逐个打分**——这意味着「全页密度高」不等于「某个 chunk 密度高」。chunk 级密度才算数。
商家可干预的:
- 每个 chunk 都要密集。别把统计数字全堆在一段。reranker 打分 3 个 chunk 时,如果 2 个密 1 个稀,平均分会被拉低;3 个都均匀密集才会被排上去。
- 显式 last-updated 日期。时新性是已记录的 reranker 因子。我们加了一个 check:
<time>标签、JSON-LD 的dateModified、或者可见的「Updated YYYY-MM-DD」一行,三选一就 pass。 - 信息密集的 title。「Men's Wool Runner」对人类够;但对一个在比对几十个走路鞋页面的 reranker,「Men's Wool Runner — 230 克、可机洗、ZQ 认证」比裸标题强得多。
阶段 4 — 答案合成(Answer synthesis)
5-10 个重排后的 chunk 被打包进回答模型的 context window。模型从 retrieved 材料里写出单一答案。这是位置偏置极其残酷的阶段。
研究:Liu et al.(Stanford, 2023)—— "Lost in the Middle" ——是奠基性结果。LLM 优先注意 context 开头和结尾,中间的 doc 实际上被忽略。**同一个事实放在第 1 位 vs 第 5 位(共 5 个),抽取率差 50% 以上。**而且模型自己不知道有这个偏置。
商家可干预的:
- 密度跨页面分布。把至少 2 个关键统计放进第一段,再至少 2 个放进末段。把所有东西埋在中间是 AEO 最常被忽略的反模式。我们新加了 positional-density check,专门 flag「所有数字堆在中间」的页面。
- 用结构化数据对冲位置偏置。JSON-LD 的抽取独立于 body 位置——模型把结构化字段当一等事实看。aggregateRating 在 JSON-LD 里就稳;只埋在页面中段的 testimonial 里就赌了。
- 关键事实多位置重复。品牌名、关键参数、关键 claim——开头说一次、结尾再说一次——这不是 keyword stuffing,是**位置偏置感知的冗余**。
阶段 5 — 引用生成(Citation generation)
合成模型决定引用哪些 retrieved 源。引用策略各不相同:Perplexity 几乎总引用;ChatGPT 在答案高度依赖 web 抓取时引用;Claude 在 web-search 是来源时引用。
研究:Liu et al.(2023) "Evaluating Verifiability in Generative Search Engines"——以及 Mallen et al. 的 follow-up——发现 LLM 强烈偏好引用那些**能从里面抽出干净 verbatim 段**的源。带「数字 + 评价动词 + 权威名」格式的句子("rated 4.6/5 by 1,247 Wirecutter readers")被引用率比等效 paraphrase 显著更高。
商家可干预的:
- Citation-ready 句式。至少写一句:metric + 评价动词 + 命名权威源。"Tested by Outside magazine in their 2025 winter boot review" 行得通;"a popular pick among reviewers" 不行。我们加了一个 check 专门检测这个 pattern。
- 可引用性 > 单纯权威性。一个带干净 verbatim 引述的页面,引用率高于一个更权威域但没东西可抽的页面。关键 claim 用
<blockquote>包,或者用 schema.org Review markup,让 LLM 能自信地抽。 - 每个 claim 配来源。裸数字弱于带命名来源的数字——哪怕那个来源是你自己的认证页面。
我们的打分如何映射到 pipeline
内容打分现在覆盖全部 5 阶段的杠杆。大致:
- 阶段 1(重写):Query Coverage Map——5 query × 3 模型。
- 阶段 2(检索):robots.txt allow 规则 + Product JSON-LD + 传统 title / description 覆盖。
- 阶段 3(重排):positional density(新)+ recency 信号(新)+ title 长度 sweet spot + 结构化数据深度。
- 阶段 4(合成):positional density(新)+ data signals + social proof + authority signals + 结构化数据。
- 阶段 5(引用):citation-ready 句式(新)+ quotation density + external authority links。
这些杠杆没有孤立的。一个 citation-ready 句子埋在描述中段——位置偏置就把它输掉了。位置密度好但没 recency 信号——重排阶段就输了。审计的意义是看**联合分布**,不是任何单一信号。
哪些已成熟、哪些还在演进
2026 已经成熟的:
- Lost-in-the-middle 位置偏置(Liu et al., 2023;多个实验室复现)。
- 对可 verbatim 引用源的偏好(Liu et al., 2023)。
- 混合检索作为主流 agent-search 架构(BEIR、MTEB benchmark)。
- 查询重写跨模型方差(Jagerman et al., 2023)。
还在演进的:
- 多步 agent planning(planner → executor → reviewer 循环)——对 commerce 表面的影响才刚开始。
- 购物时的 tool-use——一些 agent 直接调结构化商业端点(UCP)而不是读 HTML。
- 各模型 citation 策略的差异——公开数据还不完整。
新结果出来我们会更新本文。重新扫一次会自动应用新打分逻辑。
对你的店做全 5 阶段审计
免费、无账号。审计涵盖 query coverage、retrieval 信号、reranking 因子、位置感知密度、citation-ready 句式。
运行我的扫描 →