<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AI架构 on 文艺技术笔记</title>
        <link>https://wenyiblog.top/categories/ai%E6%9E%B6%E6%9E%84/</link>
        <description>Recent content in AI架构 on 文艺技术笔记</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <copyright>文艺技术笔记 | 软件工程师文艺</copyright>
        <lastBuildDate>Fri, 26 Jun 2026 14:00:00 +0800</lastBuildDate><atom:link href="https://wenyiblog.top/categories/ai%E6%9E%B6%E6%9E%84/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Agentic RAG 架构设计：从静态检索到动态推理的演进路径</title>
        <link>https://wenyiblog.top/2026/06/agentic-rag-architecture/</link>
        <pubDate>Fri, 26 Jun 2026 14:00:00 +0800</pubDate>
        
        <guid>https://wenyiblog.top/2026/06/agentic-rag-architecture/</guid>
        <description>&lt;h2 id=&#34;当-rag-不再只是查了再说&#34;&gt;&lt;a href=&#34;#%e5%bd%93-rag-%e4%b8%8d%e5%86%8d%e5%8f%aa%e6%98%af%e6%9f%a5%e4%ba%86%e5%86%8d%e8%af%b4&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;当 RAG 不再只是&amp;quot;查了再说&amp;quot;
&lt;/h2&gt;&lt;p&gt;过去两年，检索增强生成（RAG）几乎成了大模型落地的标配。企业知识库问答、智能客服、文档摘要——几乎所有需要&amp;quot;让模型知道一些它训练时没见过的新东西&amp;quot;的场景，都会先搭一个 RAG 管道。&lt;/p&gt;
&lt;p&gt;但随着应用深入，一个尴尬的事实浮出水面：&lt;strong&gt;传统 RAG 太&amp;quot;直&amp;quot;了。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;用户问一句，系统去向量库里捞几段文本，拼到 Prompt 里让模型生成回答。整个流程像一条流水线——检索一次，生成一次，没有回头路。遇到复杂问题，这种&amp;quot;一锤子买卖&amp;quot;往往答非所问。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;有句话说，工具的价值不在于它有多复杂，而在于它能不能解决真正的问题。传统 RAG 解决的是&amp;quot;模型不知道&amp;quot;的问题，但它解决不了&amp;quot;模型想不清楚&amp;quot;的问题。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这就是 Agentic RAG 出现的背景。它不是对 RAG 的简单升级，而是一种范式转变：&lt;strong&gt;把 RAG 从一个固定的管道，变成一个能自主决策、动态规划的智能体系统。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;本文将拆解这一演进路径，从架构对比到技术选型，再到一个可以真正跑起来的系统设计，带你走完从静态检索到动态推理的全过程。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;传统-rag一条走不通的直线&#34;&gt;&lt;a href=&#34;#%e4%bc%a0%e7%bb%9f-rag%e4%b8%80%e6%9d%a1%e8%b5%b0%e4%b8%8d%e9%80%9a%e7%9a%84%e7%9b%b4%e7%ba%bf&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;传统 RAG：一条走不通的直线
&lt;/h2&gt;&lt;h3 id=&#34;基本流程回顾&#34;&gt;&lt;a href=&#34;#%e5%9f%ba%e6%9c%ac%e6%b5%81%e7%a8%8b%e5%9b%9e%e9%a1%be&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;基本流程回顾
&lt;/h3&gt;&lt;p&gt;传统 RAG 的架构非常清晰，三步走：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;索引阶段&lt;/strong&gt;：将文档切片，通过 Embedding 模型转为向量，存入向量数据库。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;检索阶段&lt;/strong&gt;：用户提问后，将问题也转为向量，在数据库中做相似度匹配，返回 Top-K 个文本片段。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;生成阶段&lt;/strong&gt;：将检索到的片段拼入 Prompt，交给大语言模型生成最终回答。&lt;/li&gt;
&lt;/ol&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;用户提问 → 向量化 → 向量数据库检索 → Top-K 文本 → 拼接 Prompt → LLM 生成回答
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这个流程简洁、可控、工程实现成本低，在简单问答场景下效果不错。&lt;/p&gt;
&lt;h3 id=&#34;三个致命短板&#34;&gt;&lt;a href=&#34;#%e4%b8%89%e4%b8%aa%e8%87%b4%e5%91%bd%e7%9f%ad%e6%9d%bf&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;三个致命短板
&lt;/h3&gt;&lt;p&gt;但一旦问题变复杂，传统 RAG 就会暴露出结构性缺陷：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一，检索是一次性的，没有纠错能力。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;用户问&amp;quot;公司 A 和公司 B 在 2024 年的市场份额对比&amp;quot;，系统可能只检索到公司 A 的数据，公司 B 的信息被遗漏。因为没有&amp;quot;回头再查&amp;quot;的机制，模型只能基于不完整的信息硬编答案。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二，没有推理规划能力。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;面对一个需要多步分析的问题，比如&amp;quot;分析这份合同的违约风险并给出修改建议&amp;quot;，传统 RAG 无法判断需要先查合同条款、再查相关法律法规、最后交叉比对。它只能把所有检索到的内容一股脑丢给模型，期待模型自己理清逻辑。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第三，对工具的使用为零。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;传统 RAG 只会&amp;quot;查向量库&amp;quot;这一件事。但真实场景中，很多问题需要查数据库、调 API、做计算、访问外部系统。纯靠文本检索远远不够。&lt;/p&gt;
&lt;table&gt;
	&lt;thead&gt;
			&lt;tr&gt;
					&lt;th&gt;维度&lt;/th&gt;
					&lt;th&gt;传统 RAG&lt;/th&gt;
					&lt;th&gt;理想状态&lt;/th&gt;
			&lt;/tr&gt;
	&lt;/thead&gt;
	&lt;tbody&gt;
			&lt;tr&gt;
					&lt;td&gt;检索次数&lt;/td&gt;
					&lt;td&gt;一次&lt;/td&gt;
					&lt;td&gt;按需多次&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;检索策略&lt;/td&gt;
					&lt;td&gt;固定 Top-K&lt;/td&gt;
					&lt;td&gt;动态调整&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;推理能力&lt;/td&gt;
					&lt;td&gt;无&lt;/td&gt;
					&lt;td&gt;多步推理&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;工具使用&lt;/td&gt;
					&lt;td&gt;仅向量检索&lt;/td&gt;
					&lt;td&gt;多种工具&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;错误修正&lt;/td&gt;
					&lt;td&gt;无&lt;/td&gt;
					&lt;td&gt;自我反思+重试&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;上下文管理&lt;/td&gt;
					&lt;td&gt;简单拼接&lt;/td&gt;
					&lt;td&gt;智能筛选&lt;/td&gt;
			&lt;/tr&gt;
	&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;agentic-rag让系统学会想一想再动手&#34;&gt;&lt;a href=&#34;#agentic-rag%e8%ae%a9%e7%b3%bb%e7%bb%9f%e5%ad%a6%e4%bc%9a%e6%83%b3%e4%b8%80%e6%83%b3%e5%86%8d%e5%8a%a8%e6%89%8b&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;Agentic RAG：让系统学会&amp;quot;想一想再动手&amp;quot;
&lt;/h2&gt;&lt;h3 id=&#34;核心理念&#34;&gt;&lt;a href=&#34;#%e6%a0%b8%e5%bf%83%e7%90%86%e5%bf%b5&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;核心理念
&lt;/h3&gt;&lt;p&gt;Agentic RAG 的本质，是给 RAG 系统装上一个&amp;quot;大脑&amp;quot;——一个具备规划、推理、反思和工具调用能力的智能体（Agent）。&lt;/p&gt;
&lt;p&gt;这个智能体不再被动地执行固定流程，而是主动地：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;分析用户意图&lt;/strong&gt;：理解问题的真实需求，判断需要什么信息。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;制定检索计划&lt;/strong&gt;：决定从哪里查、查什么、查几次。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;调用多种工具&lt;/strong&gt;：向量检索只是工具之一，还可以调用搜索引擎、数据库、计算器、代码执行器等。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;评估中间结果&lt;/strong&gt;：检查已获取的信息是否足够、是否准确，不够就再查。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;综合推理生成&lt;/strong&gt;：基于多轮收集的信息，进行逻辑推理后生成最终回答。&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;如果传统 RAG 是一个&amp;quot;查字典的翻译&amp;quot;，那 Agentic RAG 就是一个&amp;quot;会上网、会打电话、会反复确认的研究员&amp;quot;。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3 id=&#34;架构分层&#34;&gt;&lt;a href=&#34;#%e6%9e%b6%e6%9e%84%e5%88%86%e5%b1%82&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;架构分层
&lt;/h3&gt;&lt;p&gt;一个完整的 Agentic RAG 系统可以分为四层：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;感知层&lt;/strong&gt;：接收用户输入，进行意图识别和问题分析。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;规划层&lt;/strong&gt;：基于问题分析结果，制定执行计划。这一层通常由大模型充当&amp;quot;指挥官&amp;quot;，决定下一步该做什么。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;执行层&lt;/strong&gt;：实际调用各种工具完成信息获取和处理。每个工具是一个独立的模块，负责特定类型的操作。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;反思层&lt;/strong&gt;：对执行结果进行质量评估，判断是否需要补充检索或调整策略。&lt;/p&gt;
&lt;p&gt;这四层不是线性执行的，而是一个可以循环迭代的闭环。规划层可以随时调整计划，反思层可以触发新一轮的执行。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;传统-rag-vs-agentic-rag全维度对比&#34;&gt;&lt;a href=&#34;#%e4%bc%a0%e7%bb%9f-rag-vs-agentic-rag%e5%85%a8%e7%bb%b4%e5%ba%a6%e5%af%b9%e6%af%94&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;传统 RAG vs Agentic RAG：全维度对比
&lt;/h2&gt;&lt;p&gt;为了更清晰地理解两者的差异，我们从多个维度做详细对比：&lt;/p&gt;
&lt;table&gt;
	&lt;thead&gt;
			&lt;tr&gt;
					&lt;th&gt;对比维度&lt;/th&gt;
					&lt;th&gt;传统 RAG&lt;/th&gt;
					&lt;th&gt;Agentic RAG&lt;/th&gt;
			&lt;/tr&gt;
	&lt;/thead&gt;
	&lt;tbody&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;架构模式&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;线性管道&lt;/td&gt;
					&lt;td&gt;有向图 + 循环&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;决策方式&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;预设规则&lt;/td&gt;
					&lt;td&gt;模型自主决策&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;检索策略&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;单一向量相似度&lt;/td&gt;
					&lt;td&gt;混合检索 + 动态路由&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;查询改写&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;无或简单改写&lt;/td&gt;
					&lt;td&gt;多策略查询扩展&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;多步推理&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;不支持&lt;/td&gt;
					&lt;td&gt;支持链式推理&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;工具生态&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;仅向量库&lt;/td&gt;
					&lt;td&gt;多工具编排&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;上下文窗口管理&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;被动填充&lt;/td&gt;
					&lt;td&gt;主动筛选压缩&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;错误处理&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;忽略&lt;/td&gt;
					&lt;td&gt;自动重试 + 降级&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;响应延迟&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;低（单次调用）&lt;/td&gt;
					&lt;td&gt;较高（多轮迭代）&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;工程复杂度&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;低&lt;/td&gt;
					&lt;td&gt;高&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;适用场景&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;简单问答&lt;/td&gt;
					&lt;td&gt;复杂分析&lt;/td&gt;
			&lt;/tr&gt;
	&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;一个直观的类比&#34;&gt;&lt;a href=&#34;#%e4%b8%80%e4%b8%aa%e7%9b%b4%e8%a7%82%e7%9a%84%e7%b1%bb%e6%af%94&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;一个直观的类比
&lt;/h3&gt;&lt;p&gt;传统 RAG 像快餐店的标准化流程：你点单，厨房按配方出餐，端上来就完事。不管你要的是汉堡还是满汉全席，流程一样。&lt;/p&gt;
&lt;p&gt;Agentic RAG 像一位经验丰富的主厨：先看你的需求，想想需要什么食材（检索计划），去不同的供应商那里采购（多工具调用），边做边尝（反思评估），最后端出一道完整的菜品。&lt;/p&gt;
&lt;p&gt;显然，后者的成本高、速度慢，但能解决的问题范围大了不止一个量级。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;动态规划agentic-rag-的大脑&#34;&gt;&lt;a href=&#34;#%e5%8a%a8%e6%80%81%e8%a7%84%e5%88%92agentic-rag-%e7%9a%84%e5%a4%a7%e8%84%91&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;动态规划：Agentic RAG 的&amp;quot;大脑&amp;quot;
&lt;/h2&gt;&lt;h3 id=&#34;任务分解&#34;&gt;&lt;a href=&#34;#%e4%bb%bb%e5%8a%a1%e5%88%86%e8%a7%a3&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;任务分解
&lt;/h3&gt;&lt;p&gt;动态规划的第一步是&lt;strong&gt;任务分解&lt;/strong&gt;。当用户提出一个复杂问题时，Agent 需要将其拆解为若干子任务。&lt;/p&gt;
&lt;p&gt;例如用户问：&amp;ldquo;帮我分析一下我们 Q3 销售报告中增长最快的产品线，并和竞品做对比。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;Agent 的分析过程可能是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先检索 Q3 销售报告，定位增长最快的产品线&lt;/li&gt;
&lt;li&gt;获取该产品线的详细销售数据&lt;/li&gt;
&lt;li&gt;检索竞品相关信息&lt;/li&gt;
&lt;li&gt;整合数据，进行对比分析&lt;/li&gt;
&lt;li&gt;生成结论和建议&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;每一步的输出可能影响下一步的决策。如果第一步发现报告中有多个产品线增速接近，Agent 可能需要先确认用户关心的是哪个维度。&lt;/p&gt;
&lt;h3 id=&#34;执行图构建&#34;&gt;&lt;a href=&#34;#%e6%89%a7%e8%a1%8c%e5%9b%be%e6%9e%84%e5%bb%ba&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;执行图构建
&lt;/h3&gt;&lt;p&gt;任务分解的结果不是简单的线性列表，而是一个&lt;strong&gt;有向无环图（DAG）&lt;/strong&gt; 或更复杂的执行图。有些子任务可以并行执行，有些必须等待前置任务完成。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;         [分析用户意图]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;              |
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      ┌───────┴───────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      ▼               ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;[检索内部报告]   [搜索竞品信息]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      │               │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      └───────┬───────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;              ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        [数据整合]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;              │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;              ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        [对比分析]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;              │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;              ▼
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        [生成报告]
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;动态调整&#34;&gt;&lt;a href=&#34;#%e5%8a%a8%e6%80%81%e8%b0%83%e6%95%b4&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;动态调整
&lt;/h3&gt;&lt;p&gt;执行过程中，Agent 可以根据中间结果动态调整计划。这是与传统 RAG 最大的区别之一。&lt;/p&gt;
&lt;p&gt;假设在检索竞品信息时，Agent 发现某个竞品的公开数据非常少。它可以：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;扩大搜索范围，尝试更多数据源&lt;/li&gt;
&lt;li&gt;降低该竞品在最终对比中的权重&lt;/li&gt;
&lt;li&gt;明确告知用户该竞品数据不足，仅做部分对比&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这种灵活性是固定管道无法实现的。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;多步推理从拼答案到想答案&#34;&gt;&lt;a href=&#34;#%e5%a4%9a%e6%ad%a5%e6%8e%a8%e7%90%86%e4%bb%8e%e6%8b%bc%e7%ad%94%e6%a1%88%e5%88%b0%e6%83%b3%e7%ad%94%e6%a1%88&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;多步推理：从&amp;quot;拼答案&amp;quot;到&amp;quot;想答案&amp;quot;
&lt;/h2&gt;&lt;h3 id=&#34;思维链在-rag-中的应用&#34;&gt;&lt;a href=&#34;#%e6%80%9d%e7%bb%b4%e9%93%be%e5%9c%a8-rag-%e4%b8%ad%e7%9a%84%e5%ba%94%e7%94%a8&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;思维链在 RAG 中的应用
&lt;/h3&gt;&lt;p&gt;多步推理的核心技术是&lt;strong&gt;思维链（Chain of Thought）&lt;/strong&gt;。在 Agentic RAG 中，大模型不只是生成最终答案，而是先输出推理过程，再基于推理结果决定下一步行动。&lt;/p&gt;
&lt;p&gt;典型的推理链可能长这样：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;8
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;思考：用户想知道合同中的违约条款是否合理。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;推理：我需要先找到合同中的违约条款，然后查找相关法律规定，最后进行比对。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;行动：检索合同文档中的违约条款部分。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;结果：找到第 12.3 条，规定违约金为合同金额的 30%。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;思考：30% 的违约金是否合法？需要查阅《民法典》相关规定。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;行动：检索法律法规数据库。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;结果：根据相关司法解释，违约金一般不超过实际损失的 130%。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;思考：需要确认是否有实际损失的数据...
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;推理深度控制&#34;&gt;&lt;a href=&#34;#%e6%8e%a8%e7%90%86%e6%b7%b1%e5%ba%a6%e6%8e%a7%e5%88%b6&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;推理深度控制
&lt;/h3&gt;&lt;p&gt;多步推理的一个关键挑战是&lt;strong&gt;深度控制&lt;/strong&gt;。推理链条太长会导致延迟增加和成本上升，太短则可能分析不够充分。&lt;/p&gt;
&lt;p&gt;实践中常见的策略包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;预算机制&lt;/strong&gt;：设定最大推理步数（如 5 步），超出后强制收敛。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;信息饱和度判断&lt;/strong&gt;：当 Agent 评估已获取信息足够回答时，提前终止推理。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;超时降级&lt;/strong&gt;：如果推理时间超过阈值，基于已有信息生成&amp;quot;最佳近似回答&amp;quot;并标注置信度。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id=&#34;工具调用让-rag-长出手脚&#34;&gt;&lt;a href=&#34;#%e5%b7%a5%e5%85%b7%e8%b0%83%e7%94%a8%e8%ae%a9-rag-%e9%95%bf%e5%87%ba%e6%89%8b%e8%84%9a&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;工具调用：让 RAG 长出&amp;quot;手脚&amp;quot;
&lt;/h2&gt;&lt;h3 id=&#34;工具生态设计&#34;&gt;&lt;a href=&#34;#%e5%b7%a5%e5%85%b7%e7%94%9f%e6%80%81%e8%ae%be%e8%ae%a1&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;工具生态设计
&lt;/h3&gt;&lt;p&gt;在 Agentic RAG 中，向量检索只是众多工具之一。一个成熟的系统通常会接入以下工具：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;信息检索类&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;向量数据库检索（语义匹配）&lt;/li&gt;
&lt;li&gt;关键词搜索引擎（精确匹配）&lt;/li&gt;
&lt;li&gt;结构化数据库查询（SQL）&lt;/li&gt;
&lt;li&gt;外部 API 调用（实时数据）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;信息处理类&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;代码执行器（数值计算、数据处理）&lt;/li&gt;
&lt;li&gt;表格解析器（结构化数据提取）&lt;/li&gt;
&lt;li&gt;图像理解器（图表解读）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;信息生成类&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;摘要生成器（长文本压缩）&lt;/li&gt;
&lt;li&gt;对比分析器（多维度比对）&lt;/li&gt;
&lt;li&gt;可视化生成器（图表输出）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;工具选择机制&#34;&gt;&lt;a href=&#34;#%e5%b7%a5%e5%85%b7%e9%80%89%e6%8b%a9%e6%9c%ba%e5%88%b6&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;工具选择机制
&lt;/h3&gt;&lt;p&gt;Agent 需要决定何时使用哪个工具。这通常通过&lt;strong&gt;工具描述 + 模型决策&lt;/strong&gt;的方式实现。&lt;/p&gt;
&lt;p&gt;每个工具都有结构化的描述信息，包括：名称、功能说明、输入参数、输出格式、适用场景。Agent 在规划阶段根据当前任务需求和各工具的描述，选择最合适的工具。&lt;/p&gt;
&lt;p&gt;一个工具描述的示例：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-yaml&#34; data-lang=&#34;yaml&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nt&#34;&gt;name&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;sql_query&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nt&#34;&gt;description&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;在结构化数据库中执行 SQL 查询，适用于需要精确数值、日期筛选、聚合计算的场景&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nt&#34;&gt;parameters&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;w&#34;&gt;  &lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;query&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;标准 SQL 语句&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;w&#34;&gt;  &lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;database&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;目标数据库名称&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nt&#34;&gt;returns&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;查询结果表格&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nt&#34;&gt;limitations&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;&lt;span class=&#34;w&#34;&gt; &lt;/span&gt;&lt;span class=&#34;l&#34;&gt;仅支持 SELECT 语句，不支持数据修改操作&lt;/span&gt;&lt;span class=&#34;w&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;工具编排模式&#34;&gt;&lt;a href=&#34;#%e5%b7%a5%e5%85%b7%e7%bc%96%e6%8e%92%e6%a8%a1%e5%bc%8f&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;工具编排模式
&lt;/h3&gt;&lt;p&gt;工具调用不是简单的串行执行，常见的编排模式有三种：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;顺序编排&lt;/strong&gt;：工具 A 的输出作为工具 B 的输入，形成处理链。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;并行编排&lt;/strong&gt;：多个工具同时调用，结果汇总后统一处理。适合相互独立的子任务。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;条件编排&lt;/strong&gt;：根据工具 A 的输出结果，动态决定调用工具 B 还是工具 C。这是最灵活也最复杂的模式。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;向量数据库选型agentic-rag-的基石&#34;&gt;&lt;a href=&#34;#%e5%90%91%e9%87%8f%e6%95%b0%e6%8d%ae%e5%ba%93%e9%80%89%e5%9e%8bagentic-rag-%e7%9a%84%e5%9f%ba%e7%9f%b3&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;向量数据库选型：Agentic RAG 的基石
&lt;/h2&gt;&lt;p&gt;虽然 Agentic RAG 的能力远超传统 RAG，但向量检索仍然是最核心的信息获取手段。向量数据库的选型直接影响系统的检索质量和响应速度。&lt;/p&gt;
&lt;h3 id=&#34;主流向量数据库对比&#34;&gt;&lt;a href=&#34;#%e4%b8%bb%e6%b5%81%e5%90%91%e9%87%8f%e6%95%b0%e6%8d%ae%e5%ba%93%e5%af%b9%e6%af%94&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;主流向量数据库对比
&lt;/h3&gt;&lt;table&gt;
	&lt;thead&gt;
			&lt;tr&gt;
					&lt;th&gt;数据库&lt;/th&gt;
					&lt;th&gt;部署方式&lt;/th&gt;
					&lt;th&gt;索引算法&lt;/th&gt;
					&lt;th&gt;最大数据量&lt;/th&gt;
					&lt;th&gt;混合检索&lt;/th&gt;
					&lt;th&gt;适用场景&lt;/th&gt;
			&lt;/tr&gt;
	&lt;/thead&gt;
	&lt;tbody&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;Milvus&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;分布式/单机&lt;/td&gt;
					&lt;td&gt;HNSW/IVF/DiskANN&lt;/td&gt;
					&lt;td&gt;十亿级&lt;/td&gt;
					&lt;td&gt;支持&lt;/td&gt;
					&lt;td&gt;大规模生产环境&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;Pinecone&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;全托管云服务&lt;/td&gt;
					&lt;td&gt;自研&lt;/td&gt;
					&lt;td&gt;十亿级&lt;/td&gt;
					&lt;td&gt;支持&lt;/td&gt;
					&lt;td&gt;快速上线/免运维&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;Weaviate&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;单机/集群&lt;/td&gt;
					&lt;td&gt;HNSW&lt;/td&gt;
					&lt;td&gt;亿级&lt;/td&gt;
					&lt;td&gt;原生支持&lt;/td&gt;
					&lt;td&gt;多模态检索&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;Qdrant&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;单机/分布式&lt;/td&gt;
					&lt;td&gt;HNSW&lt;/td&gt;
					&lt;td&gt;亿级&lt;/td&gt;
					&lt;td&gt;支持&lt;/td&gt;
					&lt;td&gt;Rust 高性能场景&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;Chroma&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;嵌入式/单机&lt;/td&gt;
					&lt;td&gt;HNSW&lt;/td&gt;
					&lt;td&gt;百万级&lt;/td&gt;
					&lt;td&gt;基础支持&lt;/td&gt;
					&lt;td&gt;原型验证/小规模&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;&lt;strong&gt;pgvector&lt;/strong&gt;&lt;/td&gt;
					&lt;td&gt;PostgreSQL 扩展&lt;/td&gt;
					&lt;td&gt;IVFFlat/HNSW&lt;/td&gt;
					&lt;td&gt;千万级&lt;/td&gt;
					&lt;td&gt;SQL 联合&lt;/td&gt;
					&lt;td&gt;已有 PG 的团队&lt;/td&gt;
			&lt;/tr&gt;
	&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;选型决策树&#34;&gt;&lt;a href=&#34;#%e9%80%89%e5%9e%8b%e5%86%b3%e7%ad%96%e6%a0%91&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;选型决策树
&lt;/h3&gt;&lt;p&gt;在实际项目中，向量数据库的选型不应只看性能跑分，而要结合团队现状和业务需求：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;团队小、想快速验证&lt;/strong&gt; → Chroma 或 Pinecone，零运维成本&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;已有 PostgreSQL 基础设施&lt;/strong&gt; → pgvector，减少引入新组件&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据量在千万级以上，需要高可用&lt;/strong&gt; → Milvus 或 Qdrant&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;需要多模态检索（图文混合）&lt;/strong&gt; → Weaviate&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;不想管基础设施，预算充足&lt;/strong&gt; → Pinecone 或各云厂商托管服务&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;混合检索agentic-rag-的标配&#34;&gt;&lt;a href=&#34;#%e6%b7%b7%e5%90%88%e6%a3%80%e7%b4%a2agentic-rag-%e7%9a%84%e6%a0%87%e9%85%8d&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;混合检索：Agentic RAG 的标配
&lt;/h3&gt;&lt;p&gt;纯向量检索在 Agentic RAG 中已经不够用了。&lt;strong&gt;混合检索（Hybrid Search）&lt;/strong&gt; 结合了向量语义匹配和关键词精确匹配的优势，是当前最佳实践。&lt;/p&gt;
&lt;p&gt;混合检索的典型策略：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;并行检索&lt;/strong&gt;：同一查询同时走向量检索和 BM25 关键词检索&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;结果融合&lt;/strong&gt;：使用 RRF（Reciprocal Rank Fusion）等算法合并两路结果&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;重排序&lt;/strong&gt;：用 Cross-Encoder 对融合后的结果做精排&lt;/li&gt;
&lt;/ol&gt;
&lt;blockquote&gt;
&lt;p&gt;在实测中，混合检索相比纯向量检索，在复杂查询场景下的召回率通常能提升 15%-30%，这在 Agentic RAG 的多轮检索中会被进一步放大。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id=&#34;动态化-rag-技术让检索活起来&#34;&gt;&lt;a href=&#34;#%e5%8a%a8%e6%80%81%e5%8c%96-rag-%e6%8a%80%e6%9c%af%e8%ae%a9%e6%a3%80%e7%b4%a2%e6%b4%bb%e8%b5%b7%e6%9d%a5&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;动态化 RAG 技术：让检索&amp;quot;活&amp;quot;起来
&lt;/h2&gt;&lt;h3 id=&#34;查询改写与扩展&#34;&gt;&lt;a href=&#34;#%e6%9f%a5%e8%af%a2%e6%94%b9%e5%86%99%e4%b8%8e%e6%89%a9%e5%b1%95&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;查询改写与扩展
&lt;/h3&gt;&lt;p&gt;用户输入的原始查询往往不是最优的检索语句。Agentic RAG 会在检索前对查询进行智能改写：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;子查询分解&lt;/strong&gt;：将一个复杂问题拆成多个简单子查询，分别检索后合并。&lt;/p&gt;
&lt;p&gt;例如：&amp;ldquo;特斯拉和比亚迪 2025 年 Q1 销量对比&amp;quot;会被拆为：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&amp;ldquo;特斯拉 2025 年第一季度销量数据&amp;rdquo;&lt;/li&gt;
&lt;li&gt;&amp;ldquo;比亚迪 2025 年第一季度销量数据&amp;rdquo;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;查询扩展&lt;/strong&gt;：基于原始查询生成语义相近但措辞不同的变体，扩大检索覆盖面。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;假设文档嵌入（HyDE）&lt;/strong&gt;：先让模型生成一个&amp;quot;假设性答案&amp;rdquo;，用这个答案去做向量检索，而不是用原始问题。因为答案和文档的语义空间更接近，检索效果往往更好。&lt;/p&gt;
&lt;h3 id=&#34;自适应检索策略&#34;&gt;&lt;a href=&#34;#%e8%87%aa%e9%80%82%e5%ba%94%e6%a3%80%e7%b4%a2%e7%ad%96%e7%95%a5&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;自适应检索策略
&lt;/h3&gt;&lt;p&gt;传统 RAG 的 Top-K 是固定的，不管问题简单还是复杂，都返回同样数量的文档片段。Agentic RAG 采用自适应策略：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;动态 K 值&lt;/strong&gt;：根据问题复杂度自动调整返回数量。简单事实查询可能只需要 2-3 个片段，复杂分析可能需要 10-15 个。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;迭代检索&lt;/strong&gt;：第一轮检索后，Agent 评估结果质量。如果信息不足或存在矛盾，自动发起第二轮检索，可能调整检索策略（换关键词、扩大范围等）。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;检索质量门控&lt;/strong&gt;：设置相似度阈值，低于阈值的检索结果被丢弃，避免噪声信息干扰模型生成。&lt;/p&gt;
&lt;h3 id=&#34;上下文窗口管理&#34;&gt;&lt;a href=&#34;#%e4%b8%8a%e4%b8%8b%e6%96%87%e7%aa%97%e5%8f%a3%e7%ae%a1%e7%90%86&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;上下文窗口管理
&lt;/h3&gt;&lt;p&gt;大模型的上下文窗口是有限的。当 Agentic RAG 通过多轮检索积累了大量信息后，如何高效利用有限的窗口成为关键问题。&lt;/p&gt;
&lt;p&gt;常见策略包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;信息压缩&lt;/strong&gt;：对检索到的长文本做摘要，保留关键信息&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;相关性排序&lt;/strong&gt;：按与当前问题的相关度排序，优先保留高相关内容&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;分层存储&lt;/strong&gt;：将信息分为&amp;quot;核心证据&amp;quot;和&amp;quot;补充材料&amp;quot;，核心证据全文保留，补充材料只保留摘要&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;滑动窗口&lt;/strong&gt;：在多轮对话中，逐步淘汰与当前话题相关性最低的上下文&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id=&#34;可落地的-agentic-rag-系统架构&#34;&gt;&lt;a href=&#34;#%e5%8f%af%e8%90%bd%e5%9c%b0%e7%9a%84-agentic-rag-%e7%b3%bb%e7%bb%9f%e6%9e%b6%e6%9e%84&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;可落地的 Agentic RAG 系统架构
&lt;/h2&gt;&lt;p&gt;综合以上技术要素，下面给出一个面向生产环境的 Agentic RAG 系统架构设计。&lt;/p&gt;
&lt;h3 id=&#34;整体架构图&#34;&gt;&lt;a href=&#34;#%e6%95%b4%e4%bd%93%e6%9e%b6%e6%9e%84%e5%9b%be&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;整体架构图
&lt;/h3&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;20
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;21
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;22
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;23
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;24
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;25
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;26
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;27
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;28
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;29
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;30
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;31
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-fallback&#34; data-lang=&#34;fallback&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;┌─────────────────────────────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│                      用户接口层                          │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│              (API Gateway / WebSocket)                   │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;└───────────────────────┬─────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;                        │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;┌───────────────────────▼─────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│                     Agent 编排层                         │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌────────┐ │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  │ 意图分析  │→│ 计划生成  │→│ 执行引擎  │→│ 反思评估│ │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  └──────────┘  └──────────┘  └──────────┘  └────────┘ │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│       ↑                                      │         │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│       └──────────── 反馈循环 ────────────────┘         │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;└───────────────────────┬─────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;                        │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;┌───────────────────────▼─────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│                      工具层                              │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐          │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  │向量检索 │ │关键词搜索│ │SQL查询 │ │外部API │          │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  └────────┘ └────────┘ └────────┘ └────────┘          │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  ┌────────┐ ┌────────┐ ┌────────┐                      │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  │代码执行 │ │文档解析 │ │缓存管理 │                      │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  └────────┘ └────────┘ └────────┘                      │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;└───────────────────────┬─────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;                        │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;┌───────────────────────▼─────────────────────────────────┐
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│                     数据层                               │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌────────┐ │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  │向量数据库 │  │关系数据库 │  │文档存储   │  │对象存储│ │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  │(Milvus)  │  │(PostgreSQL)│ │(ES/S3)   │  │(S3)   │ │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;│  └──────────┘  └──────────┘  └──────────┘  └────────┘ │
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;└─────────────────────────────────────────────────────────┘
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;核心模块详解&#34;&gt;&lt;a href=&#34;#%e6%a0%b8%e5%bf%83%e6%a8%a1%e5%9d%97%e8%af%a6%e8%a7%a3&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;核心模块详解
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;意图分析模块&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;接收用户输入后，首先进行意图分类和问题复杂度评估。判断标准包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;问题类型：事实查询 / 对比分析 / 多步推理 / 开放式讨论&lt;/li&gt;
&lt;li&gt;信息需求：单一来源 / 多来源交叉&lt;/li&gt;
&lt;li&gt;所需工具：纯检索 / 需要计算 / 需要外部数据&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;分析结果会传递给计划生成模块，作为制定执行计划的依据。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;计划生成模块&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;基于意图分析结果，生成结构化的执行计划。计划格式如下：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;20
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;21
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;22
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;23
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;24
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-json&#34; data-lang=&#34;json&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;nt&#34;&gt;&amp;#34;task&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;分析 Q3 销售增长最快的产品线并对比竞品&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;nt&#34;&gt;&amp;#34;steps&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;id&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;action&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;vector_search&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;params&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;&amp;#34;query&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;Q3 销售报告 产品线增长&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;nt&#34;&gt;&amp;#34;top_k&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;5&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;depends_on&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;id&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;2&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;action&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;web_search&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;params&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;&amp;#34;query&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;竞品 Q3 市场表现&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;depends_on&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;id&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;3&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;action&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;synthesize&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;params&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;nt&#34;&gt;&amp;#34;inputs&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;2&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;],&lt;/span&gt; &lt;span class=&#34;nt&#34;&gt;&amp;#34;task&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;对比分析&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;      &lt;span class=&#34;nt&#34;&gt;&amp;#34;depends_on&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;p&#34;&gt;[&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;1&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;2&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;p&#34;&gt;],&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  &lt;span class=&#34;nt&#34;&gt;&amp;#34;max_iterations&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;3&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;strong&gt;执行引擎&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;按计划调度各工具的调用。支持并行执行无依赖关系的步骤，串行执行有依赖关系的步骤。每一步的执行结果都会被记录，供反思模块评估。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;反思评估模块&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;每一步执行完成后，反思模块会检查：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;结果是否完整回答了当前子任务&lt;/li&gt;
&lt;li&gt;信息质量是否达标（相关性、准确性、时效性）&lt;/li&gt;
&lt;li&gt;是否存在矛盾信息需要进一步验证&lt;/li&gt;
&lt;li&gt;是否需要调整后续计划&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果评估不通过，反思模块会触发计划修正，可能添加新的检索步骤或调整策略。&lt;/p&gt;
&lt;h3 id=&#34;数据流走查&#34;&gt;&lt;a href=&#34;#%e6%95%b0%e6%8d%ae%e6%b5%81%e8%b5%b0%e6%9f%a5&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;数据流走查
&lt;/h3&gt;&lt;p&gt;以一个实际场景走查完整数据流：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;用户提问&lt;/strong&gt;：&amp;ldquo;我们公司去年的客户流失主要集中在哪些行业？原因是什么？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Step 1 - 意图分析&lt;/strong&gt;：判定为多步分析问题，需要内部数据检索 + 归因分析。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Step 2 - 计划生成&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;子任务 A：检索客户流失数据&lt;/li&gt;
&lt;li&gt;子任务 B：检索流失原因分析&lt;/li&gt;
&lt;li&gt;子任务 C：综合归因&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Step 3 - 执行子任务 A&lt;/strong&gt;：调用向量检索，查询&amp;quot;客户流失 行业分布&amp;quot;。返回 5 个相关片段。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Step 4 - 反思评估&lt;/strong&gt;：片段中包含行业分布数据，但有一个行业的名称被截断。决定追加一次 SQL 查询获取完整数据。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Step 5 - 执行补充查询&lt;/strong&gt;：调用 SQL 工具查询客户流失统计表。获取完整数据。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Step 6 - 执行子任务 B&lt;/strong&gt;：并行调用向量检索和关键词搜索，分别查询&amp;quot;客户流失原因&amp;quot;和&amp;quot;客户满意度调查结果&amp;quot;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Step 7 - 执行子任务 C&lt;/strong&gt;：将所有收集到的信息送入合成模块，进行归因分析。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Step 8 - 最终生成&lt;/strong&gt;：基于完整的分析结果，生成结构化的回答。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;工程落地中的关键挑战&#34;&gt;&lt;a href=&#34;#%e5%b7%a5%e7%a8%8b%e8%90%bd%e5%9c%b0%e4%b8%ad%e7%9a%84%e5%85%b3%e9%94%ae%e6%8c%91%e6%88%98&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;工程落地中的关键挑战
&lt;/h2&gt;&lt;h3 id=&#34;延迟与成本的平衡&#34;&gt;&lt;a href=&#34;#%e5%bb%b6%e8%bf%9f%e4%b8%8e%e6%88%90%e6%9c%ac%e7%9a%84%e5%b9%b3%e8%a1%a1&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;延迟与成本的平衡
&lt;/h3&gt;&lt;p&gt;Agentic RAG 的多轮交互天然带来更高的延迟和 API 调用成本。在实际部署中需要做好平衡：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;分级响应策略&lt;/strong&gt;：简单问题走快速通道（传统 RAG 流程），复杂问题才启用完整的 Agent 流程。判断依据是意图分析模块的复杂度评分。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;缓存机制&lt;/strong&gt;：对高频查询的中间结果和最终结果做缓存。相似问题命中缓存后直接返回，跳过完整推理流程。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;异步执行&lt;/strong&gt;：对于需要多步推理的复杂问题，可以采用异步模式——先返回一个&amp;quot;正在分析&amp;quot;的状态，后台完成推理后推送结果。&lt;/p&gt;
&lt;h3 id=&#34;可观测性建设&#34;&gt;&lt;a href=&#34;#%e5%8f%af%e8%a7%82%e6%b5%8b%e6%80%a7%e5%bb%ba%e8%ae%be&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;可观测性建设
&lt;/h3&gt;&lt;p&gt;Agentic RAG 的执行过程比传统 RAG 复杂得多，完善的可观测性至关重要：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;全链路追踪&lt;/strong&gt;：记录每一步的输入输出、耗时、工具调用详情。方便定位问题环节。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;决策日志&lt;/strong&gt;：记录 Agent 的每次决策及理由，便于复盘和优化。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;质量监控&lt;/strong&gt;：对用户反馈（点赞/点踩）与 Agent 执行路径做关联分析，发现低质量回答的模式。&lt;/p&gt;
&lt;h3 id=&#34;安全与权限控制&#34;&gt;&lt;a href=&#34;#%e5%ae%89%e5%85%a8%e4%b8%8e%e6%9d%83%e9%99%90%e6%8e%a7%e5%88%b6&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;安全与权限控制
&lt;/h3&gt;&lt;p&gt;当 Agent 可以调用多种工具时，安全边界变得更加重要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;工具权限分级&lt;/strong&gt;：只读工具（检索）和写入工具（数据库操作）设置不同的权限等级&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;查询审计&lt;/strong&gt;：所有 SQL 查询和 API 调用都需记录，支持事后审计&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;输出过滤&lt;/strong&gt;：对 Agent 生成的最终回答做敏感信息过滤&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;沙箱执行&lt;/strong&gt;：代码执行器必须在隔离环境中运行，限制资源使用&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id=&#34;实践建议从传统-rag-到-agentic-rag-的渐进升级&#34;&gt;&lt;a href=&#34;#%e5%ae%9e%e8%b7%b5%e5%bb%ba%e8%ae%ae%e4%bb%8e%e4%bc%a0%e7%bb%9f-rag-%e5%88%b0-agentic-rag-%e7%9a%84%e6%b8%90%e8%bf%9b%e5%8d%87%e7%ba%a7&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;实践建议：从传统 RAG 到 Agentic RAG 的渐进升级
&lt;/h2&gt;&lt;p&gt;对于已经有传统 RAG 系统的团队，不需要一步到位推翻重建。以下是推荐的渐进升级路径：&lt;/p&gt;
&lt;h3 id=&#34;第一阶段增强检索质量&#34;&gt;&lt;a href=&#34;#%e7%ac%ac%e4%b8%80%e9%98%b6%e6%ae%b5%e5%a2%9e%e5%bc%ba%e6%a3%80%e7%b4%a2%e8%b4%a8%e9%87%8f&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;第一阶段：增强检索质量
&lt;/h3&gt;&lt;p&gt;在不改变整体架构的前提下，优化检索环节：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;引入混合检索（向量 + BM25）&lt;/li&gt;
&lt;li&gt;添加查询改写模块&lt;/li&gt;
&lt;li&gt;实现检索结果重排序&lt;/li&gt;
&lt;li&gt;优化文档切片策略&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一阶段投入小、见效快，通常能带来明显的质量提升。&lt;/p&gt;
&lt;h3 id=&#34;第二阶段引入简单路由&#34;&gt;&lt;a href=&#34;#%e7%ac%ac%e4%ba%8c%e9%98%b6%e6%ae%b5%e5%bc%95%e5%85%a5%e7%ae%80%e5%8d%95%e8%b7%af%e7%94%b1&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;第二阶段：引入简单路由
&lt;/h3&gt;&lt;p&gt;在传统 RAG 的基础上加一层意图分类，实现查询路由：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;简单问题 → 传统 RAG 快速通道&lt;/li&gt;
&lt;li&gt;需要多源信息的问题 → 多次检索 + 结果合并&lt;/li&gt;
&lt;li&gt;需要计算的问题 → 检索 + 代码执行&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一阶段开始引入&amp;quot;智能决策&amp;quot;的概念，但决策逻辑还比较简单。&lt;/p&gt;
&lt;h3 id=&#34;第三阶段全面-agent-化&#34;&gt;&lt;a href=&#34;#%e7%ac%ac%e4%b8%89%e9%98%b6%e6%ae%b5%e5%85%a8%e9%9d%a2-agent-%e5%8c%96&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;第三阶段：全面 Agent 化
&lt;/h3&gt;&lt;p&gt;引入完整的规划-执行-反思循环：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;部署 Agent 编排引擎&lt;/li&gt;
&lt;li&gt;接入完整的工具生态&lt;/li&gt;
&lt;li&gt;实现动态规划和多步推理&lt;/li&gt;
&lt;li&gt;建设可观测性体系&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这一阶段是真正的 Agentic RAG，但需要较大的工程投入。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;技术选型速查表&#34;&gt;&lt;a href=&#34;#%e6%8a%80%e6%9c%af%e9%80%89%e5%9e%8b%e9%80%9f%e6%9f%a5%e8%a1%a8&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;技术选型速查表
&lt;/h2&gt;&lt;p&gt;在实际落地过程中，以下技术选型清单可以作为参考：&lt;/p&gt;
&lt;table&gt;
	&lt;thead&gt;
			&lt;tr&gt;
					&lt;th&gt;组件&lt;/th&gt;
					&lt;th&gt;推荐方案&lt;/th&gt;
					&lt;th&gt;备选方案&lt;/th&gt;
					&lt;th&gt;选型理由&lt;/th&gt;
			&lt;/tr&gt;
	&lt;/thead&gt;
	&lt;tbody&gt;
			&lt;tr&gt;
					&lt;td&gt;Agent 框架&lt;/td&gt;
					&lt;td&gt;LangGraph&lt;/td&gt;
					&lt;td&gt;AutoGen / CrewAI&lt;/td&gt;
					&lt;td&gt;图结构编排灵活，社区活跃&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;向量数据库&lt;/td&gt;
					&lt;td&gt;Milvus&lt;/td&gt;
					&lt;td&gt;Qdrant / pgvector&lt;/td&gt;
					&lt;td&gt;生产级稳定性，支持大规模&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;Embedding 模型&lt;/td&gt;
					&lt;td&gt;BGE-M3&lt;/td&gt;
					&lt;td&gt;text-embedding-3&lt;/td&gt;
					&lt;td&gt;中文效果优秀，多语言支持&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;重排序模型&lt;/td&gt;
					&lt;td&gt;BGE-Reranker&lt;/td&gt;
					&lt;td&gt;Cohere Rerank&lt;/td&gt;
					&lt;td&gt;开源可自部署，延迟可控&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;关键词检索&lt;/td&gt;
					&lt;td&gt;Elasticsearch&lt;/td&gt;
					&lt;td&gt;Meilisearch&lt;/td&gt;
					&lt;td&gt;生态成熟，混合检索能力强&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;缓存层&lt;/td&gt;
					&lt;td&gt;Redis&lt;/td&gt;
					&lt;td&gt;本地缓存&lt;/td&gt;
					&lt;td&gt;支持语义缓存，TTL 管理&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;可观测性&lt;/td&gt;
					&lt;td&gt;LangSmith&lt;/td&gt;
					&lt;td&gt;Phoenix / 自研&lt;/td&gt;
					&lt;td&gt;全链路追踪，可视化分析&lt;/td&gt;
			&lt;/tr&gt;
			&lt;tr&gt;
					&lt;td&gt;大模型&lt;/td&gt;
					&lt;td&gt;GPT-4o / Claude 3.5&lt;/td&gt;
					&lt;td&gt;Qwen-2.5 / DeepSeek&lt;/td&gt;
					&lt;td&gt;推理能力强，工具调用成熟&lt;/td&gt;
			&lt;/tr&gt;
	&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id=&#34;面向未来的架构思考&#34;&gt;&lt;a href=&#34;#%e9%9d%a2%e5%90%91%e6%9c%aa%e6%9d%a5%e7%9a%84%e6%9e%b6%e6%9e%84%e6%80%9d%e8%80%83&#34; class=&#34;header-anchor&#34;&gt;&lt;/a&gt;面向未来的架构思考
&lt;/h2&gt;&lt;p&gt;Agentic RAG 仍在快速演进中。几个值得关注的方向：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;自进化能力&lt;/strong&gt;：Agent 能否从历史执行记录中学习，自动优化自己的规划和决策策略？这需要引入强化学习或经验记忆机制。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;多 Agent 协作&lt;/strong&gt;：对于极其复杂的任务，单一 Agent 可能力不从心。多个专业化的 Agent 协作完成任务（如一个负责检索、一个负责分析、一个负责写作）将成为趋势。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;端侧推理&lt;/strong&gt;：随着端侧模型能力增强，部分 Agentic RAG 的推理能力可能下沉到终端设备，降低对云端的依赖。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;多模态融合&lt;/strong&gt;：当前 Agentic RAG 主要处理文本。未来需要支持图像、视频、音频等多模态信息的检索和推理，这将在数据层和工具层带来全新的挑战。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;技术的演进从来不是跳跃式的。从静态 RAG 到 Agentic RAG，看似是一大步，实际上是无数个工程细节的积累。每一个查询改写的优化、每一次检索策略的调整、每一层反思机制的加入，都在推动系统向更智能的方向迈进。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;构建一个好的 Agentic RAG 系统，不是堆砌最先进的组件，而是在理解业务需求的基础上，找到复杂度与效果的平衡点。有时候，一个简单的查询路由就能解决 80% 的问题；而真正的复杂场景，才需要动用完整的 Agent 能力。&lt;/p&gt;
&lt;p&gt;务实、渐进、可度量——这或许是当下构建 Agentic RAG 系统最需要的三个关键词。&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
