<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>代码审查 on 文艺技术笔记</title><link>https://wenyiblog.top/tags/%E4%BB%A3%E7%A0%81%E5%AE%A1%E6%9F%A5/</link><description>Recent content in 代码审查 on 文艺技术笔记</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><copyright>文艺技术笔记 | 软件工程师文艺</copyright><lastBuildDate>Mon, 29 Jun 2026 13:00:00 +0800</lastBuildDate><atom:link href="https://wenyiblog.top/tags/%E4%BB%A3%E7%A0%81%E5%AE%A1%E6%9F%A5/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型赋能 DevOps：从代码审查到故障根因分析，AI 如何提速研发全链路</title><link>https://wenyiblog.top/2026/06/ai-devops-full-chain/</link><pubDate>Mon, 29 Jun 2026 13:00:00 +0800</pubDate><guid>https://wenyiblog.top/2026/06/ai-devops-full-chain/</guid><description>&lt;h2 id="一个真实的变化"&gt;&lt;a href="#%e4%b8%80%e4%b8%aa%e7%9c%9f%e5%ae%9e%e7%9a%84%e5%8f%98%e5%8c%96" class="header-anchor"&gt;&lt;/a&gt;一个真实的变化
&lt;/h2&gt;&lt;p&gt;两年前，一个高级工程师每天花 &lt;strong&gt;90 分钟&lt;/strong&gt; 做代码审查，现在这个数字降到了 &lt;strong&gt;20 分钟&lt;/strong&gt;。不是他变快了，是大模型把初审、风格检查、安全扫描、注释补全全部前置完成了。&lt;/p&gt;
&lt;p&gt;这不是某个团队的个案。从 2025 年开始，AI 正在从&amp;quot;辅助编码&amp;quot;单点工具，演变为贯穿 DevOps 全链路的系统性能力。代码审查、测试生成、流水线优化、故障定位——每一个环节都在被重新定义。&lt;/p&gt;
&lt;p&gt;本文拆解大模型在 DevOps 六大核心环节的落地路径，并给出效果对比与适用边界。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一代码审查从人工逐行看到ai-预审--人工决策"&gt;&lt;a href="#%e4%b8%80%e4%bb%a3%e7%a0%81%e5%ae%a1%e6%9f%a5%e4%bb%8e%e4%ba%ba%e5%b7%a5%e9%80%90%e8%a1%8c%e7%9c%8b%e5%88%b0ai-%e9%a2%84%e5%ae%a1--%e4%ba%ba%e5%b7%a5%e5%86%b3%e7%ad%96" class="header-anchor"&gt;&lt;/a&gt;一、代码审查：从&amp;quot;人工逐行看&amp;quot;到&amp;quot;AI 预审 + 人工决策&amp;quot;
&lt;/h2&gt;&lt;p&gt;传统的代码审查是研发流程中最昂贵的环节之一。高级工程师的时间被大量消耗在风格检查、命名规范、显而易见的 Bug 上，真正需要架构判断的评论反而被淹没。&lt;/p&gt;
&lt;h3 id="主流工具的能力分层"&gt;&lt;a href="#%e4%b8%bb%e6%b5%81%e5%b7%a5%e5%85%b7%e7%9a%84%e8%83%bd%e5%8a%9b%e5%88%86%e5%b1%82" class="header-anchor"&gt;&lt;/a&gt;主流工具的能力分层
&lt;/h3&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;工具&lt;/th&gt;
&lt;th&gt;核心能力&lt;/th&gt;
&lt;th&gt;适用场景&lt;/th&gt;
&lt;th&gt;局限&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;GitHub Copilot Code Review&lt;/td&gt;
&lt;td&gt;PR 级别的自动审查，结合仓库上下文生成评审意见&lt;/td&gt;
&lt;td&gt;开源项目、中小团队日常 CR&lt;/td&gt;
&lt;td&gt;对业务语义理解有限&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;CodeRabbit&lt;/td&gt;
&lt;td&gt;多维度评分（可维护性、安全性、性能），支持自定义规则&lt;/td&gt;
&lt;td&gt;中大型团队的标准化审查&lt;/td&gt;
&lt;td&gt;复杂架构决策仍需人工&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;自建 LLM Pipeline&lt;/td&gt;
&lt;td&gt;私有化部署，可对接内部规范与安全策略&lt;/td&gt;
&lt;td&gt;金融、政务等合规场景&lt;/td&gt;
&lt;td&gt;部署成本高，需要持续调优&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="落地效果"&gt;&lt;a href="#%e8%90%bd%e5%9c%b0%e6%95%88%e6%9e%9c" class="header-anchor"&gt;&lt;/a&gt;落地效果
&lt;/h3&gt;&lt;blockquote&gt;
&lt;p&gt;某电商平台的实践数据：引入 AI 预审后，&lt;strong&gt;平均 CR 周期从 18 小时降至 4 小时&lt;/strong&gt;，人工评论数量下降 40%，但高价值评论（涉及架构、安全、业务逻辑）的占比从 22% 提升到 61%。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;关键不是 AI 替代了审查者，而是 &lt;strong&gt;把审查者的注意力从低价值检查中释放出来&lt;/strong&gt;。人负责判断&amp;quot;该不该这么设计&amp;quot;，AI 负责确认&amp;quot;写没写对&amp;quot;。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="二智能测试生成变异覆盖率三线并进"&gt;&lt;a href="#%e4%ba%8c%e6%99%ba%e8%83%bd%e6%b5%8b%e8%af%95%e7%94%9f%e6%88%90%e5%8f%98%e5%bc%82%e8%a6%86%e7%9b%96%e7%8e%87%e4%b8%89%e7%ba%bf%e5%b9%b6%e8%bf%9b" class="header-anchor"&gt;&lt;/a&gt;二、智能测试：生成、变异、覆盖率三线并进
&lt;/h2&gt;&lt;p&gt;测试是研发流程中投入产出比最容易被低估的环节。大模型在测试领域的介入已经从&amp;quot;生成单测&amp;quot;扩展到了更深的层面。&lt;/p&gt;
&lt;h3 id="三层能力模型"&gt;&lt;a href="#%e4%b8%89%e5%b1%82%e8%83%bd%e5%8a%9b%e6%a8%a1%e5%9e%8b" class="header-anchor"&gt;&lt;/a&gt;三层能力模型
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;第一层：单元测试生成。&lt;/strong&gt; 给定一个函数签名和实现，LLM 可以直接生成覆盖正常路径、边界条件和异常路径的测试用例。Copilot、Diffblue Cover 等工具已经相当成熟，对于 CRUD 类业务代码，&lt;strong&gt;生成准确率可达 85% 以上&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二层：变异测试（Mutation Testing）。&lt;/strong&gt; 传统变异测试通过人工注入 Bug 来验证测试集的有效性，成本极高。大模型可以智能生成&amp;quot;有意义的变异体&amp;quot;——不是随机改个符号，而是模拟真实开发者容易犯的逻辑错误，从而更高效地检验测试覆盖质量。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第三层：集成测试编排。&lt;/strong&gt; 基于 API 文档和调用链拓扑，LLM 能够自动生成端到端测试场景，包括异常注入和时序模拟。这一层目前仍在早期，但对微服务架构的团队价值巨大。&lt;/p&gt;
&lt;h3 id="一个容易被忽略的问题"&gt;&lt;a href="#%e4%b8%80%e4%b8%aa%e5%ae%b9%e6%98%93%e8%a2%ab%e5%bf%bd%e7%95%a5%e7%9a%84%e9%97%ae%e9%a2%98" class="header-anchor"&gt;&lt;/a&gt;一个容易被忽略的问题
&lt;/h3&gt;&lt;p&gt;大模型生成的测试用例有一个隐蔽的风险：&lt;strong&gt;它倾向于生成&amp;quot;能通过&amp;quot;的测试，而不是&amp;quot;能发现问题&amp;quot;的测试。&lt;/strong&gt; 这意味着测试覆盖率数据可能很好看，但实际检出能力并没有同步提升。解决方案是引入变异测试作为校验手段——如果变异体存活率高于 30%，说明测试集质量存疑。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="三cicd从写死流水线到智能调度与自愈"&gt;&lt;a href="#%e4%b8%89cicd%e4%bb%8e%e5%86%99%e6%ad%bb%e6%b5%81%e6%b0%b4%e7%ba%bf%e5%88%b0%e6%99%ba%e8%83%bd%e8%b0%83%e5%ba%a6%e4%b8%8e%e8%87%aa%e6%84%88" class="header-anchor"&gt;&lt;/a&gt;三、CI/CD：从&amp;quot;写死流水线&amp;quot;到&amp;quot;智能调度与自愈&amp;quot;
&lt;/h2&gt;&lt;p&gt;流水线的痛点往往不在构建本身，而在 &lt;strong&gt;等待、排队、失败重试和人工介入&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id="ai-可以优化的四个维度"&gt;&lt;a href="#ai-%e5%8f%af%e4%bb%a5%e4%bc%98%e5%8c%96%e7%9a%84%e5%9b%9b%e4%b8%aa%e7%bb%b4%e5%ba%a6" class="header-anchor"&gt;&lt;/a&gt;AI 可以优化的四个维度
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;构建缓存预测：&lt;/strong&gt; 基于代码变更的文件和影响范围，LLM 判断哪些构建步骤可以跳过。某团队的实践显示，这使 CI 平均耗时从 12 分钟降至 7 分钟。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;并行度动态调整：&lt;/strong&gt; 根据当前队列深度和资源池状态，智能分配 Runner 数量，避免资源浪费与排队拥堵。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;失败诊断前置：&lt;/strong&gt; 构建失败时，LLM 直接分析日志并给出修复建议，开发者无需手动翻阅数百行输出。实测可将 &lt;strong&gt;失败到恢复的平均时间（MTTR-构建）从 25 分钟缩短到 8 分钟&lt;/strong&gt;。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;发布风险评估：&lt;/strong&gt; 在部署前，综合变更内容、历史故障数据和当前系统状态，给出发布风险评分。高风险时自动触发灰度或延迟发布。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;流水线不应该是一条固定的管道，而应该是一个能够感知上下文、自适应调整的智能系统。大模型让这件事第一次变得可行。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="四故障响应与根因分析aiops-的第二次机会"&gt;&lt;a href="#%e5%9b%9b%e6%95%85%e9%9a%9c%e5%93%8d%e5%ba%94%e4%b8%8e%e6%a0%b9%e5%9b%a0%e5%88%86%e6%9e%90aiops-%e7%9a%84%e7%ac%ac%e4%ba%8c%e6%ac%a1%e6%9c%ba%e4%bc%9a" class="header-anchor"&gt;&lt;/a&gt;四、故障响应与根因分析：AIOps 的第二次机会
&lt;/h2&gt;&lt;p&gt;AIOps 不是一个新概念，但上一轮 AIOps 浪潮（2018-2022）很大程度上受限于模型能力——规则引擎和传统机器学习在面对非结构化日志、复杂调用链时力不从心。&lt;/p&gt;
&lt;p&gt;大模型带来了两个本质变化：&lt;/p&gt;
&lt;h3 id="1-非结构化数据的理解能力"&gt;&lt;a href="#1-%e9%9d%9e%e7%bb%93%e6%9e%84%e5%8c%96%e6%95%b0%e6%8d%ae%e7%9a%84%e7%90%86%e8%a7%a3%e8%83%bd%e5%8a%9b" class="header-anchor"&gt;&lt;/a&gt;1. 非结构化数据的理解能力
&lt;/h3&gt;&lt;p&gt;运维数据中 &lt;strong&gt;70% 以上是非结构化的&lt;/strong&gt;——日志、告警文本、变更记录、Slack/飞书消息。上一代 AIOps 需要大量人工特征工程才能处理这些数据，而 LLM 天然具备理解能力。&lt;/p&gt;
&lt;h3 id="2-基于-dify-等平台构建-rca-工作流"&gt;&lt;a href="#2-%e5%9f%ba%e4%ba%8e-dify-%e7%ad%89%e5%b9%b3%e5%8f%b0%e6%9e%84%e5%bb%ba-rca-%e5%b7%a5%e4%bd%9c%e6%b5%81" class="header-anchor"&gt;&lt;/a&gt;2. 基于 Dify 等平台构建 RCA 工作流
&lt;/h3&gt;&lt;p&gt;以 Dify 为代表的 LLM 应用编排平台，让运维团队可以低代码搭建根因分析（Root Cause Analysis）工作流：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;告警聚合 → 时间线构建 → 变更关联 → 日志分析 → 根因候选排序 → 人工确认
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;每个节点由专门的 LLM Prompt 或微调模型处理，中间结果可追溯、可干预。这比端到端的黑盒方案更适合生产环境。&lt;/p&gt;
&lt;h3 id="落地效果对比"&gt;&lt;a href="#%e8%90%bd%e5%9c%b0%e6%95%88%e6%9e%9c%e5%af%b9%e6%af%94" class="header-anchor"&gt;&lt;/a&gt;落地效果对比
&lt;/h3&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指标&lt;/th&gt;
&lt;th&gt;传统 AIOps&lt;/th&gt;
&lt;th&gt;LLM 增强 AIOps&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;告警降噪率&lt;/td&gt;
&lt;td&gt;40-60%&lt;/td&gt;
&lt;td&gt;75-90%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;根因定位准确率（Top-3）&lt;/td&gt;
&lt;td&gt;35-50%&lt;/td&gt;
&lt;td&gt;60-80%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;平均故障定位时间&lt;/td&gt;
&lt;td&gt;45-90 分钟&lt;/td&gt;
&lt;td&gt;10-30 分钟&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;非结构化数据利用&lt;/td&gt;
&lt;td&gt;需要人工预处理&lt;/td&gt;
&lt;td&gt;直接理解&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;新故障类型适应&lt;/td&gt;
&lt;td&gt;需要重新训练&lt;/td&gt;
&lt;td&gt;Prompt 调整即可&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id="五全链路效果对比总览"&gt;&lt;a href="#%e4%ba%94%e5%85%a8%e9%93%be%e8%b7%af%e6%95%88%e6%9e%9c%e5%af%b9%e6%af%94%e6%80%bb%e8%a7%88" class="header-anchor"&gt;&lt;/a&gt;五、全链路效果对比总览
&lt;/h2&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;DevOps 环节&lt;/th&gt;
&lt;th&gt;传统方式&lt;/th&gt;
&lt;th&gt;AI 赋能后&lt;/th&gt;
&lt;th&gt;核心收益&lt;/th&gt;
&lt;th&gt;成熟度&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;代码审查&lt;/td&gt;
&lt;td&gt;纯人工，周期长&lt;/td&gt;
&lt;td&gt;AI 预审 + 人工决策&lt;/td&gt;
&lt;td&gt;CR 周期缩短 70%+&lt;/td&gt;
&lt;td&gt;★★★★☆&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;单元测试&lt;/td&gt;
&lt;td&gt;手写，覆盖率不稳定&lt;/td&gt;
&lt;td&gt;AI 生成 + 变异校验&lt;/td&gt;
&lt;td&gt;覆盖率提升至 85%+&lt;/td&gt;
&lt;td&gt;★★★★☆&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;集成测试&lt;/td&gt;
&lt;td&gt;手动编排，维护成本高&lt;/td&gt;
&lt;td&gt;AI 场景生成&lt;/td&gt;
&lt;td&gt;测试场景覆盖 2-3x&lt;/td&gt;
&lt;td&gt;★★★☆☆&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;CI/CD 优化&lt;/td&gt;
&lt;td&gt;静态配置，排队等待&lt;/td&gt;
&lt;td&gt;智能调度与诊断&lt;/td&gt;
&lt;td&gt;构建耗时缩短 40%&lt;/td&gt;
&lt;td&gt;★★★☆☆&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;发布风险&lt;/td&gt;
&lt;td&gt;人工评估，经验依赖&lt;/td&gt;
&lt;td&gt;多维度自动评分&lt;/td&gt;
&lt;td&gt;回滚率下降 50%+&lt;/td&gt;
&lt;td&gt;★★☆☆☆&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;故障根因分析&lt;/td&gt;
&lt;td&gt;人工排查，耗时长&lt;/td&gt;
&lt;td&gt;LLM 工作流辅助&lt;/td&gt;
&lt;td&gt;MTTR 缩短 60%+&lt;/td&gt;
&lt;td&gt;★★★☆☆&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id="六什么时候不该用-ai"&gt;&lt;a href="#%e5%85%ad%e4%bb%80%e4%b9%88%e6%97%b6%e5%80%99%e4%b8%8d%e8%af%a5%e7%94%a8-ai" class="header-anchor"&gt;&lt;/a&gt;六、什么时候不该用 AI
&lt;/h2&gt;&lt;p&gt;这一节可能比前面所有加起来都重要。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;不该用的场景：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;安全审计的最终判定。&lt;/strong&gt; AI 可以做预审，但安全合规的最终签字必须是人。模型会&amp;quot;自信地犯错&amp;quot;，在安全领域这是不可接受的。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;架构决策。&lt;/strong&gt; LLM 可以帮你分析 trade-off，但&amp;quot;选 A 还是选 B&amp;quot;的决定涉及组织上下文、团队能力、历史债务——这些不在训练数据里。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;生产环境的自动修复。&lt;/strong&gt; 至少在现阶段，LLM 生成的修复方案不应自动执行到生产环境。原因很简单：你无法保证它的输出是确定性的。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;对可解释性有强要求的场景。&lt;/strong&gt; 金融、医疗、政务等领域，如果监管要求你解释&amp;quot;为什么这么做&amp;quot;，那么黑盒的 LLM 输出就不是合规的证据。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;
&lt;p&gt;一个务实的原则：AI 做建议，人做决定。至少在可解释性和确定性问题解决之前，这个边界不应该模糊。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id="落地建议三步走"&gt;&lt;a href="#%e8%90%bd%e5%9c%b0%e5%bb%ba%e8%ae%ae%e4%b8%89%e6%ad%a5%e8%b5%b0" class="header-anchor"&gt;&lt;/a&gt;落地建议：三步走
&lt;/h2&gt;&lt;p&gt;如果你的团队正在考虑引入 AI 到 DevOps 流程，建议按以下节奏：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一步（1-2 周）：&lt;/strong&gt; 从代码审查和单测生成切入。这是 ROI 最高、风险最低的环节，效果立竿见影，团队接受度高。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二步（1-2 月）：&lt;/strong&gt; 将 AI 能力接入 CI/CD，做构建诊断和发布风险评估。这需要一定的数据积累和 Pipeline 改造。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第三步（3-6 月）：&lt;/strong&gt; 构建故障分析工作流。这需要打通监控、日志、变更管理等多个数据源，是投入最大但长期价值最高的环节。&lt;/p&gt;
&lt;p&gt;每个阶段都应该是可验证的——有基线数据、有对照组、有明确的度量指标。没有度量的 AI 落地，最终都会变成&amp;quot;感觉快了一点&amp;quot;。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;大模型不是 DevOps 的银弹，但它确实是过去十年里，&lt;strong&gt;第一次让我们有机会系统性地压缩研发全链路中那些&amp;quot;不得不做但又低效&amp;quot;的环节&lt;/strong&gt;。关键在于：想清楚哪些环节交给 AI，哪些环节留给人，以及——如何验证效果。&lt;/p&gt;</description></item></channel></rss>