<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>大模型 on 文艺技术笔记</title><link>https://wenyiblog.top/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 大模型 on 文艺技术笔记</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><copyright>文艺技术笔记 | 软件工程师文艺</copyright><lastBuildDate>Thu, 18 Jun 2026 22:45:00 +0800</lastBuildDate><atom:link href="https://wenyiblog.top/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>AI 时代产品经理的能力重塑：从需求洞察到大模型产品设计方法论</title><link>https://wenyiblog.top/2026/06/ai-era-product-manager/</link><pubDate>Thu, 18 Jun 2026 22:45:00 +0800</pubDate><guid>https://wenyiblog.top/2026/06/ai-era-product-manager/</guid><description>&lt;h2 id="产品经理的日常工作正在被-ai-重新定义"&gt;&lt;a href="#%e4%ba%a7%e5%93%81%e7%bb%8f%e7%90%86%e7%9a%84%e6%97%a5%e5%b8%b8%e5%b7%a5%e4%bd%9c%e6%ad%a3%e5%9c%a8%e8%a2%ab-ai-%e9%87%8d%e6%96%b0%e5%ae%9a%e4%b9%89" class="header-anchor"&gt;&lt;/a&gt;产品经理的日常工作，正在被 AI 重新定义
&lt;/h2&gt;&lt;p&gt;过去十年，产品经理的核心动作是：调研需求、画原型、写 PRD、拉评审、跟开发、看数据。这套流程建立在确定性之上——用户行为可预测，功能逻辑可穷举，AB 测试能给出明确结论。&lt;/p&gt;
&lt;p&gt;大模型打破了这个前提。当你设计一个 AI 产品时，你面对的不是&amp;quot;这个按钮放哪里&amp;quot;的问题，而是&amp;quot;这个模型在 30% 的情况下会给出错误输出，产品该怎么兜底&amp;quot;的问题。输出不确定、用户预期管理复杂、质量评估维度从功能正确性变成了体验可接受性。产品经理的日常决策模型，从&amp;quot;做不做这个功能&amp;quot;变成了&amp;quot;怎么让一个概率性系统看起来可靠&amp;quot;。&lt;/p&gt;
&lt;p&gt;具体来说，你周一的例会不再只是讨论功能优先级，而是要和算法工程师一起分析评估集的表现，判断哪些 bad case 需要 Prompt 调整、哪些需要产品层面兜底。你写的需求文档里开始出现&amp;quot;意图识别准确率不低于 90%&amp;ldquo;这样的指标，而不是&amp;quot;支持 XX 功能&amp;rdquo;。你和设计师讨论的不再只是界面布局，而是&amp;quot;模型思考了三秒还没返回结果时，界面上应该展示什么&amp;quot;。&lt;/p&gt;
&lt;p&gt;这不是小修小补，而是能力结构的重建。如果你还在用写 PRD、画原型、看漏斗这套打法做 AI 产品，大概率会在上线三个月后发现：功能都做了，用户不买单，因为模型输出的质量根本撑不起你设计的那个&amp;quot;完美体验&amp;quot;。&lt;/p&gt;
&lt;h2 id="传统-pm-与-ai-pm-能力模型对比"&gt;&lt;a href="#%e4%bc%a0%e7%bb%9f-pm-%e4%b8%8e-ai-pm-%e8%83%bd%e5%8a%9b%e6%a8%a1%e5%9e%8b%e5%af%b9%e6%af%94" class="header-anchor"&gt;&lt;/a&gt;传统 PM 与 AI PM 能力模型对比
&lt;/h2&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;维度&lt;/th&gt;
&lt;th&gt;传统 PM&lt;/th&gt;
&lt;th&gt;AI PM&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;核心关注&lt;/td&gt;
&lt;td&gt;功能完整性、用户旅程&lt;/td&gt;
&lt;td&gt;模型能力边界、人机协作模式&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;需求定义方式&lt;/td&gt;
&lt;td&gt;用户故事 + 验收标准&lt;/td&gt;
&lt;td&gt;意图分类 + 容错策略 + 兜底设计&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;技术理解深度&lt;/td&gt;
&lt;td&gt;前后端架构概念&lt;/td&gt;
&lt;td&gt;模型推理逻辑、Prompt 结构、RAG 流程&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;质量评判&lt;/td&gt;
&lt;td&gt;Bug 率、功能覆盖率&lt;/td&gt;
&lt;td&gt;幻觉率、任务完成率、用户信任度&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;迭代依据&lt;/td&gt;
&lt;td&gt;AB 测试数据&lt;/td&gt;
&lt;td&gt;评估集 + 人工标注 + 线上反馈闭环&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;与工程师协作&lt;/td&gt;
&lt;td&gt;PRD 驱动&lt;/td&gt;
&lt;td&gt;Eval 驱动，共同定义&amp;quot;好&amp;quot;的标准&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;风险意识&lt;/td&gt;
&lt;td&gt;工期、资源、竞品&lt;/td&gt;
&lt;td&gt;模型失效、合规风险、用户误解 AI 输出&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;传统 PM 不需要&amp;quot;懂算法&amp;quot;，但 AI PM 必须理解模型的能力上限在哪里。你不需要自己训练模型，但你要能判断一个场景用 Prompt 就能解决，还是需要 Fine-tuning，还是根本不该用大模型。更关键的是，传统 PM 的需求文档是&amp;quot;规定性&amp;quot;的——告诉开发做什么；AI PM 的需求文档是&amp;quot;约束性&amp;quot;的——定义系统在什么范围内是可接受的。这个转变听起来很小，实际上意味着你要重新学习怎么写需求、怎么做评审、怎么验收。&lt;/p&gt;
&lt;h2 id="三个新增核心能力"&gt;&lt;a href="#%e4%b8%89%e4%b8%aa%e6%96%b0%e5%a2%9e%e6%a0%b8%e5%bf%83%e8%83%bd%e5%8a%9b" class="header-anchor"&gt;&lt;/a&gt;三个新增核心能力
&lt;/h2&gt;&lt;h3 id="一prompt-工程素养"&gt;&lt;a href="#%e4%b8%80prompt-%e5%b7%a5%e7%a8%8b%e7%b4%a0%e5%85%bb" class="header-anchor"&gt;&lt;/a&gt;一、Prompt 工程素养
&lt;/h3&gt;&lt;p&gt;不是会写 Prompt，而是能系统性地设计 Prompt 策略。这包括：理解 System Prompt 和 Few-shot 的作用边界，知道什么时候该拆分成多步 Chain-of-Thought，能判断一个效果问题是 Prompt 不够好还是模型能力本身不够。你还要理解 Temperature、Top-P 这些采样参数对产品体验的影响——创意写作场景需要高随机性，而客服问答需要高度确定性。这是 AI PM 和算法工程师高效沟通的基础语言，不懂这些你连需求都提不清楚。&lt;/p&gt;
&lt;h3 id="二模型评估能力"&gt;&lt;a href="#%e4%ba%8c%e6%a8%a1%e5%9e%8b%e8%af%84%e4%bc%b0%e8%83%bd%e5%8a%9b" class="header-anchor"&gt;&lt;/a&gt;二、模型评估能力
&lt;/h3&gt;&lt;p&gt;传统产品看转化漏斗，AI 产品看评估集。你需要参与定义 Eval 数据集的构成——哪些 case 是核心场景必须覆盖的，哪些是长尾但高风险的。你要理解准确率、召回率、相关性这些指标在不同场景下的权重差异：客服场景宁可多给一个保守回答也不该瞎编，而创意写作场景则可以容忍更高的自由度。更要命的是，很多 AI 产品的质量没有金标准——&amp;ldquo;好的回答&amp;quot;是什么，需要 PM 联合业务专家来定义，而不是交给工程师一个人拍脑袋。&lt;/p&gt;
&lt;h3 id="三数据飞轮思维"&gt;&lt;a href="#%e4%b8%89%e6%95%b0%e6%8d%ae%e9%a3%9e%e8%bd%ae%e6%80%9d%e7%bb%b4" class="header-anchor"&gt;&lt;/a&gt;三、数据飞轮思维
&lt;/h3&gt;&lt;p&gt;AI 产品最大的护城河不是模型，是数据闭环。每一次用户交互都是标注机会：用户点了&amp;quot;有用&amp;quot;就是正样本，用户重新提问就是负样本，用户手动修改了 AI 的输出就是最精准的修正标注。PM 要设计产品机制来持续收集这些信号，反哺模型优化。比如设计一个轻量的反馈入口，让用户在不知不觉中帮你完成标注工作。没有飞轮意识的 AI 产品，上线第一天就是它最好的时候，之后只会越来越差——因为用户场景在演化，而你的模型还停留在训练数据的世界里。&lt;/p&gt;
&lt;h2 id="大模型产品设计的三种范式"&gt;&lt;a href="#%e5%a4%a7%e6%a8%a1%e5%9e%8b%e4%ba%a7%e5%93%81%e8%ae%be%e8%ae%a1%e7%9a%84%e4%b8%89%e7%a7%8d%e8%8c%83%e5%bc%8f" class="header-anchor"&gt;&lt;/a&gt;大模型产品设计的三种范式
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;Chat-based（对话式）&lt;/strong&gt;：最直觉的交互形态，用户用自然语言描述需求，模型直接响应。适合探索性任务、内容生成、信息检索。核心设计挑战在于如何引导用户给出足够清晰的意图——大部分用户的提问都是模糊的，产品需要通过追问、选项推荐、上下文补全来缩小意图范围。同时要设计好&amp;quot;模型不确定时&amp;quot;的表达方式，避免用户把概率性输出当成确定性结论。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Agent-based（智能体式）&lt;/strong&gt;：模型不只是回答问题，而是自主规划和执行多步任务。比如&amp;quot;帮我分析这个月销售数据并生成报告&amp;rdquo;，Agent 会自动拆解为数据查询、分析、可视化、文档生成等步骤。PM 需要设计任务边界、权限控制和中间确认节点——哪些操作 Agent 可以自主执行，哪些必须用户确认后才能继续。避免 Agent 做出用户意料之外的操作是最关键的安全设计。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Copilot-based（副驾驶式）&lt;/strong&gt;：模型嵌入已有工作流，在用户操作过程中提供建议或自动补全。代码编辑器里的 Copilot 是典型例子，但这种模式正在扩展到写作、设计、数据分析等各个领域。PM 的核心工作是定义&amp;quot;什么时候介入&amp;quot;和&amp;quot;如何不打断用户&amp;quot;。过度主动会烦人，过于沉默又失去价值。需要根据用户行为信号（停顿、删除、重复操作）来动态调整介入时机。&lt;/p&gt;
&lt;p&gt;三种范式不是互斥的，一个成熟产品往往会混合使用。但每种范式的用户体验预期、容错设计和评估标准都不同，PM 需要在设计阶段就做出明确选择。一个实用的判断方法：如果你的用户需要探索空间，用 Chat；如果任务步骤明确且可自动化，用 Agent；如果用户已有成熟工作流不想被打断，用 Copilot。选错了范式，再好的模型也救不回来。&lt;/p&gt;
&lt;h2 id="ai-产品质量评估框架"&gt;&lt;a href="#ai-%e4%ba%a7%e5%93%81%e8%b4%a8%e9%87%8f%e8%af%84%e4%bc%b0%e6%a1%86%e6%9e%b6" class="header-anchor"&gt;&lt;/a&gt;AI 产品质量评估框架
&lt;/h2&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;评估维度&lt;/th&gt;
&lt;th&gt;衡量指标&lt;/th&gt;
&lt;th&gt;采集方式&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;准确性&lt;/td&gt;
&lt;td&gt;事实正确率、幻觉率&lt;/td&gt;
&lt;td&gt;评估集自动测试 + 人工抽检&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;有用性&lt;/td&gt;
&lt;td&gt;任务完成率、用户采纳率&lt;/td&gt;
&lt;td&gt;线上行为埋点&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;安全性&lt;/td&gt;
&lt;td&gt;有害内容生成率、合规违规率&lt;/td&gt;
&lt;td&gt;红队测试 + 自动过滤&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;一致性&lt;/td&gt;
&lt;td&gt;同类输入输出稳定性&lt;/td&gt;
&lt;td&gt;回归测试集&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;响应速度&lt;/td&gt;
&lt;td&gt;首 token 延迟、总生成时长&lt;/td&gt;
&lt;td&gt;系统监控&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;用户信任&lt;/td&gt;
&lt;td&gt;重新提问率、人工介入率&lt;/td&gt;
&lt;td&gt;交互日志分析&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;注意：这些指标之间经常互相矛盾。追求准确性可能牺牲有用性（模型过于保守，什么都不敢说），追求速度可能牺牲一致性（流式生成容易跑偏），追求安全性可能牺牲体验（过滤太严导致正常问题也被拦截）。PM 的价值就在于做这些 trade-off 决策，而不是把选择权丢给工程师。&lt;/p&gt;
&lt;p&gt;建议的做法是：为每个产品阶段设定不同的指标权重。上线初期优先保证安全性和基本准确性，宁可少做场景也不要出错；稳定期转向有用性和用户信任度，逐步扩大覆盖场景；成熟期关注一致性和响应速度，打磨体验细节。没有一套固定权重适合所有阶段。&lt;/p&gt;
&lt;h2 id="构建-ai-产品的常见错误"&gt;&lt;a href="#%e6%9e%84%e5%bb%ba-ai-%e4%ba%a7%e5%93%81%e7%9a%84%e5%b8%b8%e8%a7%81%e9%94%99%e8%af%af" class="header-anchor"&gt;&lt;/a&gt;构建 AI 产品的常见错误
&lt;/h2&gt;&lt;p&gt;❌ &lt;strong&gt;把模型当功能来做&lt;/strong&gt;：在 PRD 里写&amp;quot;接入大模型&amp;quot;，却没有定义具体场景和容错策略。结果是工程师接了个 API，产品体验一塌糊涂。&lt;/p&gt;
&lt;p&gt;✅ &lt;strong&gt;正确做法&lt;/strong&gt;：先定义用户场景和失败边界，再选择合适的模型方案。模型是手段，不是目标。写清楚&amp;quot;当模型无法回答时，展示什么兜底内容&amp;quot;比写&amp;quot;接入 GPT-4&amp;quot;重要十倍。&lt;/p&gt;
&lt;p&gt;❌ &lt;strong&gt;过度承诺 AI 能力&lt;/strong&gt;：让用户以为 AI 什么都能做，结果模型输出不靠谱时信任崩塌。&lt;/p&gt;
&lt;p&gt;✅ &lt;strong&gt;正确做法&lt;/strong&gt;：明确告知用户 AI 的能力范围和局限性，设计优雅的降级路径。&amp;ldquo;这个问题我暂时无法准确回答，建议你咨询专业人士&amp;quot;比一个看似自信但错误的回答好一百倍。&lt;/p&gt;
&lt;p&gt;❌ &lt;strong&gt;忽视评估体系直接上线&lt;/strong&gt;：没有评估集就上线，出了问题只能靠用户投诉来发现。&lt;/p&gt;
&lt;p&gt;✅ &lt;strong&gt;正确做法&lt;/strong&gt;：上线前至少建立 200+ 条评估用例，覆盖核心场景和边界情况，每次模型或 Prompt 变更都跑一遍回归。这不是可选项，是最低要求。&lt;/p&gt;
&lt;p&gt;❌ &lt;strong&gt;只看单次交互不看飞轮&lt;/strong&gt;：产品上线后不收集反馈信号，模型无法持续优化。&lt;/p&gt;
&lt;p&gt;✅ &lt;strong&gt;正确做法&lt;/strong&gt;：从第一天就设计反馈采集机制——点赞/踩、重新提问、编辑修正——这些信号是产品进化的燃料。越早建立闭环，竞争对手越难追赶。&lt;/p&gt;
&lt;h2 id="产品经理是模型能力与用户价值之间的桥梁"&gt;&lt;a href="#%e4%ba%a7%e5%93%81%e7%bb%8f%e7%90%86%e6%98%af%e6%a8%a1%e5%9e%8b%e8%83%bd%e5%8a%9b%e4%b8%8e%e7%94%a8%e6%88%b7%e4%bb%b7%e5%80%bc%e4%b9%8b%e9%97%b4%e7%9a%84%e6%a1%a5%e6%a2%81" class="header-anchor"&gt;&lt;/a&gt;产品经理是模型能力与用户价值之间的桥梁
&lt;/h2&gt;&lt;p&gt;大模型本身不创造用户价值。一个千亿参数的模型，如果没有好的产品定义，就是一个昂贵的玩具。AI PM 的核心职责不是学会调 API，而是回答三个问题：这个模型能力解决谁的什么问题？用户愿意为这个结果付出多少信任？系统出错时我们怎么兜住？&lt;/p&gt;
&lt;p&gt;技术决定了模型能做什么，产品决定了用户愿意用什么。这两者之间的距离，就是 AI PM 存在的意义。很多团队把 AI 产品做砸了，不是因为模型不够强，而是 PM 没有做好&amp;quot;翻译&amp;quot;工作——把模型的概率性能力翻译成用户可预期的产品体验。&lt;/p&gt;
&lt;p&gt;能力重塑不是一蹴而就的事情。但从今天开始，认真对待每一个 Prompt、每一份评估集、每一次用户反馈，就是在构建你作为 AI PM 的基本功。这个领域没有现成的方法论可以照搬，最好的老师是你自己产品的线上数据和用户的真实行为。最后说一句实话：AI 产品经理最稀缺的能力不是懂技术，而是在技术不确定性的前提下，依然能做出清晰的产品决策。这种能力，只有在实战中才能长出来。&lt;/p&gt;</description></item></channel></rss>