<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>数据质量 on 文艺技术笔记</title><link>https://wenyiblog.top/tags/%E6%95%B0%E6%8D%AE%E8%B4%A8%E9%87%8F/</link><description>Recent content in 数据质量 on 文艺技术笔记</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><copyright>文艺技术笔记 | 软件工程师文艺</copyright><lastBuildDate>Thu, 18 Jun 2026 22:15:00 +0800</lastBuildDate><atom:link href="https://wenyiblog.top/tags/%E6%95%B0%E6%8D%AE%E8%B4%A8%E9%87%8F/index.xml" rel="self" type="application/rss+xml"/><item><title>主数据管理落地六步法：从数据现状调研到清洗标准全流程拆解</title><link>https://wenyiblog.top/2026/06/master-data-management-six-steps/</link><pubDate>Thu, 18 Jun 2026 22:15:00 +0800</pubDate><guid>https://wenyiblog.top/2026/06/master-data-management-six-steps/</guid><description>&lt;h2 id="为什么你的-mdm-项目又烂尾了"&gt;&lt;a href="#%e4%b8%ba%e4%bb%80%e4%b9%88%e4%bd%a0%e7%9a%84-mdm-%e9%a1%b9%e7%9b%ae%e5%8f%88%e7%83%82%e5%b0%be%e4%ba%86" class="header-anchor"&gt;&lt;/a&gt;为什么你的 MDM 项目又烂尾了
&lt;/h2&gt;&lt;p&gt;见过太多这样的场景：花几百万买了 Informatica MDM 或者 SAP MDG，部署上线三个月，数据质量报告依然一片红。业务部门抱怨&amp;quot;系统里的客户数据还是对不上&amp;quot;，IT 部门委屈&amp;quot;平台都买了还要怎样&amp;quot;。&lt;/p&gt;
&lt;p&gt;问题出在哪？&lt;strong&gt;MDM 从来不是一个产品交付项目，而是一个数据治理工程。&lt;/strong&gt; 买平台只是解决了工具层面的问题，但你需要的是一整套从调研、标准制定、清洗执行到持续运营的完整方法论。没有流程，平台就是个空壳。&lt;/p&gt;
&lt;p&gt;下面这六步，是我在几个中大型 MDM 项目中反复验证过的落地路径。不保证万能，但至少能让你少踩几个坑。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第一步数据现状调研"&gt;&lt;a href="#%e7%ac%ac%e4%b8%80%e6%ad%a5%e6%95%b0%e6%8d%ae%e7%8e%b0%e7%8a%b6%e8%b0%83%e7%a0%94" class="header-anchor"&gt;&lt;/a&gt;第一步：数据现状调研
&lt;/h2&gt;&lt;p&gt;别急着上平台。第一步永远是搞清楚你现在的数据长什么样、在哪里、谁在管。&lt;/p&gt;
&lt;h3 id="调研三件套"&gt;&lt;a href="#%e8%b0%83%e7%a0%94%e4%b8%89%e4%bb%b6%e5%a5%97" class="header-anchor"&gt;&lt;/a&gt;调研三件套
&lt;/h3&gt;&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;数据资产盘点&lt;/strong&gt; — 遍历所有业务系统，列出涉及主数据的表、字段、记录量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据流向梳理&lt;/strong&gt; — 数据从哪来、到哪去、中间经过了哪些转换&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据 Owner 确认&lt;/strong&gt; — 每个数据域的业务负责人是谁，出了问题找谁&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id="常见数据域示例"&gt;&lt;a href="#%e5%b8%b8%e8%a7%81%e6%95%b0%e6%8d%ae%e5%9f%9f%e7%a4%ba%e4%be%8b" class="header-anchor"&gt;&lt;/a&gt;常见数据域示例
&lt;/h3&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;数据域&lt;/th&gt;
&lt;th&gt;典型系统&lt;/th&gt;
&lt;th&gt;关键字段&lt;/th&gt;
&lt;th&gt;常见 Owner 部门&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;客户&lt;/td&gt;
&lt;td&gt;CRM、ERP、电商后台&lt;/td&gt;
&lt;td&gt;客户编码、名称、统一社会信用代码&lt;/td&gt;
&lt;td&gt;销售部 / 客户管理部&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;产品&lt;/td&gt;
&lt;td&gt;PLM、ERP、WMS&lt;/td&gt;
&lt;td&gt;SKU、品名、规格、分类编码&lt;/td&gt;
&lt;td&gt;产品部 / 供应链&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;供应商&lt;/td&gt;
&lt;td&gt;SRM、ERP、采购系统&lt;/td&gt;
&lt;td&gt;供应商编码、名称、银行账户&lt;/td&gt;
&lt;td&gt;采购部&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;组织架构&lt;/td&gt;
&lt;td&gt;HR 系统、OA&lt;/td&gt;
&lt;td&gt;部门编码、部门名称、上级部门&lt;/td&gt;
&lt;td&gt;人力资源部&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;物料&lt;/td&gt;
&lt;td&gt;ERP、MES&lt;/td&gt;
&lt;td&gt;物料编码、计量单位、BOM 层级&lt;/td&gt;
&lt;td&gt;生产 / 仓储&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;调研阶段的产出物应该是一份完整的&lt;strong&gt;数据现状报告&lt;/strong&gt;，包含每个域的数据质量评分（完整性、一致性、唯一性、时效性）以及问题清单。这份报告是后续所有步骤的 baseline。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第二步定义主数据范围和标准"&gt;&lt;a href="#%e7%ac%ac%e4%ba%8c%e6%ad%a5%e5%ae%9a%e4%b9%89%e4%b8%bb%e6%95%b0%e6%8d%ae%e8%8c%83%e5%9b%b4%e5%92%8c%e6%a0%87%e5%87%86" class="header-anchor"&gt;&lt;/a&gt;第二步：定义主数据范围和标准
&lt;/h2&gt;&lt;p&gt;不是所有数据都是主数据。主数据的核心特征是：&lt;strong&gt;跨系统共享、变化频率低、业务价值高。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="哪些实体该纳入主数据"&gt;&lt;a href="#%e5%93%aa%e4%ba%9b%e5%ae%9e%e4%bd%93%e8%af%a5%e7%ba%b3%e5%85%a5%e4%b8%bb%e6%95%b0%e6%8d%ae" class="header-anchor"&gt;&lt;/a&gt;哪些实体该纳入主数据
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;客户（Customer）&lt;/strong&gt; — 几乎所有业务系统的核心引用&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;产品（Product）&lt;/strong&gt; — 从研发到销售到售后的全链路依赖&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;供应商（Supplier）&lt;/strong&gt; — 采购、财务、质量管理的交汇点&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;组织（Organization）&lt;/strong&gt; — 权限、审批、报表维度的基础&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;员工（Employee）&lt;/strong&gt; — HR、OA、IT 权限的关联枢纽&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="编码标准"&gt;&lt;a href="#%e7%bc%96%e7%a0%81%e6%a0%87%e5%87%86" class="header-anchor"&gt;&lt;/a&gt;编码标准
&lt;/h3&gt;&lt;p&gt;编码是主数据的身份证，定了就别轻易改。核心原则：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;唯一性&lt;/strong&gt; — 一个实体一个码，绝不允许一物多码&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可扩展性&lt;/strong&gt; — 编码规则要能支撑未来 5-10 年的增长&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;无含义 vs 有含义&lt;/strong&gt; — 建议核心编码用无含义流水号（避免业务含义变化导致编码失效），辅助属性用分类码&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;span class="lnt"&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;示例编码规则：
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;客户编码：CUST + 8位流水号 → CUST00001234
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;产品编码：品类码(2位) + 品牌码(2位) + 流水号(6位) → AB-CD-000123
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;供应商编码：SUPP + 8位流水号 → SUPP00005678
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id="命名规范"&gt;&lt;a href="#%e5%91%bd%e5%90%8d%e8%a7%84%e8%8c%83" class="header-anchor"&gt;&lt;/a&gt;命名规范
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;客户名称统一使用工商注册全称，别名字段单独存储&lt;/li&gt;
&lt;li&gt;产品名称遵循&amp;quot;品牌 + 品类 + 规格 + 型号&amp;quot;结构&lt;/li&gt;
&lt;li&gt;地址字段拆分到省、市、区、街道、门牌号五级，别塞一个字符串&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="第三步数据清洗规则和执行"&gt;&lt;a href="#%e7%ac%ac%e4%b8%89%e6%ad%a5%e6%95%b0%e6%8d%ae%e6%b8%85%e6%b4%97%e8%a7%84%e5%88%99%e5%92%8c%e6%89%a7%e8%a1%8c" class="header-anchor"&gt;&lt;/a&gt;第三步：数据清洗规则和执行
&lt;/h2&gt;&lt;p&gt;这一步是脏活累活，但没有捷径。&lt;/p&gt;
&lt;h3 id="清洗三板斧"&gt;&lt;a href="#%e6%b8%85%e6%b4%97%e4%b8%89%e6%9d%bf%e6%96%a7" class="header-anchor"&gt;&lt;/a&gt;清洗三板斧
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;1. 去重（Deduplication）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;基于匹配规则识别重复记录。匹配策略通常是分层级的：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;精确匹配：统一社会信用代码 / 身份证号完全一致&lt;/li&gt;
&lt;li&gt;模糊匹配：名称相似度 &amp;gt; 90%（编辑距离 / Jaro-Winkler）&lt;/li&gt;
&lt;li&gt;规则匹配：手机号 + 地址组合一致&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;2. 标准化（Standardization）&lt;/strong&gt;&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;清洗前 ❌&lt;/th&gt;
&lt;th&gt;清洗后 ✅&lt;/th&gt;
&lt;th&gt;规则&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;北京市朝阳区建国路88号&lt;/td&gt;
&lt;td&gt;北京市/朝阳区/建国路/88号&lt;/td&gt;
&lt;td&gt;地址五级拆分&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;阿里巴巴集团&lt;/td&gt;
&lt;td&gt;阿里巴巴集团控股有限公司&lt;/td&gt;
&lt;td&gt;工商注册全称映射&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;13812345678 / 86-138-1234-5678&lt;/td&gt;
&lt;td&gt;+86-13812345678&lt;/td&gt;
&lt;td&gt;手机号 E.164 格式&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;深圳腾讯&lt;/td&gt;
&lt;td&gt;深圳市腾讯计算机系统有限公司&lt;/td&gt;
&lt;td&gt;简称→全称映射表&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;kg / 公斤 / KG&lt;/td&gt;
&lt;td&gt;KG&lt;/td&gt;
&lt;td&gt;计量单位统一&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;3. 补全（Enrichment）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;缺失字段通过权威数据源补全。比如用天眼查 API 补全企业工商信息，用国家统计局数据补全行政区划编码。&lt;/p&gt;
&lt;h3 id="清洗执行架构"&gt;&lt;a href="#%e6%b8%85%e6%b4%97%e6%89%a7%e8%a1%8c%e6%9e%b6%e6%9e%84" class="header-anchor"&gt;&lt;/a&gt;清洗执行架构
&lt;/h3&gt;&lt;p&gt;建议用 ETL 管道做批量清洗，配合规则引擎做增量清洗：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;源系统 → 数据抽取 → 规则引擎（去重+标准化+补全）→ 清洗结果审核 → 入库
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; ↓
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; 人工审核队列（低置信度记录）
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;低置信度的匹配结果（比如名称相似度在 80%-90% 之间的）不要自动合并，放进人工审核队列让 Data Steward 确认。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第四步构建黄金记录golden-record"&gt;&lt;a href="#%e7%ac%ac%e5%9b%9b%e6%ad%a5%e6%9e%84%e5%bb%ba%e9%bb%84%e9%87%91%e8%ae%b0%e5%bd%95golden-record" class="header-anchor"&gt;&lt;/a&gt;第四步：构建黄金记录（Golden Record）
&lt;/h2&gt;&lt;p&gt;黄金记录是主数据管理的核心产出——&lt;strong&gt;每个实体在各系统中的最佳版本合并成一条权威记录。&lt;/strong&gt;&lt;/p&gt;
&lt;h3 id="合并规则与冲突解决"&gt;&lt;a href="#%e5%90%88%e5%b9%b6%e8%a7%84%e5%88%99%e4%b8%8e%e5%86%b2%e7%aa%81%e8%a7%a3%e5%86%b3" class="header-anchor"&gt;&lt;/a&gt;合并规则与冲突解决
&lt;/h3&gt;&lt;p&gt;当多个系统对同一实体有不同数据时，需要 Survivorship 规则来决定谁的数据&amp;quot;活下来&amp;quot;：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;字段&lt;/th&gt;
&lt;th&gt;优先数据源&lt;/th&gt;
&lt;th&gt;原因&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;客户名称&lt;/td&gt;
&lt;td&gt;CRM&lt;/td&gt;
&lt;td&gt;CRM 由销售维护，更新最及时&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;统一社会信用代码&lt;/td&gt;
&lt;td&gt;工商数据&lt;/td&gt;
&lt;td&gt;法定权威来源&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;联系电话&lt;/td&gt;
&lt;td&gt;CRM（最近更新时间最晚的）&lt;/td&gt;
&lt;td&gt;时效性优先&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;信用额度&lt;/td&gt;
&lt;td&gt;ERP 财务模块&lt;/td&gt;
&lt;td&gt;财务数据以 ERP 为准&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;收货地址&lt;/td&gt;
&lt;td&gt;电商平台（最近订单）&lt;/td&gt;
&lt;td&gt;业务场景决定&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="合并策略"&gt;&lt;a href="#%e5%90%88%e5%b9%b6%e7%ad%96%e7%95%a5" class="header-anchor"&gt;&lt;/a&gt;合并策略
&lt;/h3&gt;&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;span class="lnt"&gt;4
&lt;/span&gt;&lt;span class="lnt"&gt;5
&lt;/span&gt;&lt;span class="lnt"&gt;6
&lt;/span&gt;&lt;span class="lnt"&gt;7
&lt;/span&gt;&lt;span class="lnt"&gt;8
&lt;/span&gt;&lt;span class="lnt"&gt;9
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;Trust Score 模型：
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;黄金记录.字段值 = argmax(各源系统字段值 × 源系统信任权重 × 时效衰减因子)
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;信任权重示例：
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;- 工商信息接口：1.0
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;- ERP：0.9
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;- CRM：0.8
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;- 电商平台：0.7
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;- 手工录入：0.5
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;黄金记录生成后不是终点。你需要维护一个完整的&lt;strong&gt;交叉引用表（Cross Reference）&lt;/strong&gt;，记录黄金记录和各个源系统记录的映射关系，这是后续数据分发的基础。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第五步分发与同步"&gt;&lt;a href="#%e7%ac%ac%e4%ba%94%e6%ad%a5%e5%88%86%e5%8f%91%e4%b8%8e%e5%90%8c%e6%ad%a5" class="header-anchor"&gt;&lt;/a&gt;第五步：分发与同步
&lt;/h2&gt;&lt;p&gt;主数据管理平台的价值在于让全公司用上同一套干净数据。分发机制的设计直接影响数据一致性的时效。&lt;/p&gt;
&lt;h3 id="push-vs-pull"&gt;&lt;a href="#push-vs-pull" class="header-anchor"&gt;&lt;/a&gt;Push vs Pull
&lt;/h3&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;模式&lt;/th&gt;
&lt;th&gt;适用场景&lt;/th&gt;
&lt;th&gt;实现方式&lt;/th&gt;
&lt;th&gt;优缺点&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Push（推送）&lt;/td&gt;
&lt;td&gt;实时性要求高&lt;/td&gt;
&lt;td&gt;消息队列（Kafka/RabbitMQ）+ 事件驱动&lt;/td&gt;
&lt;td&gt;实时性好，但下游系统需要改造&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Pull（拉取）&lt;/td&gt;
&lt;td&gt;批量场景&lt;/td&gt;
&lt;td&gt;下游系统定时调用 API 或读取共享表&lt;/td&gt;
&lt;td&gt;实现简单，但有延迟&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;混合&lt;/td&gt;
&lt;td&gt;大多数企业&lt;/td&gt;
&lt;td&gt;变更事件 Push + 全量同步 Pull&lt;/td&gt;
&lt;td&gt;兼顾实时和兜底&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="事件驱动架构"&gt;&lt;a href="#%e4%ba%8b%e4%bb%b6%e9%a9%b1%e5%8a%a8%e6%9e%b6%e6%9e%84" class="header-anchor"&gt;&lt;/a&gt;事件驱动架构
&lt;/h3&gt;&lt;p&gt;推荐的做法是把主数据变更发布为领域事件：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;span class="lnt"&gt;4
&lt;/span&gt;&lt;span class="lnt"&gt;5
&lt;/span&gt;&lt;span class="lnt"&gt;6
&lt;/span&gt;&lt;span class="lnt"&gt;7
&lt;/span&gt;&lt;span class="lnt"&gt;8
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-json" data-lang="json"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="p"&gt;{&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="nt"&gt;&amp;#34;eventType&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;CUSTOMER_UPDATED&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="nt"&gt;&amp;#34;entityId&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;CUST00001234&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="nt"&gt;&amp;#34;timestamp&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;2026-06-18T14:30:00+08:00&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="nt"&gt;&amp;#34;changedFields&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;[&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;phone&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;address&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;],&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="nt"&gt;&amp;#34;goldenRecord&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="p"&gt;{&lt;/span&gt; &lt;span class="err"&gt;...&lt;/span&gt; &lt;span class="p"&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="nt"&gt;&amp;#34;sourceSystem&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt; &lt;span class="s2"&gt;&amp;#34;CRM&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="p"&gt;}&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;下游系统订阅这些事件，按需消费。关键是要做好&lt;strong&gt;幂等处理&lt;/strong&gt;和&lt;strong&gt;顺序保证&lt;/strong&gt;（同一实体的变更事件必须按序消费）。&lt;/p&gt;
&lt;h3 id="批量同步兜底"&gt;&lt;a href="#%e6%89%b9%e9%87%8f%e5%90%8c%e6%ad%a5%e5%85%9c%e5%ba%95" class="header-anchor"&gt;&lt;/a&gt;批量同步兜底
&lt;/h3&gt;&lt;p&gt;即使有事件驱动，仍然需要一个每日全量对账机制：比对主数据平台和各源系统的记录数和关键字段，发现漂移及时告警。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="第六步持续治理与质量监控"&gt;&lt;a href="#%e7%ac%ac%e5%85%ad%e6%ad%a5%e6%8c%81%e7%bb%ad%e6%b2%bb%e7%90%86%e4%b8%8e%e8%b4%a8%e9%87%8f%e7%9b%91%e6%8e%a7" class="header-anchor"&gt;&lt;/a&gt;第六步：持续治理与质量监控
&lt;/h2&gt;&lt;p&gt;MDM 上线只是开始。数据质量会随时间退化，没有持续治理就会回到原点。&lt;/p&gt;
&lt;h3 id="质量看板"&gt;&lt;a href="#%e8%b4%a8%e9%87%8f%e7%9c%8b%e6%9d%bf" class="header-anchor"&gt;&lt;/a&gt;质量看板
&lt;/h3&gt;&lt;p&gt;核心指标：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;完整性&lt;/strong&gt; — 必填字段的填充率（目标 &amp;gt; 98%）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;唯一性&lt;/strong&gt; — 疑似重复记录数 / 总记录数（目标 &amp;lt; 0.5%）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;一致性&lt;/strong&gt; — 跨系统字段一致率（目标 &amp;gt; 95%）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;时效性&lt;/strong&gt; — 数据平均更新延迟（目标 &amp;lt; 24h）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;合规性&lt;/strong&gt; — 编码规范符合率（目标 100%）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;每周出一份质量报告，每月做一次根因分析。不要只看分数，要看趋势和根因。&lt;/p&gt;
&lt;h3 id="data-steward-机制"&gt;&lt;a href="#data-steward-%e6%9c%ba%e5%88%b6" class="header-anchor"&gt;&lt;/a&gt;Data Steward 机制
&lt;/h3&gt;&lt;p&gt;每个数据域至少指定一个 Data Steward（数据管家），职责包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;审核新增和变更请求&lt;/li&gt;
&lt;li&gt;处理人工审核队列中的低置信度匹配&lt;/li&gt;
&lt;li&gt;制定和更新数据质量规则&lt;/li&gt;
&lt;li&gt;推动源系统的数据质量改进&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Data Steward 不是 IT 岗位，是业务岗位。最好由业务部门的资深人员兼任，IT 提供工具和培训支持。&lt;/p&gt;
&lt;h3 id="变更管理"&gt;&lt;a href="#%e5%8f%98%e6%9b%b4%e7%ae%a1%e7%90%86" class="header-anchor"&gt;&lt;/a&gt;变更管理
&lt;/h3&gt;&lt;p&gt;主数据的任何变更都应该走流程：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;变更申请 → 影响评估 → 审批 → 执行 → 验证 → 通知下游
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;特别是编码规则和命名规范的变更，影响面巨大，必须经过数据治理委员会审批。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="常见踩坑清单"&gt;&lt;a href="#%e5%b8%b8%e8%a7%81%e8%b8%a9%e5%9d%91%e6%b8%85%e5%8d%95" class="header-anchor"&gt;&lt;/a&gt;常见踩坑清单
&lt;/h2&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;坑&lt;/th&gt;
&lt;th&gt;现象&lt;/th&gt;
&lt;th&gt;根因&lt;/th&gt;
&lt;th&gt;解法&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;范围失控&lt;/td&gt;
&lt;td&gt;第一期就想把所有域都做完&lt;/td&gt;
&lt;td&gt;没有 MVP 思维&lt;/td&gt;
&lt;td&gt;先做一个域（建议从客户开始），跑通流程再扩展&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;业务不参与&lt;/td&gt;
&lt;td&gt;IT 部门自嗨，业务部门不配合&lt;/td&gt;
&lt;td&gt;没有高层 Sponsor&lt;/td&gt;
&lt;td&gt;必须有一个 VP 级别的治理委员会主席&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;标准不落地&lt;/td&gt;
&lt;td&gt;编码规范写了没人用&lt;/td&gt;
&lt;td&gt;缺乏强制执行机制&lt;/td&gt;
&lt;td&gt;在系统入口做校验，不合规的数据根本存不进去&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;过度依赖工具&lt;/td&gt;
&lt;td&gt;以为买了平台就万事大吉&lt;/td&gt;
&lt;td&gt;忽视了流程和人的因素&lt;/td&gt;
&lt;td&gt;工具只占 30%，流程和治理占 70%&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;清洗只做一次&lt;/td&gt;
&lt;td&gt;上线时数据很干净，半年后又脏了&lt;/td&gt;
&lt;td&gt;没有增量清洗机制&lt;/td&gt;
&lt;td&gt;规则引擎嵌入日常数据流，实时清洗&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;缺少度量&lt;/td&gt;
&lt;td&gt;不知道数据质量是变好了还是变差了&lt;/td&gt;
&lt;td&gt;没有建立质量指标体系&lt;/td&gt;
&lt;td&gt;从第一天就建立看板和基线&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;hr&gt;
&lt;h2 id="mdm-是一个-program不是一个-project"&gt;&lt;a href="#mdm-%e6%98%af%e4%b8%80%e4%b8%aa-program%e4%b8%8d%e6%98%af%e4%b8%80%e4%b8%aa-project" class="header-anchor"&gt;&lt;/a&gt;MDM 是一个 Program，不是一个 Project
&lt;/h2&gt;&lt;p&gt;最后说一句大实话：主数据管理永远不会&amp;quot;做完&amp;quot;。它不像一个 ERP 实施项目，有个明确的上线日期就可以开香槟。MDM 更像是一种组织能力——你的企业能不能持续产出高质量的基础数据。&lt;/p&gt;
&lt;p&gt;把 MDM 当 Project 做的公司，通常会在项目验收后的 12 个月内回到起点。把 MDM 当 Program 做的公司，会建立持续的治理机制、专职的团队、不断优化的规则，让数据质量成为业务增长的加速器而不是绊脚石。&lt;/p&gt;
&lt;p&gt;六步法不是瀑布式的走一遍就结束。它是一个循环：调研 → 标准 → 清洗 → 合并 → 分发 → 治理 → 再调研。每一轮循环，你的数据质量都会上一个台阶。&lt;/p&gt;
&lt;p&gt;关键是：&lt;strong&gt;先动起来，从最小可行域开始，快速验证价值，再逐步扩展。&lt;/strong&gt; 别等到所有条件都具备了才启动——那一天永远不会来。&lt;/p&gt;</description></item></channel></rss>