08 群众路线08 Mass Line

AI产品的用户洞察方法论User insight methodology for AI products

更新 2026-06-26Updated 2026-06-26

一个产品做没做群众路线，不看它收集了多少反馈，看它收集来的东西有多少真的回到了用户那里。教员在《关于领导方法的若干问题》（1943年6月）里，把这件事写成了一段几乎可以直接画成流程图的定义——"将群众的意见集中起来……又到群众中去……并在群众的行动中考验这些意见是否正确"。一句话，四个动词：集中、宣传、行动、考验。大多数AI团队只做了第一个。他们以为群众路线就是"重视用户反馈"，于是发NPS问卷、做用户访谈、扒App Store评论，然后宣布自己"以用户为中心"——这是把一个完整的认识论闭环砍成了半圈。它真正的杀伤力从来不在"听"，在听完之后把结论送回去、在用户的真实行动里检验它对不对、再据此重新收集。那个返程，和那个循环，才是这条路线之所以配叫"路线"。

一、群众路线是一个认识论闭环，"调研"只是它的四分之一

教员这段话，是他写过的最像工程规格书的定义。拆开是一条流水线：分散→集中（把杂乱、矛盾的原始意见研究成系统结论），集中→群众（通过宣传解释送回去），群众→行动（让它见之于行动、坚持下去），行动→考验（在真实行动里检验对错）。而紧跟在后面的半句是"如此无限循环，一次比一次更正确、更生动、更丰富"。分量全压在最后那个"循环"上。

映射到AI产品几乎是一一对应。分散的、无系统的意见，是用户的原始反馈——评论、工单、访谈逐字稿、客服记录，量大、信噪比低、彼此打架。集中化，是团队把它研究成洞察和功能决策，这一步大家最熟、也最爱做。到群众中去，是把这个功能上线、并且向用户讲清楚它——"我们听到了X，这是我们为此做的改变"。在行动中考验，不是问卷上那个NPS数字，是行为：他们到底用没用，留存有没有动，有没有回过头来对你说更多的话。

绝大多数团队把"产出洞察"当成了终点。洞察有了，路线图更新了，"以用户为中心"这件事就算交了差。可在教员的框架里，洞察是中点，是四步里的第二步。一个从不回到用户、从不被真实行动检验的洞察，用他的原话讲就是主观主义——你在自己脑子里形成的结论，没拿现实对过一次账。NPS和访谈，做到顶也只走完了"从群众中来"这半步；剩下那半步，那个所有人都默契跳过的返程，才是全部难度之所在。

二、返程被系统性跳过，因为它没有交付物、也没有主人

返程被系统性跳过，根子不在认知，在激励结构。"从群众中来"再"集中化"，会沉淀出能展示的东西：一份调研报告、一套用户画像、一张排好优先级的路线图。这些能在评审会上讲，能写进晋升材料。而"到群众中去、在行动中考验"，几乎产不出任何可展示的成果，最好的结果也不过是一个"你那个洞察到底对没对"的是非判断，而诚实的答案，常常是"错了"。没有人靠记录自己的判断被现实证伪来升职。于是这个闭环没有主人：PM上完线就被调去做下一个需求，"考验"这一步是所有人的事，也就成了没有人的事。

从桥水的视角看，产品团队和一个差劲的分析师，得的是同一种病。区分一个好分析师和一个坏分析师的，从来不是他初始观点漂不漂亮，是他肯不肯在亏了钱之后，对自己那个错的观点做一次诚实的复盘。绝大多数人在市场里形成一个判断、下了注，然后永远不回头给这个判断打分——和绝大多数产品团队一模一样，把"我有了一个看法"本身当成了交付。市场还算仁慈，它有盈亏，盈亏会拽着你回到现实里对账；产品团队连这个盈亏都没有，所以洞察一旦写进文档，就再没人见它一面，用户更不会知道，自己曾经被听见过。

三、安心舍的一次真实闭环：我们没满足那个需求，却把判断送回给了用户

讲个安心舍今年3月的真实例子。那段时间工单和评论里反复顶上来同一句话——"半夜睡不着，想找个人说说，可这个点没人在线"。常规打法有两个：排夜班客服，或者干脆把AI包装成"真人值守"。两个我们都没做。安心舍整个设计的前提就是——深夜那个不想惊动任何人、又怕被一个真人评判的时刻，恰恰是AI比真人更合适的时刻。所以我们没有改产品，而是写了一篇《为什么深夜的安心舍，我们故意不放真人》，把这个取舍掰开讲给用户听。这就是"到群众中去"的宣传解释：不是更新日志式的"本次优化若干体验"，是把团队的判断重新翻译回用户自己的语言，让他们在里面认出自己。

结果不是NPS涨了几个点。是那篇内容下面，三天里多出两百多条"原来是故意的，我还以为是没人管"。那两百多条，就是"在行动中考验"返回来的信号——我们对"用户深夜到底要什么"的那个集中判断，被用户自己的话当面确认了。这条闭环活着。我给团队定过一个内部指标，叫"回流率"：一段时间里从用户那儿收上来的信息，最终有多大比例、以用户能亲眼看见的形式，回到了用户那里。大多数产品这个数字接近零——洞察生成了，躺在路线图文档里再没人见过，用户也从不知道自己被听见过。回流率为零的产品，开再多场用户访谈，也只完成了认识论的前半圈。

这里我必须停下来，老实承认一个降维。教员的"见之于行动"，是组织群众、动员群众去斗争、去生产，是成千上万人真刀真枪的集体行动；我把它映射成"发一篇内容、看评论区有没有人回话"，量级根本不在一个数量级上。把革命动员等同于内容互动率，是偷懒。所以在安心舍内部，我不允许"考验"停在评论数上——真正过硬的考验是行为：那两百多条评论之后，深夜时段的留存有没有抬起来，那批原本要流失的用户回没回来，他们的使用方式有没有变。评论区那句"原来是故意的"只是闭环活着的第一个心跳，留存曲线才是它真的活下来的证据。

四、机器版的群众路线也会断，断在它只听得见自己已经服务的人

把群众路线自动化，并不能让你免掉"到群众中去"——它只会让你在不知不觉中停止"到群众中去"。我在苹果做App Store推荐系统时，这个闭环本来是被机器强制走完的：推一个应用，看用户点不点，把点/不点喂回去重训，听上去是完美的群众路线。但它有个致命暗坑——模型永远只能从"它自己选择展示过的东西"里学习。一个你从没推荐给某用户的应用，你永远收不到他对它的态度。这是数据里的幸存者偏差：系统在自己造的回音壁里越来越自信，越来越只服务它已经懂的那部分人。我们当时必须人为往里灌exploration——拿一小撮流量去做随机或低置信度的推荐，故意去听那些被算法沉默掉的群众。那一小撮看上去在"白白浪费"的流量，就是工程化的"深入群众"；没有它，推荐系统会缓慢地、无声地，背叛掉它没在服务的所有人。

RLHF是同一条机械化的群众路线，也断在同一个地方。收集人类偏好（从群众中来）→训练reward model（化为集中的系统的意见）→部署模型（到群众中去）→再收集偏好（在行动中考验）→循环，这就是大家挂在嘴上的数据飞轮。但你的eval set和reward model，是用上个季度的用户、上个季度的提问分布喂出来的；用户变了、场景变了，你那套集中的系统的意见却没变，模型就在一个已经不存在的世界里继续自信。这在机器学习里叫distribution shift；教员早给它起过一个名字，叫教条主义——把一个曾经正确的集中结论当成永远正确，不肯再回到群众里重新考验。eval set不定期从线上流量重新采样，它就是教条。更别说reward model只从那些愿意点赞点踩的人身上学，沉默的大多数压根没被代表——和工单是同一种病：你以为你在优化所有人的体验，其实只在优化表达欲最强那一小撮人的体验。

五、你的 system prompt 也是一条群众路线，而你多半从没回去考验过它

你的system prompt，其实也是一条群众路线。它是你给agent定下的"政策"——一套关于它该如何行为的、集中的系统的意见。大多数团队写完system prompt、上线，然后再没去读过一行生产环境里的真实对话。这就是典型的"定了政策，却从不回到群众里考验政策"：你不知道agent在真实对话里把你的意图执行成了什么样，你只知道你"希望"它是什么样。两者之间那条裂缝有多宽，没人去量，因为量出来很可能很难看。

所以把这条线，在你自己的产品里亲手画一遍：用户的原始声音从哪里进来，在哪一步被集中成了决策，这个决策有没有以用户认得出的形式送回给他们，送回去之后，你有没有在他们的真实行为里——留存、复用、付费、流失回流——检验过它对不对。还是说，它在"集中"那一步就停住了，凝固成一份再没人回头看的洞察文档。然后给自己算一个具体的数字：上一个季度，你从用户那里收上来的所有信息，最终有多少比例真的回到了用户那里？如果你答不上这个数字，或者算出来逼近零——那么不管你开了多少场访谈、做了多少调研，你大概率，只走了来时这半程。