08 群众路线08 Mass Line

AI产品的用户洞察方法论User insight methodology for AI products

更新 2026-06-26Updated 2026-06-26

一个产品做没做群众路线,不看它收集了多少反馈,看它收集来的东西有多少真的回到了用户那里。教员在《关于领导方法的若干问题》(1943年6月)里,把这件事写成了一段几乎可以直接画成流程图的定义——"将群众的意见集中起来……又到群众中去……并在群众的行动中考验这些意见是否正确"。一句话,四个动词:集中、宣传、行动、考验。大多数AI团队只做了第一个。他们以为群众路线就是"重视用户反馈",于是发NPS问卷、做用户访谈、扒App Store评论,然后宣布自己"以用户为中心"——这是把一个完整的认识论闭环砍成了半圈。它真正的杀伤力从来不在"听",在听完之后把结论送回去、在用户的真实行动里检验它对不对、再据此重新收集。那个返程,和那个循环,才是这条路线之所以配叫"路线"。

一、群众路线是一个认识论闭环,"调研"只是它的四分之一

教员这段话,是他写过的最像工程规格书的定义。拆开是一条流水线:分散→集中(把杂乱、矛盾的原始意见研究成系统结论),集中→群众(通过宣传解释送回去),群众→行动(让它见之于行动、坚持下去),行动→考验(在真实行动里检验对错)。而紧跟在后面的半句是"如此无限循环,一次比一次更正确、更生动、更丰富"。分量全压在最后那个"循环"上。

映射到AI产品几乎是一一对应。分散的、无系统的意见,是用户的原始反馈——评论、工单、访谈逐字稿、客服记录,量大、信噪比低、彼此打架。集中化,是团队把它研究成洞察和功能决策,这一步大家最熟、也最爱做。到群众中去,是把这个功能上线、并且向用户讲清楚它——"我们听到了X,这是我们为此做的改变"。在行动中考验,不是问卷上那个NPS数字,是行为:他们到底用没用,留存有没有动,有没有回过头来对你说更多的话。

绝大多数团队把"产出洞察"当成了终点。洞察有了,路线图更新了,"以用户为中心"这件事就算交了差。可在教员的框架里,洞察是中点,是四步里的第二步。一个从不回到用户、从不被真实行动检验的洞察,用他的原话讲就是主观主义——你在自己脑子里形成的结论,没拿现实对过一次账。NPS和访谈,做到顶也只走完了"从群众中来"这半步;剩下那半步,那个所有人都默契跳过的返程,才是全部难度之所在。

二、返程被系统性跳过,因为它没有交付物、也没有主人

返程被系统性跳过,根子不在认知,在激励结构。"从群众中来"再"集中化",会沉淀出能展示的东西:一份调研报告、一套用户画像、一张排好优先级的路线图。这些能在评审会上讲,能写进晋升材料。而"到群众中去、在行动中考验",几乎产不出任何可展示的成果,最好的结果也不过是一个"你那个洞察到底对没对"的是非判断,而诚实的答案,常常是"错了"。没有人靠记录自己的判断被现实证伪来升职。于是这个闭环没有主人:PM上完线就被调去做下一个需求,"考验"这一步是所有人的事,也就成了没有人的事。

从桥水的视角看,产品团队和一个差劲的分析师,得的是同一种病。区分一个好分析师和一个坏分析师的,从来不是他初始观点漂不漂亮,是他肯不肯在亏了钱之后,对自己那个错的观点做一次诚实的复盘。绝大多数人在市场里形成一个判断、下了注,然后永远不回头给这个判断打分——和绝大多数产品团队一模一样,把"我有了一个看法"本身当成了交付。市场还算仁慈,它有盈亏,盈亏会拽着你回到现实里对账;产品团队连这个盈亏都没有,所以洞察一旦写进文档,就再没人见它一面,用户更不会知道,自己曾经被听见过。

三、安心舍的一次真实闭环:我们没满足那个需求,却把判断送回给了用户

讲个安心舍今年3月的真实例子。那段时间工单和评论里反复顶上来同一句话——"半夜睡不着,想找个人说说,可这个点没人在线"。常规打法有两个:排夜班客服,或者干脆把AI包装成"真人值守"。两个我们都没做。安心舍整个设计的前提就是——深夜那个不想惊动任何人、又怕被一个真人评判的时刻,恰恰是AI比真人更合适的时刻。所以我们没有改产品,而是写了一篇《为什么深夜的安心舍,我们故意不放真人》,把这个取舍掰开讲给用户听。这就是"到群众中去"的宣传解释:不是更新日志式的"本次优化若干体验",是把团队的判断重新翻译回用户自己的语言,让他们在里面认出自己。

结果不是NPS涨了几个点。是那篇内容下面,三天里多出两百多条"原来是故意的,我还以为是没人管"。那两百多条,就是"在行动中考验"返回来的信号——我们对"用户深夜到底要什么"的那个集中判断,被用户自己的话当面确认了。这条闭环活着。我给团队定过一个内部指标,叫"回流率":一段时间里从用户那儿收上来的信息,最终有多大比例、以用户能亲眼看见的形式,回到了用户那里。大多数产品这个数字接近零——洞察生成了,躺在路线图文档里再没人见过,用户也从不知道自己被听见过。回流率为零的产品,开再多场用户访谈,也只完成了认识论的前半圈。

这里我必须停下来,老实承认一个降维。教员的"见之于行动",是组织群众、动员群众去斗争、去生产,是成千上万人真刀真枪的集体行动;我把它映射成"发一篇内容、看评论区有没有人回话",量级根本不在一个数量级上。把革命动员等同于内容互动率,是偷懒。所以在安心舍内部,我不允许"考验"停在评论数上——真正过硬的考验是行为:那两百多条评论之后,深夜时段的留存有没有抬起来,那批原本要流失的用户回没回来,他们的使用方式有没有变。评论区那句"原来是故意的"只是闭环活着的第一个心跳,留存曲线才是它真的活下来的证据。

四、机器版的群众路线也会断,断在它只听得见自己已经服务的人

把群众路线自动化,并不能让你免掉"到群众中去"——它只会让你在不知不觉中停止"到群众中去"。我在苹果做App Store推荐系统时,这个闭环本来是被机器强制走完的:推一个应用,看用户点不点,把点/不点喂回去重训,听上去是完美的群众路线。但它有个致命暗坑——模型永远只能从"它自己选择展示过的东西"里学习。一个你从没推荐给某用户的应用,你永远收不到他对它的态度。这是数据里的幸存者偏差:系统在自己造的回音壁里越来越自信,越来越只服务它已经懂的那部分人。我们当时必须人为往里灌exploration——拿一小撮流量去做随机或低置信度的推荐,故意去听那些被算法沉默掉的群众。那一小撮看上去在"白白浪费"的流量,就是工程化的"深入群众";没有它,推荐系统会缓慢地、无声地,背叛掉它没在服务的所有人。

RLHF是同一条机械化的群众路线,也断在同一个地方。收集人类偏好(从群众中来)→训练reward model(化为集中的系统的意见)→部署模型(到群众中去)→再收集偏好(在行动中考验)→循环,这就是大家挂在嘴上的数据飞轮。但你的eval set和reward model,是用上个季度的用户、上个季度的提问分布喂出来的;用户变了、场景变了,你那套集中的系统的意见却没变,模型就在一个已经不存在的世界里继续自信。这在机器学习里叫distribution shift;教员早给它起过一个名字,叫教条主义——把一个曾经正确的集中结论当成永远正确,不肯再回到群众里重新考验。eval set不定期从线上流量重新采样,它就是教条。更别说reward model只从那些愿意点赞点踩的人身上学,沉默的大多数压根没被代表——和工单是同一种病:你以为你在优化所有人的体验,其实只在优化表达欲最强那一小撮人的体验。

五、你的 system prompt 也是一条群众路线,而你多半从没回去考验过它

你的system prompt,其实也是一条群众路线。它是你给agent定下的"政策"——一套关于它该如何行为的、集中的系统的意见。大多数团队写完system prompt、上线,然后再没去读过一行生产环境里的真实对话。这就是典型的"定了政策,却从不回到群众里考验政策":你不知道agent在真实对话里把你的意图执行成了什么样,你只知道你"希望"它是什么样。两者之间那条裂缝有多宽,没人去量,因为量出来很可能很难看。

所以把这条线,在你自己的产品里亲手画一遍:用户的原始声音从哪里进来,在哪一步被集中成了决策,这个决策有没有以用户认得出的形式送回给他们,送回去之后,你有没有在他们的真实行为里——留存、复用、付费、流失回流——检验过它对不对。还是说,它在"集中"那一步就停住了,凝固成一份再没人回头看的洞察文档。然后给自己算一个具体的数字:上一个季度,你从用户那里收上来的所有信息,最终有多少比例真的回到了用户那里?如果你答不上这个数字,或者算出来逼近零——那么不管你开了多少场访谈、做了多少调研,你大概率,只走了来时这半程。

一个产品做没做群众路线,不看它收集了多少反馈,看它收集来的东西有多少真的回到了用户那里。教员在《关于领导方法的若干问题》(1943年6月)里,把这件事写成了一段几乎可以直接画成流程图的定义——"将群众的意见集中起来……又到群众中去……并在群众的行动中考验这些意见是否正确"。一句话,四个动词:集中、宣传、行动、考验。大多数AI团队只做了第一个。他们以为群众路线就是"重视用户反馈",于是发NPS问卷、做用户访谈、扒App Store评论,然后宣布自己"以用户为中心"——这是把一个完整的认识论闭环砍成了半圈。它真正的杀伤力从来不在"听",在听完之后把结论送回去、在用户的真实行动里检验它对不对、再据此重新收集。那个返程,和那个循环,才是这条路线之所以配叫"路线"。

一、群众路线是一个认识论闭环,"调研"只是它的四分之一

教员这段话,是他写过的最像工程规格书的定义。拆开是一条流水线:分散→集中(把杂乱、矛盾的原始意见研究成系统结论),集中→群众(通过宣传解释送回去),群众→行动(让它见之于行动、坚持下去),行动→考验(在真实行动里检验对错)。而紧跟在后面的半句是"如此无限循环,一次比一次更正确、更生动、更丰富"。分量全压在最后那个"循环"上。

映射到AI产品几乎是一一对应。分散的、无系统的意见,是用户的原始反馈——评论、工单、访谈逐字稿、客服记录,量大、信噪比低、彼此打架。集中化,是团队把它研究成洞察和功能决策,这一步大家最熟、也最爱做。到群众中去,是把这个功能上线、并且向用户讲清楚它——"我们听到了X,这是我们为此做的改变"。在行动中考验,不是问卷上那个NPS数字,是行为:他们到底用没用,留存有没有动,有没有回过头来对你说更多的话。

绝大多数团队把"产出洞察"当成了终点。洞察有了,路线图更新了,"以用户为中心"这件事就算交了差。可在教员的框架里,洞察是中点,是四步里的第二步。一个从不回到用户、从不被真实行动检验的洞察,用他的原话讲就是主观主义——你在自己脑子里形成的结论,没拿现实对过一次账。NPS和访谈,做到顶也只走完了"从群众中来"这半步;剩下那半步,那个所有人都默契跳过的返程,才是全部难度之所在。

二、返程被系统性跳过,因为它没有交付物、也没有主人

返程被系统性跳过,根子不在认知,在激励结构。"从群众中来"再"集中化",会沉淀出能展示的东西:一份调研报告、一套用户画像、一张排好优先级的路线图。这些能在评审会上讲,能写进晋升材料。而"到群众中去、在行动中考验",几乎产不出任何可展示的成果,最好的结果也不过是一个"你那个洞察到底对没对"的是非判断,而诚实的答案,常常是"错了"。没有人靠记录自己的判断被现实证伪来升职。于是这个闭环没有主人:PM上完线就被调去做下一个需求,"考验"这一步是所有人的事,也就成了没有人的事。

从桥水的视角看,产品团队和一个差劲的分析师,得的是同一种病。区分一个好分析师和一个坏分析师的,从来不是他初始观点漂不漂亮,是他肯不肯在亏了钱之后,对自己那个错的观点做一次诚实的复盘。绝大多数人在市场里形成一个判断、下了注,然后永远不回头给这个判断打分——和绝大多数产品团队一模一样,把"我有了一个看法"本身当成了交付。市场还算仁慈,它有盈亏,盈亏会拽着你回到现实里对账;产品团队连这个盈亏都没有,所以洞察一旦写进文档,就再没人见它一面,用户更不会知道,自己曾经被听见过。

三、安心舍的一次真实闭环:我们没满足那个需求,却把判断送回给了用户

讲个安心舍今年3月的真实例子。那段时间工单和评论里反复顶上来同一句话——"半夜睡不着,想找个人说说,可这个点没人在线"。常规打法有两个:排夜班客服,或者干脆把AI包装成"真人值守"。两个我们都没做。安心舍整个设计的前提就是——深夜那个不想惊动任何人、又怕被一个真人评判的时刻,恰恰是AI比真人更合适的时刻。所以我们没有改产品,而是写了一篇《为什么深夜的安心舍,我们故意不放真人》,把这个取舍掰开讲给用户听。这就是"到群众中去"的宣传解释:不是更新日志式的"本次优化若干体验",是把团队的判断重新翻译回用户自己的语言,让他们在里面认出自己。

结果不是NPS涨了几个点。是那篇内容下面,三天里多出两百多条"原来是故意的,我还以为是没人管"。那两百多条,就是"在行动中考验"返回来的信号——我们对"用户深夜到底要什么"的那个集中判断,被用户自己的话当面确认了。这条闭环活着。我给团队定过一个内部指标,叫"回流率":一段时间里从用户那儿收上来的信息,最终有多大比例、以用户能亲眼看见的形式,回到了用户那里。大多数产品这个数字接近零——洞察生成了,躺在路线图文档里再没人见过,用户也从不知道自己被听见过。回流率为零的产品,开再多场用户访谈,也只完成了认识论的前半圈。

这里我必须停下来,老实承认一个降维。教员的"见之于行动",是组织群众、动员群众去斗争、去生产,是成千上万人真刀真枪的集体行动;我把它映射成"发一篇内容、看评论区有没有人回话",量级根本不在一个数量级上。把革命动员等同于内容互动率,是偷懒。所以在安心舍内部,我不允许"考验"停在评论数上——真正过硬的考验是行为:那两百多条评论之后,深夜时段的留存有没有抬起来,那批原本要流失的用户回没回来,他们的使用方式有没有变。评论区那句"原来是故意的"只是闭环活着的第一个心跳,留存曲线才是它真的活下来的证据。

四、机器版的群众路线也会断,断在它只听得见自己已经服务的人

把群众路线自动化,并不能让你免掉"到群众中去"——它只会让你在不知不觉中停止"到群众中去"。我在苹果做App Store推荐系统时,这个闭环本来是被机器强制走完的:推一个应用,看用户点不点,把点/不点喂回去重训,听上去是完美的群众路线。但它有个致命暗坑——模型永远只能从"它自己选择展示过的东西"里学习。一个你从没推荐给某用户的应用,你永远收不到他对它的态度。这是数据里的幸存者偏差:系统在自己造的回音壁里越来越自信,越来越只服务它已经懂的那部分人。我们当时必须人为往里灌exploration——拿一小撮流量去做随机或低置信度的推荐,故意去听那些被算法沉默掉的群众。那一小撮看上去在"白白浪费"的流量,就是工程化的"深入群众";没有它,推荐系统会缓慢地、无声地,背叛掉它没在服务的所有人。

RLHF是同一条机械化的群众路线,也断在同一个地方。收集人类偏好(从群众中来)→训练reward model(化为集中的系统的意见)→部署模型(到群众中去)→再收集偏好(在行动中考验)→循环,这就是大家挂在嘴上的数据飞轮。但你的eval set和reward model,是用上个季度的用户、上个季度的提问分布喂出来的;用户变了、场景变了,你那套集中的系统的意见却没变,模型就在一个已经不存在的世界里继续自信。这在机器学习里叫distribution shift;教员早给它起过一个名字,叫教条主义——把一个曾经正确的集中结论当成永远正确,不肯再回到群众里重新考验。eval set不定期从线上流量重新采样,它就是教条。更别说reward model只从那些愿意点赞点踩的人身上学,沉默的大多数压根没被代表——和工单是同一种病:你以为你在优化所有人的体验,其实只在优化表达欲最强那一小撮人的体验。

五、你的 system prompt 也是一条群众路线,而你多半从没回去考验过它

你的system prompt,其实也是一条群众路线。它是你给agent定下的"政策"——一套关于它该如何行为的、集中的系统的意见。大多数团队写完system prompt、上线,然后再没去读过一行生产环境里的真实对话。这就是典型的"定了政策,却从不回到群众里考验政策":你不知道agent在真实对话里把你的意图执行成了什么样,你只知道你"希望"它是什么样。两者之间那条裂缝有多宽,没人去量,因为量出来很可能很难看。

所以把这条线,在你自己的产品里亲手画一遍:用户的原始声音从哪里进来,在哪一步被集中成了决策,这个决策有没有以用户认得出的形式送回给他们,送回去之后,你有没有在他们的真实行为里——留存、复用、付费、流失回流——检验过它对不对。还是说,它在"集中"那一步就停住了,凝固成一份再没人回头看的洞察文档。然后给自己算一个具体的数字:上一个季度,你从用户那里收上来的所有信息,最终有多少比例真的回到了用户那里?如果你答不上这个数字,或者算出来逼近零——那么不管你开了多少场访谈、做了多少调研,你大概率,只走了来时这半程。