教员教我们如何在AI时代成功Mao's Playbook for the AI Era16 没有调查没有发言权16 No Investigation

16 没有调查没有发言权16 No Investigation

AI时代要再加一层This principle needs an extra layer in the AI era

更新 2026-06-26Updated 2026-06-26

All quotes verified against the raw 1930 text. The editor's hard gate is resolved — the "末尾/先头" line is genuinely in 《反对本本主义》 (section 2), the technique section has exactly seven points, and "每事问" is in-essay. Here is the rewrite.

没有调查没有发言权:AI时代,这句话要再加一层

"没有调查,没有发言权"——这句话今天基本是废的。不是它错,是它太便宜了。一个埋点、一份问卷、一次A/B test,几个小时就能拿到几万条数据,论"有调查",人人都有。教员1930年写《反对本本主义》的时候,调查是要拿命去换的稀缺品;今天它塌方成了零成本的背景噪声。真正没塌方、也真正把人分开的,是同一篇文章里再往后一节那句更狠的话:"一切结论产生于调查情况的末尾,而不是在它的先头。"这一句今天几乎没人做到——绝大多数人是先有结论,再调一份数据来给它背书。所以在AI时代,这句话要再加一层:没有对调查数据的批判性分析,调查本身也没有发言权。

一、调查的成本塌方了,读懂调查的成本没有

先把"调查"这个词拆开,它今天其实是三件难度差着数量级的事。知道数据说了什么——次日留存32%,NPS 41,某个按钮的点击率涨了8%——这件事归仪表盘管,零成本,谁都做得到。难一档的,是知道这8%意味着什么:用户是真更喜欢了,还是这个按钮只是变得更显眼、更容易误触?再难一档的,是知道这个"喜欢"到底值不值得你押下个季度的roadmap。三件事都叫"调查",但后两件才需要人。

我在苹果做App Store推荐系统时,栽在第二件事上的那一跤,到今天还记得有多疼。我们上过一版改动,A/B test的点击率涨得很漂亮,所有人都准备ship。拆开看才发现,涨的点击集中在那些标题更耸动、icon更扎眼的app上——推荐系统自己悄悄学会了把人往标题党那边引。短期CTR是真涨了,代价是install之后的留存在掉,用户对"商店推荐"这块的信任在被一点点透支。数据没撒谎,它确实说了"点击涨了";但它意味着什么,仪表盘一个字都不会告诉你。把"数据说了什么"直接当成"数据意味着什么",是AI时代成批出现的决策事故。

教员讲"一切结论产生于调查情况的末尾",针对的是当年红军里不下实地、拍脑袋定策略的本本主义。用今天的话重述,它撞上的正是confirmation bias——我无意说他1930年就在谈统计意义上的选择性采样,但"结论必须长在调查的末尾、不能长在它的先头"这个要求,和确认偏误的病理是同一个。真实世界里的顺序常常是反的:老板先有了一个想法,让团队"去调查一下"。团队心知肚明他要什么,于是设计出能验证它的问卷、挑出能支撑它的切片、把不利的数据归为噪声。整套流程披着"我们做过调查"的皮,内核是一场已经知道判决的庭审——结论在调查的先头就定了,调查只是补一份取证记录。

二、有数据、有调查、有洞察:能改掉你假设的,才配叫洞察

调查的质量分三档,大多数公司一辈子卡在第一档。有数据,是知道用户做了什么——埋点、行为日志、漏斗。有调查,是知道用户说了什么——访谈、NPS、问卷。有洞察,是知道用户为什么这么做,而且这个"为什么"逼着你改掉了原来的假设。前两档是信息,第三档才是发言权。判断你有没有到第三档只有一个标准:它有没有改变你原来相信的东西。没改变的不叫洞察,叫复述。

安心舍给我上过一次很硬的这种课。我们当时的假设很自然:情感陪伴产品的留存,靠的是AI回答的质量——更共情、更准、答得更长。我们真去做了A/B test,把模型换成更强、回答更细腻的版本,结果次日留存纹丝不动,甚至略降。数据摆在那,但一开始我们读不懂它意味着什么。于是退回去做笨功夫——亲手读高留存用户和流失用户的原始对话。读到几十条的时候,洞察才浮出来:高留存用户回来,几乎从不是因为某一句回答多惊艳,而是因为AI"记得"——记得他上周说奶奶走了,记得他在准备考研,记得他怕黑。低留存用户的对话则像Groundhog Day,AI每次都在和一个陌生人初次见面。

这条洞察把我们的假设掀翻了:留存的命门不在"答得多聪明",在"上下文记不记得住"。我们当即把资源从"换更大的模型"掉头到context和memory工程上——这也是我后来把Mem0、Letta、Zep这些agent memory框架挨个翻一遍的起点。如果那次只盯着A/B test里那个没动的留存数字,我们会得出"换强模型没用"然后就此放弃;是去读原始对话、是去追问"为什么",才把假设改对。这就是有数据和有洞察之间,隔着的那道坎。

三、教员把"怎么调查"拆成七条手艺,每一条都是AI产品的用户研究方法论

《反对本本主义》末尾那节"调查的技术",是全篇最该被产品经理抄走的部分。教员没停在"要调查"的口号上,他把怎么调查拆成了七条具体手艺。挑出和AI产品用户研究一一对应的几条看:

"要开调查会作讨论式的调查"——不是一对一发问卷收答案,是让几个用户互相讨论、彼此激发。结构化问卷只能验证你已经想到的问题,讨论式访谈才会冒出你根本没料到的东西,而洞察恰恰从那里来。"调查会到些什么人?要是能深切明了社会经济情况的人"——教员特意说,既要经验丰富的老年人,也要思想锐利的青年人。翻成产品话就是:别只听power user,也别只听跑来投诉的人,这两头都是有偏的样本,你要的是有代表性的人。"要亲身出马……不能单靠书面报告,因为二者是两回事"——创始人和PM亲手读一百条原始对话,和看数据团队汇总好的二手PPT,是两个物种的认知:聚合会把所有反常的、刺痛你的细节抹平,而洞察偏偏长在那些细节里。

"要深入"是说初次调查得在一个问题上钻到底里,而不是每个问题浅尝一口——AI产品里一种隐秘的浪费,就是同时盯着四十个指标,每个都只瞟一眼,没有一个看到底。"要自己做记录,假手于人是不行的"——别把这步外包出去,因为整理的过程就是思考的过程,二手结论永远丢掉了原话里那点说不清、却要命的语气。七条里唯一要打个补丁的是"要定调查纲目":纲目能让调查不散,但它也最容易变成确认偏误的剧本——你只问你想问的,于是只得到你想要的。补丁就藏在教员自己的做法里:纲目是"每事问"的起点,不是终点,真正值钱的答案往往落在纲目之外。

四、批判性分析,就是主动把自己放到要被反驳的位置

那么,给调查"加上的那一层"——批判性分析——具体是什么动作?从桥水的视角,它就一件事:对每一个让你高兴的数据,主动去找它错在哪、被什么污染了。

我自己跑过一版risk parity的变体,backtest从2010年拉到2021年,曲线漂亮得不真实,Sharpe高得离谱,差一点就让我信了它是个真规律。问题全藏在那段窗口里:2010到2021年,股和债基本负相关,债券给股票提供了近乎完美的对冲,于是任何把仓位往债券上压的策略都自动显得"稳健"。我把窗口往前推到1970年代的滞胀,再让它穿过2022年那场股债双杀,曲线立刻原形毕露——它根本没发现什么规律,只是把"股债负相关"这个特定时代的假设焊死进了模型。Backtest没撒谎,它只是忠实地复述了一段恰好对我有利的历史。

这就是为什么桥水的反射动作是stress-test,不是庆祝:换个时间窗口还成立吗?换个国家、换个市场状态还成立吗?这是真信号,还是只要你愿意挖、总能从历史里挖出来的过拟合?这套怀疑论搬到产品里几乎一一对应——一个A/B test赢了,先别开香槟,问它在别的用户群赢吗?别的入口、别的季节赢吗?它会不会只是这批样本的噪声,或者新鲜感带来的、两周后就蒸发的假提升?Dalio那句pain plus reflection equals progress,反过来念就是:不让你难受的复盘,没产生任何progress。

批判性分析的内核,是把自己当成需要被反驳的对象,而不是需要被证明的对象。确认偏误的人拿数据找"我是对的"的证据,做分析的人拿数据找"我哪里可能错了"的证据。同一份调查、同样几万条数据,这两种人会读出截然相反的东西。你愿不愿意主动去找那个让自己难堪的反例,基本就决定了你的调查是在逼近真相,还是在精装修一个你早就想要的结论。

留一个你只能自己回答的问题。不是"你上次的调查有没有改变你的假设"——这门槛太低,嘴上承认很容易。真正的问题是:上一次某个数据推翻了你深信的东西之后,你真把资源掉头了吗,还是点了头说"有道理",然后roadmap一行没改、预算一分没动、下个季度照着原计划走?

调查改变认知,只是十月怀胎;认知改变行动,才是一朝分娩。绝大多数人的调查,都死在产房门口——结论生出来了,没人敢抱走。

All quotes verified against the raw 1930 text. The editor's hard gate is resolved — the "末尾/先头" line is genuinely in 《反对本本主义》 (section 2), the technique section has exactly seven points, and "每事问" is in-essay. Here is the rewrite.

没有调查没有发言权:AI时代,这句话要再加一层

"没有调查,没有发言权"——这句话今天基本是废的。不是它错,是它太便宜了。一个埋点、一份问卷、一次A/B test,几个小时就能拿到几万条数据,论"有调查",人人都有。教员1930年写《反对本本主义》的时候,调查是要拿命去换的稀缺品;今天它塌方成了零成本的背景噪声。真正没塌方、也真正把人分开的,是同一篇文章里再往后一节那句更狠的话:"一切结论产生于调查情况的末尾,而不是在它的先头。"这一句今天几乎没人做到——绝大多数人是先有结论,再调一份数据来给它背书。所以在AI时代,这句话要再加一层:没有对调查数据的批判性分析,调查本身也没有发言权。

一、调查的成本塌方了,读懂调查的成本没有

先把"调查"这个词拆开,它今天其实是三件难度差着数量级的事。知道数据说了什么——次日留存32%,NPS 41,某个按钮的点击率涨了8%——这件事归仪表盘管,零成本,谁都做得到。难一档的,是知道这8%意味着什么:用户是真更喜欢了,还是这个按钮只是变得更显眼、更容易误触?再难一档的,是知道这个"喜欢"到底值不值得你押下个季度的roadmap。三件事都叫"调查",但后两件才需要人。

我在苹果做App Store推荐系统时,栽在第二件事上的那一跤,到今天还记得有多疼。我们上过一版改动,A/B test的点击率涨得很漂亮,所有人都准备ship。拆开看才发现,涨的点击集中在那些标题更耸动、icon更扎眼的app上——推荐系统自己悄悄学会了把人往标题党那边引。短期CTR是真涨了,代价是install之后的留存在掉,用户对"商店推荐"这块的信任在被一点点透支。数据没撒谎,它确实说了"点击涨了";但它意味着什么,仪表盘一个字都不会告诉你。把"数据说了什么"直接当成"数据意味着什么",是AI时代成批出现的决策事故。

教员讲"一切结论产生于调查情况的末尾",针对的是当年红军里不下实地、拍脑袋定策略的本本主义。用今天的话重述,它撞上的正是confirmation bias——我无意说他1930年就在谈统计意义上的选择性采样,但"结论必须长在调查的末尾、不能长在它的先头"这个要求,和确认偏误的病理是同一个。真实世界里的顺序常常是反的:老板先有了一个想法,让团队"去调查一下"。团队心知肚明他要什么,于是设计出能验证它的问卷、挑出能支撑它的切片、把不利的数据归为噪声。整套流程披着"我们做过调查"的皮,内核是一场已经知道判决的庭审——结论在调查的先头就定了,调查只是补一份取证记录。

二、有数据、有调查、有洞察:能改掉你假设的,才配叫洞察

调查的质量分三档,大多数公司一辈子卡在第一档。有数据,是知道用户做了什么——埋点、行为日志、漏斗。有调查,是知道用户说了什么——访谈、NPS、问卷。有洞察,是知道用户为什么这么做,而且这个"为什么"逼着你改掉了原来的假设。前两档是信息,第三档才是发言权。判断你有没有到第三档只有一个标准:它有没有改变你原来相信的东西。没改变的不叫洞察,叫复述。

安心舍给我上过一次很硬的这种课。我们当时的假设很自然:情感陪伴产品的留存,靠的是AI回答的质量——更共情、更准、答得更长。我们真去做了A/B test,把模型换成更强、回答更细腻的版本,结果次日留存纹丝不动,甚至略降。数据摆在那,但一开始我们读不懂它意味着什么。于是退回去做笨功夫——亲手读高留存用户和流失用户的原始对话。读到几十条的时候,洞察才浮出来:高留存用户回来,几乎从不是因为某一句回答多惊艳,而是因为AI"记得"——记得他上周说奶奶走了,记得他在准备考研,记得他怕黑。低留存用户的对话则像Groundhog Day,AI每次都在和一个陌生人初次见面。

这条洞察把我们的假设掀翻了:留存的命门不在"答得多聪明",在"上下文记不记得住"。我们当即把资源从"换更大的模型"掉头到context和memory工程上——这也是我后来把Mem0、Letta、Zep这些agent memory框架挨个翻一遍的起点。如果那次只盯着A/B test里那个没动的留存数字,我们会得出"换强模型没用"然后就此放弃;是去读原始对话、是去追问"为什么",才把假设改对。这就是有数据和有洞察之间,隔着的那道坎。

三、教员把"怎么调查"拆成七条手艺,每一条都是AI产品的用户研究方法论

《反对本本主义》末尾那节"调查的技术",是全篇最该被产品经理抄走的部分。教员没停在"要调查"的口号上,他把怎么调查拆成了七条具体手艺。挑出和AI产品用户研究一一对应的几条看:

"要开调查会作讨论式的调查"——不是一对一发问卷收答案,是让几个用户互相讨论、彼此激发。结构化问卷只能验证你已经想到的问题,讨论式访谈才会冒出你根本没料到的东西,而洞察恰恰从那里来。"调查会到些什么人?要是能深切明了社会经济情况的人"——教员特意说,既要经验丰富的老年人,也要思想锐利的青年人。翻成产品话就是:别只听power user,也别只听跑来投诉的人,这两头都是有偏的样本,你要的是有代表性的人。"要亲身出马……不能单靠书面报告,因为二者是两回事"——创始人和PM亲手读一百条原始对话,和看数据团队汇总好的二手PPT,是两个物种的认知:聚合会把所有反常的、刺痛你的细节抹平,而洞察偏偏长在那些细节里。

"要深入"是说初次调查得在一个问题上钻到底里,而不是每个问题浅尝一口——AI产品里一种隐秘的浪费,就是同时盯着四十个指标,每个都只瞟一眼,没有一个看到底。"要自己做记录,假手于人是不行的"——别把这步外包出去,因为整理的过程就是思考的过程,二手结论永远丢掉了原话里那点说不清、却要命的语气。七条里唯一要打个补丁的是"要定调查纲目":纲目能让调查不散,但它也最容易变成确认偏误的剧本——你只问你想问的,于是只得到你想要的。补丁就藏在教员自己的做法里:纲目是"每事问"的起点,不是终点,真正值钱的答案往往落在纲目之外。

四、批判性分析,就是主动把自己放到要被反驳的位置

那么,给调查"加上的那一层"——批判性分析——具体是什么动作?从桥水的视角,它就一件事:对每一个让你高兴的数据,主动去找它错在哪、被什么污染了。

我自己跑过一版risk parity的变体,backtest从2010年拉到2021年,曲线漂亮得不真实,Sharpe高得离谱,差一点就让我信了它是个真规律。问题全藏在那段窗口里:2010到2021年,股和债基本负相关,债券给股票提供了近乎完美的对冲,于是任何把仓位往债券上压的策略都自动显得"稳健"。我把窗口往前推到1970年代的滞胀,再让它穿过2022年那场股债双杀,曲线立刻原形毕露——它根本没发现什么规律,只是把"股债负相关"这个特定时代的假设焊死进了模型。Backtest没撒谎,它只是忠实地复述了一段恰好对我有利的历史。

这就是为什么桥水的反射动作是stress-test,不是庆祝:换个时间窗口还成立吗?换个国家、换个市场状态还成立吗?这是真信号,还是只要你愿意挖、总能从历史里挖出来的过拟合?这套怀疑论搬到产品里几乎一一对应——一个A/B test赢了,先别开香槟,问它在别的用户群赢吗?别的入口、别的季节赢吗?它会不会只是这批样本的噪声,或者新鲜感带来的、两周后就蒸发的假提升?Dalio那句pain plus reflection equals progress,反过来念就是:不让你难受的复盘,没产生任何progress。

批判性分析的内核,是把自己当成需要被反驳的对象,而不是需要被证明的对象。确认偏误的人拿数据找"我是对的"的证据,做分析的人拿数据找"我哪里可能错了"的证据。同一份调查、同样几万条数据,这两种人会读出截然相反的东西。你愿不愿意主动去找那个让自己难堪的反例,基本就决定了你的调查是在逼近真相,还是在精装修一个你早就想要的结论。

留一个你只能自己回答的问题。不是"你上次的调查有没有改变你的假设"——这门槛太低,嘴上承认很容易。真正的问题是:上一次某个数据推翻了你深信的东西之后,你真把资源掉头了吗,还是点了头说"有道理",然后roadmap一行没改、预算一分没动、下个季度照着原计划走?

调查改变认知,只是十月怀胎;认知改变行动,才是一朝分娩。绝大多数人的调查,都死在产房门口——结论生出来了,没人敢抱走。