最近收听了好友吴翼的播客,收获了很多强化学习的知识,也收获了很多人生的道理。
吴翼是研究强化学习领域的专家。他曾在 OpenAI 工作,是一线的 AI 创业者,现在清华叉院当助理教授(非常年轻)。
这期播客干货满满,是近期最有价值的播客之一。
我从中摘要了一些精华,分享给大家。
- RL 要解决的问题没有标准答案,每一步的具体决策也不受约束。
- 我们只能不断尝试,接收反馈,调整策略,继续尝试。
- 但人生的奖励函数是什么?财富?成就?内心的宁静?
- 人是“Diversity-driven”(多样性驱动)的,我们天生追求不同的体验,这才构成了多姿多彩的人生。
- 人还是要追求‘熵值最大化’的生活方式,”
- 要想找到自己的奖励函数,首先需要多主动探索,先和世界交手个三百回合。
- 创业公司不该有终局思维。恰恰相反,创业公司的机会恰恰在终局到来之前。
机器学习和强化学习
吴翼首先讲述了机器学习(ML)和强化学习(RL)的区别。
传统的机器学习,好比训练一个学生去记住大量标准答案,比如看图片认猫狗、人脸和指纹识别。
这类问题通常有两个特点:
一步到位,答案明确。
但 RL 和 ML 有很大的不同,RL 就像是在玩一场游戏:
第一,游戏不是一步到位,而是在过程中有非常多的动作和决策。
比如我们玩一个打乒乓球的游戏,发球、接球、回球,每一个动作都是非标的,而且不同的选择会直接影响最终的结果。
第二,赢得一场游戏的方式可能有成千上万种,并没有唯一的标准答案。
RL 要解决的问题没有标准答案,每一步的具体决策也不受约束,但当完成所有决策后,会有一个反馈机制来评判它最终做得好还是不好。
强化学习就像游戏,也像极了真实的人生。
我们面临无数选择,都不是简单的是非对错,也没有人给我们“通关攻略”。
我们只能不断尝试,接收反馈,调整策略,继续尝试。
人生就是一场强化学习
人生就像一场强化学习,但又和强化学习有很大的不同。
吴翼指出了其中的关键差异:
标准的 RL 需要明确的‘奖励函数’,比如游戏里‘赢了’就是奖励。
但人生的奖励函数是什么?财富?成就?内心的宁静?
这或许是人生这场“游戏”最核心的挑战。
“我们不仅在玩游戏,更重要的,是要在过程中探索和定义,什么才是我们真正想要的‘奖励’。很多人可能努力了很久,最后发现找错了目标。”
他还观察到:传统的 RL 模型找到有效策略后会不断重复,因为它只在乎结果。但人不一样。
“人虽然也想赢,但可能会想换个赢法。比如踢球,总用单刀会腻,就想试试头球。”
人是“Diversity-driven”(多样性驱动)的,我们天生追求不同的体验,这才构成了多姿多彩的人生。
很多他的学生在做职业选择时,倾向于选择“风险最低”路径。
但他觉得:
“人还是要追求‘熵值最大化’的生活方式”
什么是熵值最大化?
DeepSeek:指在有限的约束条件下,尽可能保持人生的多样性和可能性,避免过早固化或陷入单一路径。
找到自己人生的“奖励函数”
既然找到奖励函数或许是人生这场“游戏”最核心的挑战,那如何才能找到它?
吴翼认为,找到奖励函数的关键在于主动探索和试错。
他分享了自己的经历:
“如果当年我在伯克利读书时,没有主动去敲隔壁另一个导师的门,可能最终不会拐上强化学习这条路。”
他也提到,在他的研究中,比如做一个能和人玩《Overcooked》协作游戏的 AI,AI 就必须通过不断尝试和互动,来“猜测”人类玩家的意图,也就是它需要优化的“奖励函数”。
“要想找到自己的奖励函数,首先需要多主动探索,先和世界交手个三百回合。”
尤其在年轻的时候,多尝试、多跳出舒适区看看,即使“试错”也是有价值的积累。
创业公司与终局思维
既然 RL 如此重要,大模型公司也都会做,那创业公司是否有必要做 RL呢?
吴翼说,创业公司不该有终局思维。恰恰相反,创业公司的机会恰恰在终局到来之前。
现在 AI 发展得这么快,如果你真的去考虑终局,很可能会陷入一种无意义感,觉得世界上没有你的机会。
Manus 就是一个特别好的例子,在市场上还没有太多类似产品的时候,他们以最快的速度做出了一个可用的产品,抓住了机会。
结语
强化学习不仅仅是代码和算法,它更像是一种世界观,一种理解复杂系统、应对不确定性的方法论。
吴翼的分享,从技术前沿延展到人生哲学,让“强化学习”、“奖励函数”、“熵值最大化”这些概念变得鲜活起来。
人生这场独一无二的“强化学习”,没有预设的“最优策略”,也没有唯一的“奖励函数”。
最重要的是保持开放,主动去“和世界交手”,在试错中探索属于自己的价值和意义。
不要陷入终局思维的陷阱,而去拥抱过程的多样性,追求熵值的最大化的人生。
以上就是今天的全部分享。
强烈推荐大家去听原版播客,相信你也会有自己的收获。
https://www.xiaoyuzhoufm.com/episode/67efcaf5f9578163d601286a