Scaling Law 是2020年OpenAI提出的概念。
在这波 AI 浪潮中已经成为第一性原理。
Transformer 能大放异彩是因为其容易 Scaling 的特性。
Sora 相比 SD 能有更大的潜力,是因为其使用了 Transformer 替换 U-net,使其具备了 Scaling 的可能性 。

Scaling Law 的原本含义是说,模型的性能主要和计算量、模型参数量、数据大小三者相关。
但本文将不讨论其定义 ,而讨论 Scaling Law 的方法论,不仅适用于技术,也适用于商业和个人。
希望你从中可以获得启发。

Scaling Law 为什么能成为第一性原理

Transformer 能成为这个时代最强的算法主要是两个原因:

足够通用

不管是文本、音频、还是视频,所有的问题都可以被转换为「预测下一个token」。
为什么预测下一个token如此重要?
在《千脑智能》一书中,作者写过「我们从新皮质学习一个丰富而详细的世界模型开始,它会利用这个模型不断预测下一个感觉输入是什么。」
预测下一个感觉,就是我们大脑的预测下一个token。它可是智能的第一性原理。
我们可以设想,如果我们在看一本侦探小说,书的最后一段话是,「凶手就是X」,X就是全书的最后一个token,如果AI能准确预测最后一个token,就代表AI读懂了这本书。

可规模化

投入足够多的算力、数据,它就会变得更好。
现在流行的文生图产品, MJ SD 都是基于 U-net 的,为什么 Sora 出来之后大家很兴奋?
因为 Transformer 符合 Scaling Law,只要在一个小参数上验证到了效果,就可以通过大力出奇迹的方式,堆叠算力和数据得到更好的效果。上限是模拟整个物理世界。自动驾驶、机器人等场景,都可以一并解决。
ChatGPT也是类似的,因为文本是对人类智能的压缩,只要 Scaling 下去,不停预测下一个 token,上限是人类的智能的集合。

世界的通用解

通用化+规模化,相当于我们有了一种方法,可以解决所有问题。

从这个维度看 AGI,也许是这样的:
AGI = (预测物理世界的下一秒 + 预测人类行为的下一秒)* N

Scaling Law 的实践的启发

Scaling Law 俗话说叫大力出奇迹。但是在实际操作中,会有一些问题。让我们一起看看。