这是一个朴素的方法。

简单但是行之有效,是经过理论和实践的双重检验。

不管是产品、运营还是大学生实习,都一学就会,用过之后甚至会觉得比预期的还要简单。

为了简单,也不引用各种概念(RLHF、PPO、DPO、RHAIF、Self-Reward什么的)。

只写每个人都一看就懂,每个人都轻松上手的方法。

使用模型时遇到的最常见的问题

大家都说大模型好用,什么事情都知道,什么问题都能回答,但是用在自己的用户场景里,经常会遇到这些问题:

  • 模型输出结果不够理想,不如人写的好,而且总有badcase。
  • 看模型跑分刷榜分都很高,实际用起来却像开了个廉价的车,怎么开都不顺手。
  • 有些参数量很小的模型,价格便宜推理快速,但是能力又差点意思。

这些问题的本质就是模型没见过你的用户场景,所以无法很好地完成任务。

评价一个模型好不好,标准有很多,但核心的标准只有一个:

  • 在我的用户场景里是不是个好模型。

接下来让我们一起看看怎么搞个好模型。

原理和思路

模型的学习方法是见多识广

教育模型的方法是举个栗子( show,not tell)

一个例子不够就一百个例子。

一个例子不够就一万个例子。

思路就是这么简单粗暴。

再讲讲原理。

好数据出好模型。

要训好模型,核心就是搞出好的训练数据。

拆解下来就是三件事:

  • 训练数据
  • 好的数据
  • 好的模型

训练数据怎么搞?

左脚踩右脚,用大模型来搞。

怎么评价数据好不好?

左脚踩右脚,用大模型来搞。

怎么评价模型好不好?

左脚踩右脚,用大模型来搞。