推文详情
@imxiaohu@x.good.news
Karpathy 认为模型将会越来越小 而且更加智能
他认为目前的模型很大是因为,它们在训练过程中浪费了很多资源记住了互联网的内容。未来,通过改进训练数据,我们可以让模型变得更小,但更智能。
以下是主要观点:
1. 模型大小与思考能力:
• 目前的模型之所以如此庞大,是因为我们在训练过程中非常浪费资源,让它们记住了互联网的大量信息。这些模型甚至可以记住 SHA 哈希值等非常具体的细节。
• LLM 在记忆方面表现得比人类更好,能够在只需一次更新的情况下记住大量细节。
2. 训练方法的不足:
• 当前模型的预训练目标是背诵互联网的任意段落,这种训练方式导致模型需要记住大量的知识,而这些知识与“思考"能力交织在一起。
3. 未来的发展方向:
• 为了提高模型的思考能力,训练数据需要经过模型自动化的帮助进行重构和优化,形成理想的、合成的训练数据格式。
• 这种改进类似于一个阶梯式的过程,每个新模型帮助生成下一个模型的训练数据,直到达到“完美的训练集”。
4. 小模型的可能性:
• 未来即便是 GPT-2 规模的模型,如果在完美训练集上训练,也可能成为非常强大的模型。
• 虽然它们在某些细节上可能不如当前的大模型(例如化学知识记忆),但总体上会表现得更加智能。
原文翻译:
LLM模型大小的竞争正在加剧……反向发展!
我的赌注是,我们会看到一些非常非常小的模型,它们能够“思考”得非常好且可靠。很可能存在某种GPT-2参数设置,使得大多数人会认为GPT-2“聪明”。
当前模型如此庞大的原因是因为我们在训练过程中非常浪费资源——我们让它们记住整个互联网,而令人惊讶的是,它们确实做到了,例如可以背诵常见数字的SHA哈希值,或者记住非常晦涩的事实。(实际上,LLM在记忆方面非常出色,质上比人类好得多,有时只需一次更新就能长时间记住大量细节)。
但想象一下,如果你需要在闭卷测试中背诵互联网上任意段落的内容,只给出前几个词。这就是今天模型的标准(预)训练目标。做得更好的原因在于“思考”的展示与训练数据中的知识是“纠缠”在一起的。
因此,模型必须先变大然后再变小,因为我们需要它们(自动化地)帮助重构和塑造训练数据,使其成为理想的、合成的格式。
这是一个改进的阶梯——一个模型帮助生成下一个模型的训练数据,直到我们得到“完美的训练集”。当你用它来训练GPT-2时,它将成为一个非常强大/聪明的模型,以今天的标准来看。也许它的MMLU(多任务语言理解)得分会稍微低一些,因为它不会完美地记住所有化学知识。也许它偶尔需要查找一些东西以确保正确。