推文详情
avatar
@imxiaohu@x.good.news
Karpathy 认为模型将会越来越小 而且更加智能 他认为目前的模型很大是因为,它们在训练过程中浪费了很多资源记住了互联网的内容。未来,通过改进训练数据,我们可以让模型变得更小,但更智能。 以下是主要观点: 1. 模型大小与思考能力: • 目前的模型之所以如此庞大,是因为我们在训练过程中非常浪费资源,让它们记住了互联网的大量信息。这些模型甚至可以记住 SHA 哈希值等非常具体的细节。 • LLM 在记忆方面表现得比人类更好,能够在只需一次更新的情况下记住大量细节。 2. 训练方法的不足: • 当前模型的预训练目标是背诵互联网的任意段落,这种训练方式导致模型需要记住大量的知识,而这些知识与“思考"能力交织在一起。 3. 未来的发展方向: • 为了提高模型的思考能力,训练数据需要经过模型自动化的帮助进行重构和优化,形成理想的、合成的训练数据格式。 • 这种改进类似于一个阶梯式的过程,每个新模型帮助生成下一个模型的训练数据,直到达到“完美的训练集”。 4. 小模型的可能性: • 未来即便是 GPT-2 规模的模型,如果在完美训练集上训练,也可能成为非常强大的模型。 • 虽然它们在某些细节上可能不如当前的大模型(例如化学知识记忆),但总体上会表现得更加智能。 原文翻译: LLM模型大小的竞争正在加剧……反向发展! 我的赌注是,我们会看到一些非常非常小的模型,它们能够“思考”得非常好且可靠。很可能存在某种GPT-2参数设置,使得大多数人会认为GPT-2“聪明”。 当前模型如此庞大的原因是因为我们在训练过程中非常浪费资源——我们让它们记住整个互联网,而令人惊讶的是,它们确实做到了,例如可以背诵常见数字的SHA哈希值,或者记住非常晦涩的事实。(实际上,LLM在记忆方面非常出色,质上比人类好得多,有时只需一次更新就能长时间记住大量细节)。 但想象一下,如果你需要在闭卷测试中背诵互联网上任意段落的内容,只给出前几个词。这就是今天模型的标准(预)训练目标。做得更好的原因在于“思考”的展示与训练数据中的知识是“纠缠”在一起的。 因此,模型必须先变大然后再变小,因为我们需要它们(自动化地)帮助重构和塑造训练数据,使其成为理想的、合成的格式。 这是一个改进的阶梯——一个模型帮助生成下一个模型的训练数据,直到我们得到“完美的训练集”。当你用它来训练GPT-2时,它将成为一个非常强大/聪明的模型,以今天的标准来看。也许它的MMLU(多任务语言理解)得分会稍微低一些,因为它不会完美地记住所有化学知识。也许它偶尔需要查找一些东西以确保正确。
查看详情
0
0
0
@imxiaohu@x.good.news
0/478
加载中