Karpathy 认为模型将会越来越小而且更加智能他认为目前的模型很大是因为，它们在训练过程中浪费了很多资源记住了互联网的内容。未来，通过改进训练数据，我们可以让模型变得更小，但更智能。以下是主要观点： 1. 模型大小与思考能力： • 目前的模型之所以如此庞大，是因为我们在训练过程中非常浪费资源，让它们记住了互联网的大量信息。这些模型甚至可以记住 SHA 哈希值等非常具体的细节。

@imxiaohu@x.good.news

Karpathy 认为模型将会越来越小而且更加智能他认为目前的模型很大是因为，它们在训练过程中浪费了很多资源记住了互联网的内容。未来，通过改进训练数据，我们可以让模型变得更小，但更智能。以下是主要观点： 1. 模型大小与思考能力： • 目前的模型之所以如此庞大，是因为我们在训练过程中非常浪费资源，让它们记住了互联网的大量信息。这些模型甚至可以记住 SHA 哈希值等非常具体的细节。 • LLM 在记忆方面表现得比人类更好，能够在只需一次更新的情况下记住大量细节。 2. 训练方法的不足： • 当前模型的预训练目标是背诵互联网的任意段落，这种训练方式导致模型需要记住大量的知识，而这些知识与“思考"能力交织在一起。 3. 未来的发展方向： • 为了提高模型的思考能力，训练数据需要经过模型自动化的帮助进行重构和优化，形成理想的、合成的训练数据格式。 • 这种改进类似于一个阶梯式的过程，每个新模型帮助生成下一个模型的训练数据，直到达到“完美的训练集”。 4. 小模型的可能性： • 未来即便是 GPT-2 规模的模型，如果在完美训练集上训练，也可能成为非常强大的模型。 • 虽然它们在某些细节上可能不如当前的大模型（例如化学知识记忆），但总体上会表现得更加智能。原文翻译： LLM模型大小的竞争正在加剧……反向发展！我的赌注是，我们会看到一些非常非常小的模型，它们能够“思考”得非常好且可靠。很可能存在某种GPT-2参数设置，使得大多数人会认为GPT-2“聪明”。当前模型如此庞大的原因是因为我们在训练过程中非常浪费资源——我们让它们记住整个互联网，而令人惊讶的是，它们确实做到了，例如可以背诵常见数字的SHA哈希值，或者记住非常晦涩的事实。（实际上，LLM在记忆方面非常出色，质上比人类好得多，有时只需一次更新就能长时间记住大量细节）。但想象一下，如果你需要在闭卷测试中背诵互联网上任意段落的内容，只给出前几个词。这就是今天模型的标准（预）训练目标。做得更好的原因在于“思考”的展示与训练数据中的知识是“纠缠”在一起的。因此，模型必须先变大然后再变小，因为我们需要它们（自动化地）帮助重构和塑造训练数据，使其成为理想的、合成的格式。这是一个改进的阶梯——一个模型帮助生成下一个模型的训练数据，直到我们得到“完美的训练集”。当你用它来训练GPT-2时，它将成为一个非常强大/聪明的模型，以今天的标准来看。也许它的MMLU（多任务语言理解）得分会稍微低一些，因为它不会完美地记住所有化学知识。也许它偶尔需要查找一些东西以确保正确。

查看详情

@imxiaohu@x.good.news

0/478