Meta AI 研究员：网络上的文本基本都是“狗屎” Llama 3 没有使用任何人类书写的答案全是合成数据 Latent Space采访了 Meta AI 研究员 Thomas Scialom，他领导了 Llama2 和现在的 Llama3 训练后工作。他们详细讨论了Llama 3.1预训练（如合成数据、数据管道、缩放法则等）和后训练（如强化学习人类反馈 (RLHF) 与指令调优、评

@imxiaohu@x.good.news

Meta AI 研究员：网络上的文本基本都是“狗屎” Llama 3 没有使用任何人类书写的答案全是合成数据 Latent Space采访了 Meta AI 研究员 Thomas Scialom，他领导了 Llama2 和现在的 Llama3 训练后工作。他们详细讨论了Llama 3.1预训练（如合成数据、数据管道、缩放法则等）和后训练（如强化学习人类反馈 (RLHF) 与指令调优、评估、工具调用）方面的内容。据 Thomas Scialom： 1. 合成数据： - 我的直觉是，网络上的文本都是狗屎，在这些标记上进行训练是在浪费计算量"。 - Llama 3 后期训练没有使用任何人类书写的答案，而是完全依赖于Llama 2生成的纯合成数据。” 2. 合成数据的具体应用： - 代码生成：使用三种方法生成代码合成数据，包括代码执行反馈、编程语言翻译和文档反向翻译。 -数学推理：借鉴了“让我们逐步验证"作者的研究，进行合成数据生成。 -多语言处理：通过90%的多语言令牌继续预训练，收集高质量的人类注释。 - 长文本处理：依赖于合成数据来处理长文本的问答、长文档摘要和代码库推理。 - 工具使用：在Brave搜索、Wolfram Alpha和Python解释器上训练进行单次、嵌套、并行和多轮函数调用。 3. 强化学习与人类反馈（RLHF）： - 广泛使用人类偏好数据进行模型训练。 - 强调了人类在两者之间进行选择（如选择两首诗中更喜欢哪一首）而非创作（从零开始写一首诗）的能力。 4. Meta 已经在6 月份开始训练Llama 4，听起来一大重点将是围绕智能体展开。 5.多模态版本将有更多参数，稍后发布详细内容：t.co/XecY9NXVGi

查看详情

@imxiaohu@x.good.news

0/478