终于 OpenAI 发布了期待已久的新模型 o1 🍓 t.co/l2iw4OVFv9 这个全新的模型经过强化学习训练，可以执行复杂的推理，在回答问题之前，它会先思考！因此，o1 在各种基准测试上表现都好与 GPT-4o，尤其是在数学、物理这种多推理少废话的学科上，能力大幅提升；在模拟编程竞赛上 o1 的 Elo 评分达到了 1807，远超 GPT-4o 的 808 分，可惜没看到和 Claud

@indigo11@x.good.news

终于 OpenAI 发布了期待已久的新模型 o1 🍓 t.co/l2iw4OVFv9 这个全新的模型经过强化学习训练，可以执行复杂的推理，在回答问题之前，它会先思考！因此，o1 在各种基准测试上表现都好与 GPT-4o，尤其是在数学、物理这种多推理少废话的学科上，能力大幅提升；在模拟编程竞赛上 o1 的 Elo 评分达到了 1807，远超 GPT-4o 的 808 分，可惜没看到和 Claude 3.5 Sonnet 的 Coding 能力对比。。但 o1-preview 在一些自然语言任务的人类评估中表现可能还不如 GPT-4o，例如写作和文字修改方面，感觉逻辑推理强了，说话就不那么好听了，是不是像人类的理科生？ OpenAI 特意提到了 o1 采用了“隐藏思维链”技术，就是我会给你缜密思考后的答案，但不会告诉你我是怎么想的。。。OpenAI 最终决定不向用户展示原始思维链，这是在权衡了用户体验、竞争优势以及进行思维链监控的选择等多重因素后作出的决定。正如萨顿教授在《苦涩的教训》中所说，只有两种技术可以无限地随着算力提升而扩展 - “学习”和“搜索”！引用 @DrJimFan 的观点，从 o1 的表现我们看到了 OpenAI 正在向用“推理搜索来提升模型能力”的范式转移。你不需要一个巨大的模型来执行推理，可以从知识中分离出推理，即一个小的“推理核心” ，它知道如何检索和使用代码验证器等工具，这样预训练的计算消耗可能会减少🤔 如果 o1 表现良好，那就很容易成为数据飞轮，这反过来又改进了 GPT 未来版本的推理核心，类似于 AlphaGo 那样，通过生成越来越精细的训练数据来改进其推理的方法。但这是否也意味着 OpenAI 在预训练与其它 RL 方法上撞墙后的策略变化呢？不过无所谓，Scaling Law 在哪个阶段用什么方法，能够 Scaling 就行，GPU 不能少😄

查看详情

@indigo11@x.good.news

0/478