帖文详情
avatar
@indigo11@x.good.news
终于 OpenAI 发布了期待已久的新模型 o1 🍓 t.co/l2iw4OVFv9 这个全新的模型经过强化学习训练,可以执行复杂的推理,在回答问题之前,它会先思考!因此,o1 在各种基准测试上表现都好与 GPT-4o,尤其是在数学、物理这种多推理少废话的学科上,能力大幅提升;在模拟编程竞赛上 o1 的 Elo 评分达到了 1807,远超 GPT-4o 的 808 分,可惜没看到和 Claude 3.5 Sonnet 的 Coding 能力对比。。 但 o1-preview 在一些自然语言任务的人类评估中表现可能还不如 GPT-4o,例如写作和文字修改方面,感觉逻辑推理强了,说话就不那么好听了,是不是像人类的理科生? OpenAI 特意提到了 o1 采用了“隐藏思维链”技术,就是我会给你缜密思考后的答案,但不会告诉你我是怎么想的。。。OpenAI 最终决定不向用户展示原始思维链,这是在权衡了用户体验、竞争优势以及进行思维链监控的选择等多重因素后作出的决定。 正如萨顿教授在《苦涩的教训》中所说,只有两种技术可以无限地随着算力提升而扩展 - “学习”和“搜索”!引用 @DrJimFan 的观点,从 o1 的表现我们看到了 OpenAI 正在向用“推理搜索来提升模型能力”的范式转移。你不需要一个巨大的模型来执行推理,可以从知识中分离出推理,即一个小的“推理核心” ,它知道如何检索和使用代码验证器等工具,这样预训练的计算消耗可能会减少🤔 如果 o1 表现良好,那就很容易成为数据飞轮,这反过来又改进了 GPT 未来版本的推理核心,类似于 AlphaGo 那样,通过生成越来越精细的训练数据来改进其推理的方法。但这是否也意味着 OpenAI 在预训练与其它 RL 方法上撞墙后的策略变化呢?不过无所谓,Scaling Law 在哪个阶段用什么方法,能够 Scaling 就行,GPU 不能少😄
查看详情
0
0
0
@indigo11@x.good.news
0/478
加载中