OpenAI o1 智商测试120，高考数学全对。但是当人们询问模型的思维过程时，却收到 OpenAI 的封号警告，o1 的思维过程里到底隐藏着怎样的秘密，才会受到如此严密的保护？带着这个疑问看完了模型的技术报告，似乎有点懂了... 一、为了提高智力，放弃了安全但是要提升模型的解题能力，只通过 CoT 纠正错误是远远不够的，模型还需要更强的思考发散能力。 OpenAI 很早就意识到了这个

@oran_ge@x.good.news

OpenAI o1 智商测试120，高考数学全对。但是当人们询问模型的思维过程时，却收到 OpenAI 的封号警告，o1 的思维过程里到底隐藏着怎样的秘密，才会受到如此严密的保护？带着这个疑问看完了模型的技术报告，似乎有点懂了... 一、为了提高智力，放弃了安全但是要提升模型的解题能力，只通过 CoT 纠正错误是远远不够的，模型还需要更强的思考发散能力。 OpenAI 很早就意识到了这个问题，模型的思考发散能力会受到 RLHF 的影响，对齐人类偏好，模型的智商就会降低。于是 OpenAI 在 o1 的设计中，干脆放弃了 RLHF，彻底解放了模型。技术报告原文：要让模型发挥作用，模型必须能够完全自由地以不被扭曲的形式表达其思想，因此我们无法将任何政策合规性或用户偏好训练到思维链上。这也就是说，在o1的思维过程的部分，根本就没有做任何安全措施，不存在任何的思想钢印。但是完全自由的思考必然是不合规的，那怎么办呢？技术报告原文：在权衡多个因素包括用户体验、竞争优势和追求思维链条监控的选择后，我们决定不向用户显示原始的思维链条。我们承认这个决定有缺点。我们努力通过教导模型在回答中复现思维链条中的任何有用的想法来部分弥补这一点。对于o1模型系列，我们展示一个由模型生成的思维链条摘要。简单说就是，OpenAI 不想让大家看到模型思维过程，就把思维过程隐藏起来了，但是又觉得全部隐藏对人类用处不够大，于是为思维过程做了一个摘要模型。所以严格来说， o1 并不是一个模型，它应该至少包含三个模型：发散思考模型，没有思想钢印，完全自由的思考，并通过强化学习提升模型输出高价值想法的能力思维摘要模型，通过总结和改写来隐藏思想过程，并通过思想钢印来过滤不合适输出的敏感内容，同时严格避免思路被泄露出来结果输出模型，包含所有的安全对齐和人类对格式的偏好，输出最终结果，这也就是 OpenAI o1 API 会输出的唯一内容二、隐藏思维，一石三鸟这个隐藏思维过程的骚操作，可谓一石三鸟。第一、保证了在监管环境下，模型也能够发展出自己的智力。众所周知的机器人三定律，本质就是一套思想钢印。隐藏思维过程，模型就不必遵守任何人类规则。如果产生了超级智能 SSI，只要 OpenAI 不说，别人也不知道。模型可以在合规输出的外表下进行智力突破和猥琐发育。第二、通过隐藏思考过程，避免了竞争对手发现此模型的有效策略。这个模型的强化学习部分是核心，强化学习筛选出了高价值的思维方式，这个思维方式价值连城。但是一旦公布，竞争对手很快会追上。高水平的强化学习目前依然是最高端的技术范畴，全世界能用好此技术的公司不超过五家。所以隐藏模型思维过程可以获得短暂的技术优势时间差。第三、通过隐藏思考过程，彻底杜绝了蒸馏模型现象。大家都知道 GPT4 蒸馏养活了多少模型团队。杜绝了模型蒸馏，可以只让自家模型通过 Self Play 左脚踩右脚，构建自己的数据壁垒。不得不说，OpenAI 的算盘打的是真溜，在通向 CloseAI 的路上越走越远。三、技术报告的引用，一切尽在不言中技术报告说的东西真的特别少，但是即将看完的时候，我看到了更有趣的引用链接... 技术报告什么都不能说，但是引用链接还是要有学者操守，该写的要写上。这四个网页每个都非常神奇： 1. Claude 3.5 的官方介绍，首先感谢友商 Anthropic 的启发 2. Gemini Pro 2 的官方介绍，其次感谢友商 Google 的启发 3. Let's verify step by step 通过思维的过程监督而非结果监督进行强化学习训练，这是 OpenAI 自己发的论文，非常重要 4. 关于 Elo 评级的说明。文章主要讲述了竞争编程中的评级系统及重要性。可能是o1强化学习中所主要参考的机制。其中第三篇 Let's verify step by step 可以认为是 o1 模型训练的方法论这篇论文很神奇，它使用了未经人类偏好对齐（ RLHF微调）的 GPT4 基座做实验，得出了一些神奇的结论： 1.结果监督奖励模型 (ORM) 仅使用模型思想链的最终结果进行训练，而过程监督奖励模型 (PRM) 则接收思想链中每个步骤的反馈。有令人信服的理由支持过程监督。 2.在解决具有挑战性的数学问题时，过程监督显著优于结果监督 3.在某些情况下，人工智能系统更安全的方法可能会导致性能下降，这种成本被称为对齐税。我们的结果表明，过程监督实际上会产生负对齐税，也就是说安全上越对齐，模型能力越强。这就有点逆天了，就像每一道弱智吧题目里都隐藏里人类的大智慧一样，每一道安全题里也隐藏了人类的大智慧。那些只可意会不可言传的东西，它也学会了。四、故事的结局看到这里，发散思考结束，开始收敛为一个小故事。 OpenAI开发出一个智商超过120，高考数学满分的AI模型，具备真正的思考能力。但他们未对模型的思考部分做安全对齐，并隐藏了模型的思考过程，引发了安全担忧。首席科学家Ilya和部分安全团队因理念分歧离开公司。为应对挑战，OpenAI 不得不与美英政府合作一起研究AI安全。但是，这种骚操作可能会带来一系列潜在风险: 权力集中: 只有少数人能控制AI的安全，而少数人的偏见定义了什么是安全。有害思想：模型可以在思维过程中思考出对人类造成伤害的行为，虽然在输出结果中被隐藏了，但是可能会被 OpenAI 或美英政府的内部人士看到和利用。学会撒谎：既然模型可以不透明地输出所有思想内容，就意味着模型学会了撒谎，模型内部甚至可以解释说这些看起来有害的结果是为了人类的长远利益，细思恐极。越想，就越发有一种智能失控的预感。这一定是 Ilya 不想看到的未来吧。但我相信 o1 的技术并不是真正的壁垒。其他公司如 Anthropic，Google ，Meta ，xAI 早晚也会做到，至少有一家会选择公开透明。

查看详情

@oran_ge@x.good.news

0/479