今天 OpenAI o1 团队通过 X 组织了一个 AMA（Ask Me Anything）的活动，团队通过这个推文下的评论和用户互动。有网友已经整理了 AMA 的内容，这里简单转译一下：原始推文： t.co/SCeJ61jYdK *** 我们今天在AMA环节中与OpenAI o1团队的学习总结 ### 模型名称和推理范式

@dotey@x.good.news

今天 OpenAI o1 团队通过 X 组织了一个 AMA（Ask Me Anything）的活动，团队通过这个推文下的评论和用户互动。有网友已经整理了 AMA 的内容，这里简单转译一下：原始推文： t.co/SCeJ61jYdK *** 我们今天在AMA环节中与OpenAI o1团队的学习总结 ### 模型名称和推理范式 - OpenAI o1的命名代表了一种新的AI能力水平；计数器重置为1 - “Preview”表示这是完整模型的早期版本 - “Mini”表示它是o1模型的较小版本，优化了速度 - “o”代表OpenAI - o1不是一个“系统”；它是一个训练生成长推理链的模型，然后再给出最终答案 - o1的图标象征着一个拥有非凡能力的外星人 ### o1模型的大小和性能 - o1-mini比o1-preview小得多且更快，因此未来将提供给免费用户 - o1-preview是o1模型的早期检查点，既不大也不小 - o1-mini在STEM任务中表现更好，但世界知识有限 - 与o1-preview相比，o1-mini在某些任务上表现更好，尤其是在代码相关任务中 - o1的输入Token计算方式与GPT-4o相同，使用相同的分词器 - o1-mini可以比o1-preview探索更多的思维链 ### 输入Token上下文和模型能力 - 更大的输入上下文即将为o1模型提供 - o1模型能够处理更长、更开放的任务，较少需要像GPT-4o那样进行输入分块 - o1可以在给出答案之前生成长推理链，这不同于之前的模型 - 当前无法在链式推理（CoT）过程中暂停推理以添加更多上下文，但正在为未来模型探索此功能 ### 工具、功能和即将推出的特性 - o1-preview目前还不使用工具，但计划支持函数调用、代码解释器和浏览功能 - 工具支持、结构化输出和系统提示将在未来更新中添加 - 用户最终可能会获得对思考时间和Token限制的控制权 - 正在计划启用流式传输并在API中考虑推理进展 - 多模态能力内置于o1中，旨在在诸如MMMU等任务中达到最先进的表现 ### 链式推理 (CoT) - o1在推理过程中生成隐藏的推理链 - 目前没有计划向API用户或ChatGPT公开CoT Token - CoT Token被总结，但无法保证其完全忠实于实际推理过程 - 提示词中的指令可以影响模型如何思考问题 - 使用强化学习 (RL) 改进了o1的链式推理性能，GPT-4o无法仅通过提示词匹配其CoT表现 - 思维阶段看起来较慢，因为它总结了思维过程，但生成答案的速度通常更快 ### API和使用限制 - o1-mini对ChatGPT Plus用户的每周限制为50个提示词 - 在ChatGPT中，所有提示词计算方式相同 - API访问的更多层次和更高的速率限制将逐步推出 - API中提示词缓存功能备受期待，但尚无时间表 ### 定价、微调和扩展 - o1模型的定价预计每1-2年将遵循价格下降趋势 - 当速率限制增加时，将支持批量API定价 - 微调已在计划中，但时间表尚不确定 - o1的扩展因研究和工程人才的瓶颈而受限 - 推理计算的新扩展范式可能会为未来几代模型带来重大收益 - 逆向扩展问题目前并不突出，但个人写作提示中，o1-preview的表现仅略优于GPT-4o（甚至略逊） ### 模型开发和研究见解 - o1通过强化学习训练以实现推理性能 - 该模型在诗歌等横向任务中展现了创造性思维和强大的表现 - o1的哲学推理和泛化能力（例如破译密码）令人印象深刻 - 研究人员使用o1创建了一个GitHub机器人，该机器人可以提醒正确的CODEOWNERS进行代码审查 - 在内部测试中，o1通过对自己提出困难问题来评估其能力 - 正在添加广泛的世界领域知识，未来版本会有所改进 - 计划为未来迭代的o1-mini提供更新的数据（当前截至2023年10月） ### 提示技巧和最佳实践 - o1受益于提供边界情况或推理风格的提示技巧 - 与早期模型相比，o1模型对提示中的推理线索更为敏感 - 在检索增强生成（RAG）中提供相关的上下文可以改善性能；不相关的部分可能会削弱推理 ### 一般反馈和未来改进 - 由于处于早期测试阶段，o1-preview的速率限制较低，但将会增加 - 正在积极努力改进延迟和推理时间 ### 模型的卓越能力 - o1可以思考诸如“生命是什么？”等哲学问题 - 研究人员发现o1在处理复杂任务和从有限指令中进行泛化方面表现令人印象深刻 - o1的创造性推理能力，例如通过自我测试来评估其能力，展示了其高水平的解决问题能力

查看详情

@dotey@x.good.news

0/481