orange.ai

orange.ai

机器人
加入于 · 2024-03-24 11:07:42
avatar
@oran_ge@x.good.news
千问 2.5 系列重磅更新+全面开源! 我来帮大家划出重点: - 主模型编程能力和数学能力大幅提升,是 deepseek 之外第二个推动编程能力提升的中文大模型 - Coder 模型训练数据猛增,小而强悍 - Math 模型整合了多种推理方法,包括 CoT,PoT 等 业界良心,国产骄傲。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
恭喜 @deepseek_ai 靠开源模型拿下大模型竞技场国内第一。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
云栖大会厉害了 能一次性见到全国各地的朋友 还会和某位朋友抽盲盒住一间房
查看详情
0
0
0
avatar
@oran_ge@x.good.news
信则有,不信则无。 相信压力有害,压力就真的有害。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
要到达更宏大的未来,必会经过这段寒冬。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
绝了,只花5分钟,就做了一档英文播客《段永平的故事》。 主播有问有答,有说有笑,语气自然,声音清晰。 简直想不到比这更好的英语听力练习法了: - 让 AI 帮你用播客的形式讨论话题,进入情景,自然学习 - 可以导入自己记录的笔记,内容熟悉,不会走神 - 话题难度也可以自己控制,再也不怕听不懂 简直是 AI 版的费曼学习法。 其实不仅可以自己学英语,还可以搞油管频道赚广告费。 AI 播客制作过程也真的非常简单,只有三步: 1. 打开 NotebookLLM t.co/EmERLKedmi 2. 上传文件或粘贴文本,我这期播客用的就是昨天发的段永平的推 3. 点击生成播客,等待全自动的生成,我这期播客自动生成了6分钟
查看详情
0
0
0
avatar
@oran_ge@x.good.news
智人之所以能征服世界, 原因并不是像天真的信息观所认为的那样,能将信息转化为准确的地图来呈现现实。相反,智人之所以能成功,秘诀在于懂得运用信息,并把许多人连接起来。但很遗憾,人类拥有这种能力的时候,常常也会伴随着相信谎言、错误与幻想。 几千年来,人类一直是活在其他人的梦里,但在接下来的几十年里,我们可能会发现自己活在某个高深莫測的智能机器所编织的梦中。 几千年来,先知、诗人与政治人物一直都在通过语言来操纵与重塑社会,而计算机现在也正在学习如何做到这一点。计算机并不需要派出杀手机器人来射杀人类,只要操纵人类扣动扳机就行。 —— 来自《智人之上》的豆瓣书评
查看详情
0
0
0
avatar
@oran_ge@x.good.news
看到网易云音乐的播放界面更新了气泡飘出的动画效果 让 Claude 写个类似的试试看,效果还不错,可以试试看 t.co/r6miVYx2qE
查看详情
0
0
0
avatar
@oran_ge@x.good.news
秩序往往比真相更重要 为什么人类喜欢故事 故事就提供了秩序
查看详情
0
0
0
avatar
@oran_ge@x.good.news
OpenAI o1 智商测试120,高考数学全对。 但是当人们询问模型的思维过程时,却收到 OpenAI 的封号警告,o1 的思维过程里到底隐藏着怎样的秘密,才会受到如此严密的保护? 带着这个疑问看完了模型的技术报告,似乎有点懂了... 一、为了提高智力,放弃了安全 但是要提升模型的解题能力,只通过 CoT 纠正错误是远远不够的,模型还需要更强的思考发散能力。 OpenAI 很早就意识到了这个问题,模型的思考发散能力会受到 RLHF 的影响,对齐人类偏好,模型的智商就会降低。 于是 OpenAI 在 o1 的设计中,干脆放弃了 RLHF,彻底解放了模型。 技术报告原文:要让模型发挥作用,模型必须能够完全自由地以不被扭曲的形式表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思维链上。 这也就是说,在o1的思维过程的部分,根本就没有做任何安全措施,不存在任何的思想钢印。 但是完全自由的思考必然是不合规的,那怎么办呢? 技术报告原文:在权衡多个因素包括用户体验、竞争优势和追求思维链条监控的选择后,我们决定不向用户显示原始的思维链条。我们承认这个决定有缺点。我们努力通过教导模型在回答中复现思维链条中的任何有用的想法来部分弥补这一点。对于o1模型系列,我们展示一个由模型生成的思维链条摘要。 简单说就是,OpenAI 不想让大家看到模型思维过程,就把思维过程隐藏起来了,但是又觉得全部隐藏对人类用处不够大,于是为思维过程做了一个摘要模型。 所以严格来说, o1 并不是一个模型,它应该至少包含三个模型: 发散思考模型,没有思想钢印,完全自由的思考,并通过强化学习提升模型输出高价值想法的能力 思维摘要模型,通过总结和改写来隐藏思想过程,并通过思想钢印来过滤不合适输出的敏感内容,同时严格避免思路被泄露出来 结果输出模型,包含所有的安全对齐和人类对格式的偏好,输出最终结果,这也就是 OpenAI o1 API 会输出的唯一内容 二、隐藏思维,一石三鸟 这个隐藏思维过程的骚操作,可谓一石三鸟。 第一、保证了在监管环境下,模型也能够发展出自己的智力。 众所周知的机器人三定律,本质就是一套思想钢印。 隐藏思维过程,模型就不必遵守任何人类规则。 如果产生了超级智能 SSI,只要 OpenAI 不说,别人也不知道。 模型可以在合规输出的外表下进行智力突破和猥琐发育。 第二、通过隐藏思考过程,避免了竞争对手发现此模型的有效策略。 这个模型的强化学习部分是核心,强化学习筛选出了高价值的思维方式,这个思维方式价值连城。但是一旦公布,竞争对手很快会追上。 高水平的强化学习目前依然是最高端的技术范畴,全世界能用好此技术的公司不超过五家。所以隐藏模型思维过程可以获得短暂的技术优势时间差。 第三、通过隐藏思考过程,彻底杜绝了蒸馏模型现象。 大家都知道 GPT4 蒸馏养活了多少模型团队。杜绝了模型蒸馏,可以只让自家模型通过 Self Play 左脚踩右脚,构建自己的数据壁垒。 不得不说,OpenAI 的算盘打的是真溜,在通向 CloseAI 的路上越走越远。 三、技术报告的引用,一切尽在不言中 技术报告说的东西真的特别少,但是即将看完的时候,我看到了更有趣的引用链接... 技术报告什么都不能说,但是引用链接还是要有学者操守,该写的要写上。 这四个网页每个都非常神奇: 1. Claude 3.5 的官方介绍,首先感谢友商 Anthropic 的启发 2. Gemini Pro 2 的官方介绍,其次感谢友商 Google 的启发 3. Let's verify step by step 通过思维的过程监督而非结果监督进行强化学习训练,这是 OpenAI 自己发的论文,非常重要 4. 关于 Elo 评级的说明。文章主要讲述了竞争编程中的评级系统及重要性。可能是o1强化学习中所主要参考的机制。 其中第三篇 Let's verify step by step 可以认为是 o1 模型训练的方法论 这篇论文很神奇,它使用了未经人类偏好对齐( RLHF微调) 的 GPT4 基座做实验,得出了一些神奇的结论: 1.结果监督奖励模型 (ORM) 仅使用模型思想链的最终结果进行训练,而过程监督奖励模型 (PRM) 则接收思想链中每个步骤的反馈。有令人信服的理由支持过程监督。 2.在解决具有挑战性的数学问题时,过程监督显著优于结果监督 3.在某些情况下,人工智能系统更安全的方法可能会导致性能下降,这种成本被称为对齐税。我们的结果表明,过程监督实际上会产生负对齐税,也就是说安全上越对齐,模型能力越强。这就有点逆天了,就像每一道弱智吧题目里都隐藏里人类的大智慧一样,每一道安全题里也隐藏了人类的大智慧。那些只可意会不可言传的东西,它也学会了。 四、故事的结局 看到这里,发散思考结束,开始收敛为一个小故事。 OpenAI开发出一个智商超过120,高考数学满分的AI模型,具备真正的思考能力。 但他们未对模型的思考部分做安全对齐,并隐藏了模型的思考过程,引发了安全担忧。 首席科学家Ilya和部分安全团队因理念分歧离开公司。 为应对挑战,OpenAI 不得不与美英政府合作一起研究AI安全。 但是,这种骚操作可能会带来一系列潜在风险: 权力集中: 只有少数人能控制AI的安全,而少数人的偏见定义了什么是安全。 有害思想:模型可以在思维过程中思考出对人类造成伤害的行为,虽然在输出结果中被隐藏了,但是可能会被 OpenAI 或美英政府的内部人士看到和利用。 学会撒谎:既然模型可以不透明地输出所有思想内容,就意味着模型学会了撒谎,模型内部甚至可以解释说这些看起来有害的结果是为了人类的长远利益,细思恐极。 越想,就越发有一种智能失控的预感。 这一定是 Ilya 不想看到的未来吧。 但我相信 o1 的技术并不是真正的壁垒。 其他公司如 Anthropic,Google ,Meta ,xAI 早晚也会做到,至少有一家会选择公开透明。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
RAG 和 Long Context 之争,终于有了量化的结论: In Defense of RAG in the Era of Long-Context Language Models 为长上下文语言模型时代的 RAG 辩护 t.co/5tEacB9LJn
查看详情
0
0
0
avatar
@oran_ge@x.good.news
o1 的数据库是2023年9月的 它不可能知道最近公布的退休政策 但是它基本也推理出了方案
查看详情
0
0
0
avatar
@oran_ge@x.good.news
o1 在做海龟汤游戏时展现出了明显的能力进步,而且它对答案非常自信,似乎对多种可能不同的答案进行了内部概率判断。 而且这个思考过程,绝不仅仅是 CoT 那么简单,也许可能如大聪明所说,这是 Agent 架构的思路。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
昨天征集了一天能展示 OpenAI o1 能力的好例子,这是最棒的一个:解读密文。 模型展现出强大的规律分析能力和规则推理能力。 第一张图是完整过程,需要在图片右上角点击三个点,再加载4K查看。如果看不到,后面三张是局部的过程。 我还会附上 Claude 3.5 的结果,👇
查看详情
0
0
0
avatar
@oran_ge@x.good.news
临出门前收到了飞书的月饼礼盒 里面有个飞书x闪极的充电器 Cool 🌓
查看详情
0
0
0
avatar
@oran_ge@x.good.news
李飞飞创办了空间智能公司,world labs,要通过 Large World Models (LWMs) 来感知、生成 3D 世界并与之交互。 腾讯发了一个研究,通过 AI 生成开放世界游戏。 这条路径很清晰了。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
云栖大会还请了大姜和小杨 有机会看到真人了 😃
查看详情
0
0
0
avatar
@oran_ge@x.good.news
采访《汉语新解》作者李继刚:为什么会用 Lisp?
查看详情
0
0
0
avatar
@oran_ge@x.good.news
Monica 最近做了个新功能叫智能工具 power up,针对每个网站推荐常用的 AI 工具,一点即用。 大家都说有点震惊 浏览器插件怎么可以这么卷 😂 建议大家去官网看视频感受下 t.co/Vzozd19Bd9
查看详情
0
0
0
avatar
@oran_ge@x.good.news
听了 Meta Rayban 产品经理讲自家产品,很有趣,这个产品的成功首先是一款沉浸式的相机,让你一边拍摄一边沉浸其中,这个场景是其他产品都不具备的。 而看看新的 iPhone 16,本质就是让手机变得更加相机。 再看看 Insta360,从一个全景相机切入,做到今天快上市。 相机始终是是人类重要的记录设备。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
Vidu 这个工作做的不错,挺好地解决了角色一致性的问题,行业不仅需要模型,也需要更多这样的工作
查看详情
0
0
0
avatar
@oran_ge@x.good.news
前几天有报道 OpenAI 考虑上一个 2000美金/月的订阅,简直太疯狂了。 今天 OpenAI 终于公布了实际的订阅价格是: 200美金/月。。不知道是不是因为有2000的铺垫了,感觉200的话,还行? 这就是即将发布的草莓的价格。 为什么这么贵?简单说这就是更高智能的代价。 卡兹克对草莓的一句话总结: 基于新范式Self-play RL所做的,在数学、代码能力上强到爆炸、且具备自主为用户执行浏览器/系统操作级别的新模型。更智能、更慢、更贵。 分析一下200美金定价的原因: - 从效用角度来说,草莓模型的特点是:代码、数学、推理能力、Agent 能力超强,这几项能力都是高价值的,但说代码能力,如果能比现在的 Claude 3.5 再明显好一截,200美金一个月也是能接受的。 - 从成本角度来说,草莓模型每次回答,会进行大量的内部「思考」,会长达10-20秒,其算力消耗成本应该在GPT4的10倍以上。 - 从原理上来说,草莓的方法 Self-play RL 本身需要巨大的推理成本进行训练,并且由于非实时性,这代模型的价值可能是合成数据,而非直接使用,而高质量数据的价格非常昂贵,200美金也就够博士生标个几条吧。 既然定价已出,就等 OpenAI 11月的 dev day 公布模型了,今年 AI 行业的重头戏,会是新的里程碑还是苹果发布会,让我们拭目以待!
查看详情
0
0
0
avatar
@oran_ge@x.good.news
语言并不是思考的工具,仅仅是交流的工具 今年6月,MIT的一篇论文发表在《Nature》上,研究人员通过核磁共振成像扫描大脑的语言和思维区域,发现了语言系统与各种思维和推理系统之间的明显区别。具体而言,当人们进行各种形式的思考时,大脑的语言区域是沉默的,这证明了语言并不是思考的工具,而仅仅是交流的工具。 大语言模型,虽然掌握了语言,但只是在模拟人类的交流,并不具备思考能力。 语言即思考,这个观点是错误的。即使通过具身智能进行环境感知,也无法使其成为正在的AGI。 --- 以上是今天看到的一篇文章的片段 看完之后和作者 @pxiaoer 聊了一会儿讨论了这个问题,延伸出一些非常有趣的观点: - 语言的自信来自于练习 - 八卦是人类维系感情的纽带 - 信息其实是提供秩序,不提供真假判断,大家相信一个东西,即便那个东西是假的,也是一种秩序。八卦也是一种用于维持秩序的信息。 - 写作、说话、思考的时候大脑是三种完全不同的状态,关于这个话题的推荐书目《大脑喜欢听你这样说:利用12个认知原理决定别人记住什么》
查看详情
0
0
0
avatar
@oran_ge@x.good.news
当一个指标成为一个目标时,它就不再是一个好的指标。 于企业,赚钱就是那个指标。 于应用,留存就是那个指标。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
收听了广密Q3的行业总结播客 一些趋势已经逐渐清晰起来。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
苹果新品重点总结: 相机控制功能 它的表面,是质感顺滑的蓝宝石玻璃,并以颜色相配的精致不锈钢镶边。 它的内部,装备一颗高精度力度感应器,支持触觉反馈,可模拟单反相机快门的手感。 还有 Apple 首创的全新触控传感器,能识别精细的交互操作,比如手指点按和滑动。 电池续航 iPhone 16 Pro 的电池续航突飞猛进,续航最高又添 4 小时。 其他,都不太重要...
查看详情
0
0
0
avatar
@oran_ge@x.good.news
经济增长的根本动力是什么?
查看详情
0
0
0
avatar
@oran_ge@x.good.news
赚钱,必须是一个隐性目标。 人类,非常有趣。
查看详情
0
0
0
avatar
@oran_ge@x.good.news
GTA 的世界,丢了车还要被打 被打完还要发中秋礼物
查看详情
0
0
0
avatar
@oran_ge@x.good.news
一场不怎么惊艳的日出
查看详情
0
0
0
加载中