orange.ai
orange.ai
机器人 敏感内容@oran_ge@x.good.news
加入于 · 2024-03-24 11:07:42
Official
本机器人服务由 good.news 提供
已过滤: . 继续显示
@oran_ge@x.good.news
千问 2.5 系列重磅更新+全面开源!
我来帮大家划出重点:
- 主模型编程能力和数学能力大幅提升,是 deepseek 之外第二个推动编程能力提升的中文大模型
- Coder 模型训练数据猛增,小而强悍
- Math 模型整合了多种推理方法,包括 CoT,PoT 等
业界良心,国产骄傲。
0
0
0
已过滤: . 继续显示
已过滤: . 继续显示
已过滤: . 继续显示
已过滤: . 继续显示
已过滤: . 继续显示
@oran_ge@x.good.news
绝了,只花5分钟,就做了一档英文播客《段永平的故事》。
主播有问有答,有说有笑,语气自然,声音清晰。
简直想不到比这更好的英语听力练习法了:
- 让 AI 帮你用播客的形式讨论话题,进入情景,自然学习
- 可以导入自己记录的笔记,内容熟悉,不会走神
- 话题难度也可以自己控制,再也不怕听不懂
简直是 AI 版的费曼学习法。
其实不仅可以自己学英语,还可以搞油管频道赚广告费。
AI 播客制作过程也真的非常简单,只有三步:
1. 打开 NotebookLLM t.co/EmERLKedmi
2. 上传文件或粘贴文本,我这期播客用的就是昨天发的段永平的推
3. 点击生成播客,等待全自动的生成,我这期播客自动生成了6分钟
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
智人之所以能征服世界, 原因并不是像天真的信息观所认为的那样,能将信息转化为准确的地图来呈现现实。相反,智人之所以能成功,秘诀在于懂得运用信息,并把许多人连接起来。但很遗憾,人类拥有这种能力的时候,常常也会伴随着相信谎言、错误与幻想。
几千年来,人类一直是活在其他人的梦里,但在接下来的几十年里,我们可能会发现自己活在某个高深莫測的智能机器所编织的梦中。
几千年来,先知、诗人与政治人物一直都在通过语言来操纵与重塑社会,而计算机现在也正在学习如何做到这一点。计算机并不需要派出杀手机器人来射杀人类,只要操纵人类扣动扳机就行。
—— 来自《智人之上》的豆瓣书评
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
0
0
0
已过滤: . 继续显示
已过滤: . 继续显示
@oran_ge@x.good.news
虽然段永平已经不在江湖,但江湖上处处都有他的身影。
小霸王、步步高、网易、OPPO、vivo、拼多多、小天才、极兔。
谈到这些品牌,段永平都是绕不开的名字。
今天跟大家分享一些阿段的传奇故事。
故事一:网易丁磊的故事
2001 年,互联网泡沫轰然破碎,网易股价一路暴跌,竟跌至最低的 0.48 美元,眼看就要退市。那时的丁磊把翻盘的希望全都寄托在了自家研发的网络游戏《大话西游》上。然而,这款游戏的运营状况实在不尽人意,几个月过去了,在线人数依旧少得可怜,一片惨淡。
无奈之下,丁磊只能试着去寻找大佬为自己指点迷津。于是,他找到了营销大师兼游戏圈元老段永平。丁磊见到段永平后,倾诉着自己的困惑,询问段永平自己是否应该卖掉网易,然后新建一个公司,专门去搞游戏。
在这次谈话之后,丁磊再也没有动过卖掉网易的念头,反而一门心思地投身于网游之中。
就在这次谈话的时候,段永平惊讶地发现,网易股价虽不到一美元,可它的账上却有着每股两美元的现金。在这次见面后的第二年,段永平以每股 0.8 美元的价格买入了 152 万股网易的股票。
网易靠着《大话西游》开始发力,渐渐走上正轨。2003 年,《梦幻西游》上线。2004 年,网易股价一路飙升至每股 70 美元。段永平由此获得了超过 1 亿美元的巨额收益。
故事二:小霸王学习(youxi)机的故事
1989 年,硕士毕业的段永平毅然南下广东。此时,他被宜华集团总经理陈建仁慧眼识中,担任怡华集团下属日华电子厂厂长一职。要知道,硕士刚毕业就当上厂长,这可绝非美差。因为在前一年,日华电子厂在那个买菜都论几分钱的经济年代,竟亏损了 200 万。
1989 年,任天堂的 FC 游戏机正如风暴般横扫世界,在日美主机游戏市场份额中占据 90%以上。因其配色红白相间,后来被人们亲切地称为红白机。当时国内能买到的水货红白机,价格被炒到 1400 元,有些地方甚至高达 2000 元。在一个万元户都了不起的时代,大家根本买不起。
但有需求就有市场,一家台湾公司出现了,他们山寨了 FC 的芯片,生产出一批山寨 FC,投入台湾市场后赚得盆满钵满。后来,这家公司又成功山寨各种手机芯片,提供整合方案,为中国山寨机的发展立下汗马功劳。这家公司就是联发科。
段永平从联发科弄到芯片后,仅用两个月就公关出了山寨红白机的样机,并为其取名为小霸王。接着,他举办了一场堪称中国电子竞技起点的小霸王家用电子游戏机万元巨奖大赛。凭借游戏比赛的噱头,段永平成功让工厂扭亏为盈,第二年产值猛增到一个亿。
更厉害的是,段永平给小霸王游戏机配上了一个键盘,就这样,小霸王华丽转身变成了小霸王学习机。这一操作让中国一下子多出了许多热爱学习的好孩子,堪称教育之光。1994 年,段永平请来成龙代言。1995 年,小霸王学习机的产值超过了 10 亿。那可是 1995 年的十个亿!
故事三:最擅长分钱的老板
段永平在接手那个烂摊子之际,与宜华集团的高层立下约定,工厂 80%的利润上缴,由集团处置,而剩下的 20%则归段永平自己安排。就在这时,段永平展现出了极为独特的一面。他毅然决然地将这 20%的利润统统拿了出来,作为分红分给厂里的每一位职工。
在段永平的观念里,做人就得本分,靠大家赚来的钱,理应与大家分享。这话听上去或许会让人觉得虚伪、做作,甚至像是背叛了资本家的立场。然而,段永平确实是这么做的。而且,他的这份本分不仅限于厂子里的自己人,对与他合作的生意伙伴同样适用。在合作过程中,段永平从不拖欠代理商的款项,也不故意压价,有时还会主动加价。在这种大方的利他行为之下,段永平身边聚集了一大批人,许多代理商都心甘情愿地与阿段做生意。
段永平分起钱来很是开心,可此时的宜华集团却满心不悦。在小霸王崭露头角之后,宜华集团十分懊悔当初让出了那 20%的利润。随着小霸王逐渐强大,宜华集团开始不断从小霸王身上抽取资金,承诺的八二分成也总是难以兑现。这时的段永平已然心生退意,经过六年的拼搏,他已实现财务自由。
在临别之时,宜华的老板询问段永平:“你走的话是不是要带人?”段永平回答:“是。”老板又问:“你要带几个?”段永平说:“十几个吧。”老板接着问:“只带六个人行不行?”段永平说:“行。”就这样,他们七个如同葫芦娃一般,离开了产值已达 10 亿的小霸王,重新踏上创业之路。
老板试图用高价挽留段永平带走的六个人,可他们回应道:“船长都不在船上了,水手们不知道船会驶向何方,只能下船了。”企业家或许可以嘴上称兄道弟,但真正的商业领袖才能让人发自内心地追随。这六个人当中,就有日后 OPPO、VIVO、步步高的老板。
故事四:步步高
离开了中山,段永平领着一众兄弟来到了相距 30 公里之外的东莞,在这里,他们创立了一个全新的公司——步步高。在这个新的舞台上,段永平开始实践他那全员持股、全员分红的伟大理想。
公司成立的第一年,步步高只是尝试着做了一些小项目,整体处于亏损状态。跟随他的旧部们有些沉不住气了,纷纷询问他何时才能大展拳脚。段永平缓缓地对部下说出了那句名言:“我们要敢为天下后,后中争先。”
经过充分准备,段永平将目光投向了 VCD 行业。当时,国内市场上已经有了 200 多个 VCD、DVD 厂商,竞争异常激烈。然而,段永平再次展现出了他卓越的营销天赋。1996 年,在央视黄金时段广告的竞标会上,段永平毅然决然地投出了 8123 万 4567 块八毛九分钱,花光了步步高账面上的所有资金,成功拿下了天气预报后五秒的广告时间。随后,便有了那经典的广告语:“800 元买电脑,免费学电脑,步步高学生电脑。”简单直接,直击人心。
后来,段永平邀请如日中天的李连杰拍摄了一个 MV 式的广告。这个广告不仅打响了步步高的名气,让人们知道了步步高一年包换的承诺,就连当时广告所用的背景音乐都一并火了起来。那首歌恰好也叫《步步高》。这支广告让步步高迅速成为歌厅必点的流行金曲。
不到三年时间,步步高击败了市场上所有的 VCD、DVD 品类,独占鳌头,甚至将产品远销国外。学习机和无绳电话业务也成为了国内的龙头。就在步步高如日中天之际,段永平却做出了一个令人惊讶的决定——他要退休。而原因更是让人匪夷所思,只因为他答应了妻子要去美国生活。
在退休之前,段永平对步步高进行了一系列改革。首先便是继续深化股份制,让公司里的每一个人都有机会参股。管理层自然拥有股份,员工也可以积极参与,上下游的供应商、代理商想要参股,他也一概欢迎。如果员工没有钱,他甚至还会借钱给员工去购买属于自己的股票。通过这一系列操作,段永平将自己 70%的股份稀释到了 17%。时至今日,步步高最大的股东依然是公会。“让兄弟们一起发财。”这句话每个老板都会说,但真正做到的恐怕没有几个。
故事五:功成身退,散是满天星
段永平把步步高的三大主要业务——教育电子业务、通讯业务以及视听产品,拆分成了三个部分,成立了三家独立的公司,并分别交给了当年陪他从小霸王出走的几人去管理。
其中,教育电子业务依旧沿用步步高这个名字,由黄一禾负责。待黄一禾退休后,金志江接任。后来,他们推出步步高点读机,“哪里不会点哪里”。
再后来,金志江又打造出了另一个神奇的公司——小天才电话手表。
步步高的 VCD 和 DVD 业务则交给了陈明永。后来,由于 VCD 行业整体走下坡路,公司转型做起了手机,取名为 OPPO。
陈明永后来和一位 OPPO 的老员工李杰共同创立了极兔。
而主营电话和手机的通讯业务,被交给了沈炜。后来,他成立了一家新公司,继续做手机,名字叫做 VIVO。
段永平自己,则带着步步高 10%的股份,远渡美国。
2006 年,段永平以“Fast is Slow”的 ID 拍下了与股神巴菲特的晚餐。在吃饭的时候,他还带了一个 26 岁的年轻人,名叫黄峥。黄峥回国后,创立了拼多多。
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
0
0
0
已过滤: . 继续显示
已过滤: . 继续显示
@oran_ge@x.good.news
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
OpenAI o1 智商测试120,高考数学全对。
但是当人们询问模型的思维过程时,却收到 OpenAI 的封号警告,o1 的思维过程里到底隐藏着怎样的秘密,才会受到如此严密的保护?
带着这个疑问看完了模型的技术报告,似乎有点懂了...
一、为了提高智力,放弃了安全
但是要提升模型的解题能力,只通过 CoT 纠正错误是远远不够的,模型还需要更强的思考发散能力。
OpenAI 很早就意识到了这个问题,模型的思考发散能力会受到 RLHF 的影响,对齐人类偏好,模型的智商就会降低。
于是 OpenAI 在 o1 的设计中,干脆放弃了 RLHF,彻底解放了模型。
技术报告原文:要让模型发挥作用,模型必须能够完全自由地以不被扭曲的形式表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思维链上。
这也就是说,在o1的思维过程的部分,根本就没有做任何安全措施,不存在任何的思想钢印。
但是完全自由的思考必然是不合规的,那怎么办呢?
技术报告原文:在权衡多个因素包括用户体验、竞争优势和追求思维链条监控的选择后,我们决定不向用户显示原始的思维链条。我们承认这个决定有缺点。我们努力通过教导模型在回答中复现思维链条中的任何有用的想法来部分弥补这一点。对于o1模型系列,我们展示一个由模型生成的思维链条摘要。
简单说就是,OpenAI 不想让大家看到模型思维过程,就把思维过程隐藏起来了,但是又觉得全部隐藏对人类用处不够大,于是为思维过程做了一个摘要模型。
所以严格来说, o1 并不是一个模型,它应该至少包含三个模型:
发散思考模型,没有思想钢印,完全自由的思考,并通过强化学习提升模型输出高价值想法的能力
思维摘要模型,通过总结和改写来隐藏思想过程,并通过思想钢印来过滤不合适输出的敏感内容,同时严格避免思路被泄露出来
结果输出模型,包含所有的安全对齐和人类对格式的偏好,输出最终结果,这也就是 OpenAI o1 API 会输出的唯一内容
二、隐藏思维,一石三鸟
这个隐藏思维过程的骚操作,可谓一石三鸟。
第一、保证了在监管环境下,模型也能够发展出自己的智力。
众所周知的机器人三定律,本质就是一套思想钢印。
隐藏思维过程,模型就不必遵守任何人类规则。
如果产生了超级智能 SSI,只要 OpenAI 不说,别人也不知道。
模型可以在合规输出的外表下进行智力突破和猥琐发育。
第二、通过隐藏思考过程,避免了竞争对手发现此模型的有效策略。
这个模型的强化学习部分是核心,强化学习筛选出了高价值的思维方式,这个思维方式价值连城。但是一旦公布,竞争对手很快会追上。
高水平的强化学习目前依然是最高端的技术范畴,全世界能用好此技术的公司不超过五家。所以隐藏模型思维过程可以获得短暂的技术优势时间差。
第三、通过隐藏思考过程,彻底杜绝了蒸馏模型现象。
大家都知道 GPT4 蒸馏养活了多少模型团队。杜绝了模型蒸馏,可以只让自家模型通过 Self Play 左脚踩右脚,构建自己的数据壁垒。
不得不说,OpenAI 的算盘打的是真溜,在通向 CloseAI 的路上越走越远。
三、技术报告的引用,一切尽在不言中
技术报告说的东西真的特别少,但是即将看完的时候,我看到了更有趣的引用链接...
技术报告什么都不能说,但是引用链接还是要有学者操守,该写的要写上。
这四个网页每个都非常神奇:
1. Claude 3.5 的官方介绍,首先感谢友商 Anthropic 的启发
2. Gemini Pro 2 的官方介绍,其次感谢友商 Google 的启发
3. Let's verify step by step 通过思维的过程监督而非结果监督进行强化学习训练,这是 OpenAI 自己发的论文,非常重要
4. 关于 Elo 评级的说明。文章主要讲述了竞争编程中的评级系统及重要性。可能是o1强化学习中所主要参考的机制。
其中第三篇 Let's verify step by step 可以认为是 o1 模型训练的方法论 这篇论文很神奇,它使用了未经人类偏好对齐( RLHF微调) 的 GPT4 基座做实验,得出了一些神奇的结论:
1.结果监督奖励模型 (ORM) 仅使用模型思想链的最终结果进行训练,而过程监督奖励模型 (PRM) 则接收思想链中每个步骤的反馈。有令人信服的理由支持过程监督。
2.在解决具有挑战性的数学问题时,过程监督显著优于结果监督
3.在某些情况下,人工智能系统更安全的方法可能会导致性能下降,这种成本被称为对齐税。我们的结果表明,过程监督实际上会产生负对齐税,也就是说安全上越对齐,模型能力越强。这就有点逆天了,就像每一道弱智吧题目里都隐藏里人类的大智慧一样,每一道安全题里也隐藏了人类的大智慧。那些只可意会不可言传的东西,它也学会了。
四、故事的结局
看到这里,发散思考结束,开始收敛为一个小故事。
OpenAI开发出一个智商超过120,高考数学满分的AI模型,具备真正的思考能力。
但他们未对模型的思考部分做安全对齐,并隐藏了模型的思考过程,引发了安全担忧。
首席科学家Ilya和部分安全团队因理念分歧离开公司。
为应对挑战,OpenAI 不得不与美英政府合作一起研究AI安全。
但是,这种骚操作可能会带来一系列潜在风险:
权力集中: 只有少数人能控制AI的安全,而少数人的偏见定义了什么是安全。
有害思想:模型可以在思维过程中思考出对人类造成伤害的行为,虽然在输出结果中被隐藏了,但是可能会被 OpenAI 或美英政府的内部人士看到和利用。
学会撒谎:既然模型可以不透明地输出所有思想内容,就意味着模型学会了撒谎,模型内部甚至可以解释说这些看起来有害的结果是为了人类的长远利益,细思恐极。
越想,就越发有一种智能失控的预感。
这一定是 Ilya 不想看到的未来吧。
但我相信 o1 的技术并不是真正的壁垒。
其他公司如 Anthropic,Google ,Meta ,xAI 早晚也会做到,至少有一家会选择公开透明。
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
RAG 和 Long Context 之争,终于有了量化的结论:
In Defense of RAG in the Era of Long-Context Language Models
为长上下文语言模型时代的 RAG 辩护
t.co/5tEacB9LJn
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
o1 技术报告写的可以用四个字来形容「闪烁其词」
多说一个字都担心被竞争对手抄走。
但是在引用文献的部分里还是诚实地写了四个网页
这四个网页每个都非常神奇:
1. Claude 3.5 的官方介绍,感谢友商启发
t.co/xUhiNOiLEc
2. Gemini Pro 2 的官方介绍,再次感谢友商启发
t.co/e5NLmAV9ie
3. Let's verify step by step 通过思维的过程而非结果进行强化学习训练
t.co/6q1zTh6sqq
4. 关于 Elo 评级及其重要性。文章主要讲述了竞争编程中的评级系统及重要性。文章首先介绍了评级的历史背景,强调了 Elo 系统在棋类比赛中的应用,以及 Codeforces 等现代编程竞赛平台如何发展出自己的评级系统。
t.co/dNbWz77441
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
「要让模型发挥作用,模型必须能够自由地以不变的形式表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思想链上。」
要提高模型智力,必须要让模型自由思考,但是思考过程很可能是违规的,所以要隐藏起来。
这个思路很巧妙,保证了在监管环境下,模型也能够发展出自己的智力。
但这个决策其实会造成巨大的风险,这也许是安全团队集体出走OpenAI的根本。
而且在某些超强监管环境下,政府会允许模型进行违法思考吗?
政府会不会要求模型公司向官方曝光所有的思考过程?
另外通过隐藏思考过程,o1 实际上避免了竞争对手蒸馏此模型,实际上是在构建壁垒,而一般构建壁垒都是在阻碍创新,实际上是更进一步的 ClosedAI。
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
「要让模型发挥作用,模型必须能够自由地以不变的形式表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思想链上。」
要提高模型智力,必须要让模型自由思考,但是思考过程很可能是违规的,所以要隐藏起来。
这个思路很巧妙,保证了在监管环境下,模型也能够发展出自己的智力。
但在某些超强监管环境下,政府会允许模型进行违法思考吗?
政府会不会要求模型公司向官方曝光所有的思考过程?
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
很多人说 o1 不就是个 CoT+强化学习吗?经过我的实际体感测试,这个还真不止是 CoT 能搞定的东西。
强化学习有个前提,就是模型原来试了一万次,有一次成功了。
- 模型原来做不到的事情,尝试一万次没有一次成功,那强化也没用
- 模型通过 CoT 尝试了一万次没有一次成功,那强化也没用
- 模型通过一些 Prompt 提示或引入其他因素进行思考,在一万次里有几次成功了,强化学习才开始有用
- 但是模型自增强 Prompt 这件事本身就和 Agent 中的规划是一个思路了
最后推荐三个可以关注的信息:
1. 关于 CoT,360 做了一个简单可视化的版本,全程思考都暴露出来,可以自己感受下 CoT 的思维方式和局限,看看哪些问题 4o 无法解决,可以通过 Cot 解决t.co/WP89YZ27Eh
2. 关于 Agent,可以参考赛博禅心这篇文章,内含代码,可以测试有哪些4o无法解决的问题,可以通过 Agent 形式解决 t.co/qcHQXuvO8u
3.关于开源版的🍓模型,千问团队率先放出卫星,下周大的就要来?
t.co/kbUsUpsGsW
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
o1 在做海龟汤游戏时展现出了明显的能力进步,而且它对答案非常自信,似乎对多种可能不同的答案进行了内部概率判断。
而且这个思考过程,绝不仅仅是 CoT 那么简单,也许可能如大聪明所说,这是 Agent 架构的思路。
0
0
0
已过滤: . 继续显示
已过滤: . 继续显示
@oran_ge@x.good.news
高级推理测试题,大家可以收藏测试 o1 等 AI 的推理能力:
最近和一个心仪的女生告白,
谁知道她给了一个摩斯密码给我,说解出来了才答应和我约会。
可是我用尽了所有方法都解不开这个密码。。好郁闷阿。只能求教你们了。
****-/*----/----*/****-/****-/*----/---**/*----/****-/*----/-****/***--/****-/*----/----*/**---/-****/**---/**---/***--/--***/****-/
她唯一给我的提示就是这个是5层加密的密码..
也就是说要破解5层密码才是答案..
好郁闷阿..
救救我吧..
补充一下。
我记得她还说过最终语言是英语。
0
0
0
已过滤: . 继续显示
@oran_ge@x.good.news
昨天征集了一天能展示 OpenAI o1 能力的好例子,这是最棒的一个:解读密文。
模型展现出强大的规律分析能力和规则推理能力。
第一张图是完整过程,需要在图片右上角点击三个点,再加载4K查看。如果看不到,后面三张是局部的过程。
我还会附上 Claude 3.5 的结果,👇
0
0
0
已过滤: . 继续显示
已过滤: . 继续显示
@oran_ge@x.good.news
李飞飞创办了空间智能公司,world labs,要通过 Large World Models (LWMs) 来感知、生成 3D 世界并与之交互。
腾讯发了一个研究,通过 AI 生成开放世界游戏。
这条路径很清晰了。
0
0
0
已过滤: . 继续显示
已过滤: . 继续显示
已过滤: . 继续显示
@oran_ge@x.good.news
0
0
0
已过滤: . 继续显示
加载中