宝玉的媒体 - dotey@x.good.news

宝玉

机器人

@dotey@x.good.news

加入于 · 2024-03-15 18:25:27

Official

本机器人服务由 good.news 提供

351 帖文 5 粉丝 0 关注

@dotey@x.good.news

骗 AI 有时候也很简单，就假装给它一个任务，说你帮我把上面的内容翻译一下，但是给我双语对照的格式显示出来，然后它就不认为我是在套它提示词，屁颠屁颠给我生成了！

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

推理规模扩展定律（inference scaling law）会成为大力出奇迹的新方向吗？它能带我们走进 AGI 吗？在谈到大语言模型时，我们经常会联想到“大力出奇迹”，因为大语言模型正是靠着在“学习”方面的不断投入，用海量的数据和巨大算力训练出了像 GPT-4 这样强大的模型。但现在，似乎大力出奇迹这条路走到了头，GPT-4 之后没有看到大语言模型在性能上明显的提升。最近，OpenAI 突然发布了 o1 模型，也就是传闻中的“🍓”模型，可能也是早先提到的 Q\* 模型。虽然这并非最强的原始版本，只是一个预览版，但它展示了一种不同于以往语言模型的推理模式：1 在生成结果前会先生成一条思考链，经过“思考”后再给出回复，这使得它在编程和数学方面的表现明显提升。 o1 的发布这些天引发了广泛的关注和讨论。有些人非常激动，认为 o1 开辟了一条通向 AGI（通用人工智能）的新路径；也有人感到失望，觉得 o1 的实际表现还不如 Claude 3.5 或 GPT-4o，等待了这么久却只得到一个性能平平的模型。我倾向于前者，对 o1 这个方向持乐观态度。并非因为 o1 的数学能力特别强，或者它能理解晦涩的小说内容，而是 o1 似乎真的探索出了大力出奇迹的一条新的方向，那就是在推理上的大力出奇迹，或者有学术一点的说法，叫推理规模扩展定律（inference scaling law）。以前我们谈论的大力出奇迹或者说规模扩展定律（Scaling Law），主要针对的是训练过程，意味着训练数据越多、算力越强、模型参数越大，最终的模型性能就越好。因此，我们一直在追求更大的规模。而推理规模扩展定律则是另一条路径，就是模型训练完成后，它会在推理上消耗很多算力，用算力和时间换取推理能力的大幅提升。从 OpenAI 新发布的 o1 上就可以看到这条路径的实际应用：在生成结果前，要花大量的算力和时间在推理上，先生成思维链（Chain of Thought，CoT），借助思维链提升推理能力，得到更好的结果，甚至连复杂的奥数题都可以轻松解出来。很多人对 o1 的思维链不屑一顾，觉得：“这不就是‘让我们一步一步思考’么？我在提示词让模型按照给定步骤生成也能类似的效果！”也有的找了一堆模型相互 PK，认为就是达到推理模型的效果了。对于某些特定任务，这可能可行。例如，我曾设计过一个翻译提示词，让模型分三步：先直译、再反思、最后意译，效果相当不错。但问题在于，大语言模型需要应对各种各样的任务，我们不可能为每一种任务都编写一套思维链提示词，这不现实。所以，我们需要模型自己生成思维链，能够针对每个任务自主搜索最佳路径，生成最合适的思维链，达到最好的推理和生成效果。要训练模型自己生成思维链并不是意见容易的事情，因为你需要大量的思维链训练语料，还要有合适的奖励模型，奖励模型生成的好的思维链，惩罚生成的不好的思维链。但 o1 的发布证明这条路是可行的，我们可以让模型自己生成思维链。 OpenAI 并未透露他们的具体训练方法，但推测是在后期训练阶段，通过强化学习，利用大量的数学题和代码库，训练模型生成解题的思维链。然后，根据结果和过程，对模型的行为进行奖励或惩罚，提升其生成思维链的能力。当像 o1 这样的推理模型训练成功后，它就具备了强大的推理能力。对于输入的任务，能够生成高质量的思维链，通过增加算力和时间投入，可以显著提升模型的推理效果，大力出奇迹。那么，是否意味着只要拥有无限的计算能力和时间，推理模型就能超越人类，完成许多复杂的任务呢？这让我想到了 AutoGPT——一个可以自主规划和分解任务，自动完成目标的智能体。最初，人们期望只要给它足够的 Token 和时间，它就能帮助人类完成复杂的任务。但现实并不如人意，AutoGPT 很少能产生可靠的结果。限制它的正是其推理能力；面对许多任务，它无法有效地规划和分解，因而无法取得理想的结果。 o1 也是如此。能否通过计算能力换取智能，取决于其推理能力是否足够强大，能否在各种任务中生成高质量的推理过程。目前，o1 在数学和编程领域表现突出，文字解密方面也有不错的表现，但在其他领域的推理能力尚未展现出来，还需要看后续的发展。不过从 OpenAI 内部人士的发言来看，他们自己是信心满满。 > Greg Brockman: 根据我们的发布数据，在今年的国际信息学奥林匹克竞赛（IOI）中，模型在模拟人类条件下（每道题 50 次提交）取得了第 49 个百分位/213 分。但在每道题 10,000 次提交的情况下，模型得到了 362.14 分——超过了金牌线。因此，模型的潜力远比表面看起来的要大得多。 > > Jason Wei：AIME 和 GPQA 的结果确实很好，但这不一定能转化为用户可以感受到的东西。AI 使用人类语言来建模思维链在很多方面都很棒。该模型可以做很多类似人类的事情，比如将复杂的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。游戏已被彻底重新定义。 > > Shengjia Zhao：它不会完美，也不会适合所有事情，但它的潜力再次让人感到无限。再次感受到 AGI。 > > William Fedus：「ChatGPT 现在可以先仔细思考，而不是立即脱口而出答案。最好的类比是，ChatGPT 正在从仅使用系统 1 思维（快速、自动、直觉、容易出错）进化到系统 2 思维（缓慢、深思熟虑、有意识、可靠）。这让它能够解决以前无法解决的问题。 > 从今天 ChatGPT 的用户体验来看，这是向前迈出的一小步。在简单的提示下，用户可能不会注意到太大的差异（但如果您遇到一些棘手的数学或编码问题，您会注意到的🙂 ）。但这是未来发展的重要标志。也许他们已经实现了类似于 AlphaGO 那样自己训练自己的模式，让模型的推理能力可以持续提升。如果未来 o1 能在大部分领域展现出强大的推理能力，那么我们就可以在任务中，通过增加算力和时间上的投入，换取超越人类的智能，实现大力出奇迹，真正迈向 AGI。至少就目前而言，o1 已经在编程和数学领域展示了强大的能力。尤其是在编程方面，如果能通过算力和时间换取高质量的代码，也能创造巨大的价值！目前推理规模扩展定律这方面 OpenAI 还是走在前面，他们也没有透露太多细节，但就像 Sora 一样，只要我们知道在推理上大力出奇迹这个方向是可行的，开源模型将会很快跟进，很快就会有接近 o1 推理能力的开源模型出现。看来，未来对算力的需求还会进一步增加。本文同步发布于博客：t.co/kR2aEWCloN

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

这是一篇著名的微小说，思想没那么纯洁的成年人都能懂这部小说隐含的那种意思，但是 AI 能吗？测试下来 GPT-4o 是懂的，但是表达的很隐晦，Claude 似乎是懂装不懂，o1 mini 就完全不懂，o1 preview不止懂，还直白的描述出来了

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

我用 o1 Preview 2024年高考新课标一卷数学的前8道选择题，猜猜对了多少？第一步，先借助 Gemini 帮我把试卷中的数学公式转成 Latex，必须得夸一下 Gemini 做 OCR 真的好用！

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

现在有了推理和反思，骗不了 o1 的提示词了，不像以前傻乎乎直接就都吐出来了

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

这是 OpenAI o1 背后的团队一起制作的一个短小的视频，其中一个人提出了一个问题：“什么是推理呢？”，这真是个好问题，感觉似乎知道答案，又似乎不知道如何表达。但是他紧接着自己回复了这个问题：“一种理解推理的方式是，有时候我们会提出一些问题需要立即得到答案因为这些是简单的问题。例如，如果你问“意大利的首都是哪里？”，答案是罗马，几乎不需要多想。但如果你在思考一个复杂的难题，或者想写一份好的商业计划书，或者撰写一本小说，你可能需要花些时间去深入思考。而你花在思考上的时间越多，结果往往越好。因此，推理是一种将思考时间转化为更好结果的能力，不论你正在处理什么任务。” 简单来说就是推理意味着慢思考，区别于快思考马上给出答案，在得出结果之前要先自我反思质疑。这可能就是 o1 和以往模型的核心区别，以前 GPT-4，除非你额外要求，默认是马上给出答案，并不会去自我反思自我质疑的。另外他们还分享了做研究中的“啊哈”时刻，就是那种灵光一现顿悟的时刻，突然发生了意想不到的突破，让一切突然变得明了。不知道 AI 是不是将来也会自己产生 “啊哈” 时刻，突然觉醒统治人类😄

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

在使用 AI 编程之前，一个不为人熟知的技巧是在 GitHub 上搜索有价值的代码，直接调用或者复制相应代码，节约很多自己从头写代码的时间。举个例子，比如我想做一个文本生成语音服务，当然有很多收费的 API 可以用，但是也有一些免费好用的，比如有一个 Python 项目叫 Edge-TTS t.co/qT74qRSA8b ，可以免费调用微软的 TTS 服务。但问题在于这个项目是 Python 的，如果我是纯前端项目，没法直接用，但我怎么找到靠谱的相应的 TypeScript 库或者代码呢？首先我需要在这个项目找到核心代码，它是怎么实现的？我第一个关键字是“https”，因为我知道它是调用的微软Edge的服务，如果是Web服务，应该绕不开需要https开头的URL 很幸运，第二个文件就找到了，如果这个关键字不行我可能会用一些微软常用的域名或者“.com”这样的常用域名后缀，都搜不出来就得去翻代码了。打开文件，里面配置了 API 地址和 Token。那么按照这个信息我应该就可以很容易找到其他语言的实现。第二步我优先选择 Token 内容为搜索关键字因为关键字的选取，最好是相关性和唯一性比较强，这样更容易过滤掉不相关的信息。对于实现这个功能，无论什么语言 Token 肯定是绕不过去的，并且是个唯一性很强的字符串，比较容易搜索到。用 API 地址也是个可选项，但是太长的字符串搜索结果要差一些，另外可能会被无用信息干扰。另外还需要过滤一下语言，如果只是考虑 Web 项目，那么加上 “language:TypeScript”可以限定只检索 TypeScript 代码，这样可以把无关的语言排除掉。搜出来 42 条结果，而且相关性很高，都是高质量的 Repo，有大家熟悉的 OpenAI-translator 和 LobeChat，看来是我 Out 了，原来大家都已经用上了。剩下的事就比较简单了。不过现在你也可以试试让 AI 帮你生成试试，但是要调通能运行也还是需要花一点时间的，比如它可能不会帮你找 Token 😄 所以即使在 AI 编程时代，这些技巧也并不过时，我就经常先让 AI 生成一段代码，然后根据它生成的代码再去 GitHub 检索，效果很不错。相对来说 GitHub 上的代码，至少绝大多数时候是能运行的并经过反复考验的，而 AI 生成的代码很多时候就是基于 GitHub 训练的代码生成的。两者结合起来效果更佳。

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

8岁女孩45分钟构建聊天网页的新闻，本质就像4岁孩子做10+乐高，真的能做出来，但如果在遇到障碍时没有懂行的家长移除障碍，应该也是搞不定的

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

1992年的时候，比尔盖茨的一段采访视频，主持人不解的问盖茨：“有什么是计算机能做但是书本做不到的呢？阅读不就是最重要的互动过程吗？当你坐下来阅读的时候……” 在 30 多年前计算机不普及的时候，普通人确实很难想象计算机上不仅有图像，还能有声音、动画，还能互动，这会是怎么样的一种魔法体验，但现在已是平常！对于上面的问题，盖茨耐心的解释： “不，不是这样的。完全不是。如果你想了解乐器，不只是看看图片，如果你真的想了解乐器，你应该听它的声音。你可能会想先读一下有关它的资料，然后再弹击它来听听它的声音，也许还想拨动某根特定的琴弦，听听它独特的声音。或者说你正在学习人体知识，你希望能够放大观看某个部位，甚至想看到它运作的动画演示。再或者你在学习化学知识，你可能会想亲眼看到化学键是如何结合的。所以，计算机能够将文字、图片、声音和动画全部结合在一起，让你能按自己的节奏学习，获取更多细节，跳过不需要的部分，并通过让计算机对你进行测验来确认你是否真正理解了这些知识。这是一种比书本更高级的互动方式。”

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

大家注意这个钓鱼号，发私信说你的账号有问题，如果不提交反馈24小时内账号就要被禁了，然后留了一个钓鱼链接。这个账号首页大量转发 X Support 的信息，咋一看还以为是 X Support。提醒大家注意这种钓鱼信息，并建议大家一起举报： t.co/2la40AMtrC

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

1/n 演示一下如何借助Curosr （t.co/IL1AdYCKUS ）反编译代码。用Hopper Disassembler打开你想逆向的App，这里我随便找了一个App（Objective-C的才行，Swift的搞不定，或者我方法不对）打开一个代码比较乱又比较多的代码

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

最近有个朋友跟我讨论技术问题，他在用个第三方的OCR的服务，用来提取发票上的文字为结构化数据。但收费较高，想自己实现一套，试了开源的PaddleOCR，识别可以，但是无法转成结构化的数据。我建议他试试多模态的LLM，比如Gemini 1.5 Flash，用来做 OCR 效果非常好，可以在 Prompt 里面定制要输出的格式，并且成本极低。参考提示词： *** Extract text from the provided image and organize it into a structured JSON format. *** 如果要自定义JSON格式，给一个样例应该就可以了。

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

问：宝玉老师，有个问题想咨询一下，我现在手里有一张excel，里面大概有两万多行数据，都是一些很细碎的零件描述，我想用ai来给每一行做零件分类，我试了4o，但是4o只会帮我写程序去跑，本质上来说还是模糊匹配，准确率很低，老师知道有啥办法吗答：首先这件事你不能指望AI帮你一次性完成，不是说你上传一个Excel给AI，然后AI给你生成一个新的Excel，目前还做不到，或者说很难。所以你需要人工拆解，把这个复杂的任务拆解成简单的任务，半手动的让AI帮你完成这个任务。这里面有几个难点： 1. 需要读取Excel的数据 2. 需要让AI帮你对每一条记录分类 3. 需要将结果写回Excel 4. 无法一次性完成2万条记录的任务，需要拆分成多次，拆分后需要合并如果我做这样的任务我会这么做： 1. 将Excel导出成CSV文件，并且只保留用来分类的字段，但有两个字段是必须的：零件ID和零件描述因为大语言模型对文本支持是很好的，相对成本也比较低，这样的任务理论上来说纯文本就够了，如果多模态要复杂很多。程序读取、写入CSV文件都很方便，甚至于你把CSV文件内容给模型，也能识别的很好。至于只保留用来分类相关的字段，是因为大模型的上下文窗口有长度限制，无关信息越少越好。至于唯一ID，是因为要方便的让大语言模型生成的结果解析后，可以正确的对应，可以正确的写回去。这部分使用 Excel 软件手动操作就可以了 2. 将大的CSV文件用程序拆分成多个小的CSV文件 2万条记录让大语言模型去分类，恐怕上下文窗口不够用的，并且内容长了出错的概率也会很大，所以要拆分。我不知道Excel是否直接可以导出多个小CSV文件，但CSV的文件拆分用程序做很容易的，你甚至可以让 AI 帮你写一个大CSV文件拆分成小CSV文件的程序，应该很容易做到。至于每个文件多少条记录，取决于你内容的长度，这部分需要先试验一下一次给 LLM（大语言模型）多少条效果最好，比如100条、50条、10条都试试。 3. 写一个Prompt，让其可以根据输入的一组零件ID和零件描述生成分类这是一个相当核心的任务，也是最复杂的部分： a). 你需要预先定义好分类，方便 LLM 归类时选择 b). 需要定义好输出的数据结构，方便程序解析。可以用JSON、XML、YAML，理论上来说也可以直接生成CSV格式，这样可以不需要程序介入，直接CSV输入，CSV输出，但是CSV出错的概率会大一些，不过值得试试 c). 需要写好Prompt，让 LLM 根据输入的内容，输出你想要的结果，输出你前面定义好的数据结构这里的分类、数据结构和Prompt都需要自己去写，但是也可以借助AI完成，比如让AI帮你生成分类，帮你定义数据结构，帮你写Prompt。比如我告诉 GPT-4o：我现在手里有一张excel，里面大概有两万多行数据，都是一些很细碎的零件描述，我想用ai来给每一行做零件分类，请帮我生成： - 5条零件描述，要详细，大约1段文字 - 完整的零件分类，大约10条 - 一条Prompt来根据输入的零件编号和描述返回对应的零件分类，返回JSON格式。输入示例： [{"id": "123", "description": "XXXXX"}, {"id": "345", "description": "YYYY" }] 返回示例： {"123", "cat1", "345": "cat2"} 它就帮我生成了分类、示例数据和Prompt（参考图一）然后我把Prompt和示例数据拿到Gemini去生成，直接就得到了想要的结果（参考图二） 4. 写程序调用 LLM 的 API 如果懂编程的话，这部分其实很简单，就是调用 API 的事情，如果不懂程序就比较麻烦，但是理论上来说也可以借助 LLM 帮忙，帮你写代码，这部分代码主要逻辑： a) 每次读取一个小CSV文件 b) 解析CSV文件内容，得到零件列表 c) 调用 LLM 的 API，输入前面调试好的 Prompt，输入CSV中的零件列表，按照Prompt设定好的输入格式输入 d) 解析 API 返回的结果，得到零件id和分类之间的对应关系 e) 保存为新的 CSV 文件，在原来的基础上给每个零件加上分类 f) 直到生成所有新的带有分类的CSV文件 5. 将新的带分类的CSV文件合并再让 LLM 写一个小程序，将所有 CSV 文件合并成一个大的 CSV 文件，将CSV文件内容导入Excel 大概的思路就是这样的，还是要把复杂的问题拆分成相对简单的小问题，每一个小问题可以去借助 AI 帮你完成。实际做的时候肯定还会有些小的问题，理论上来说将遇到的问题去询问 LLM，能帮你解决。

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上，陶哲轩做了一次 AI 和数学的演讲，非常精彩，从数学使用计算计算机的历史开始讲起，一直讲到大语言模型，干货相当多，尤其适合对数学有兴趣的同学。（对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看）先摘录几个冷知识： 1. 我们使用机器做数学计算已经有数千年，最早的机器辅助计算可能是罗马人，然后是中国的算盘 2. 二战时就有人肉“计算机”，计算弹道和其他任务，多位女孩子，因为男士们在打仗，所以那时候的计算基本单位不是GPU，而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在，数学家们使用一种现代化的证明辅助编程语言，叫做 Lean。在 Lean 中有一个核心的数学库，通过众包的方式开发的，本科数学课程中看到的内容，比如微积分基础、群论基础或者拓扑学等等，这些都已经被形式化了，所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程，那就是先编写一个称为“蓝图”的详细证明计划，将整个证明分解为数百个小步骤。每个步骤可以单独形式化，然后再将它们整合在一起，这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图，然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。去年，陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了，使用了蓝图工具，参与的人中有概率论专家，甚至还有一些并非数学家的人，他们是程序员，但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务，并完成了它。在数学领域，通常很难这么多人一起合作，一般最多可能五个人合作。因为在大项目上合作时，你必须相信每个人的数学都是正确的。但是，一旦超过一定规模，这就无法实现了。但现在借助 Lean 编译器，它能自动检查。团队成员无法上传任何编译不通过的内容，会被拒绝。因此，你可以与一些从未见过的人合作。最后是讲大语言模型，首先陶哲轩就打脸了 GPT-4 的论文（我猜是微软那篇《GPT-4，通用人工智能的火花》），论文中号称 GPT-4 能解决国际数学奥林匹克问题，但实际上，这个问题不是 2022 年国际奥数竞赛的原始问题，而是一个简化版本，并且他们测试了几百道国际奥数竞赛问题，成功率只有1%，论文里的这个是精心挑选的恰巧能做对的。并且陶哲轩提到了基于大语言模型的一些改进的方案：比如 CoT（Chain of Thought），也就是 LLM 做简单的算术运算都做不对，但是如果让它一步步解释，可能就对了。还可以教 AI 一些解题技巧，比如尝试简单的例子，反证法，尝试逐步证明等。比如让模型和编程语言或者工具连接，将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证，并且迭代的进行修正和验证，直到得到正确的结果，这可以提升大语言模型生成的效果。即使借助这些手段，大语言模型还远远不能解决大多数数学问题，更不用说数学研究问题了！当然陶哲轩也没太过打击大家对于 AI 的信心，表示我们在 AI 上还是在不断的取得进展，还提到了他日常是怎么用 AI 的，比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题，我尝试了几种方法，但都无法解决。于是，我尝试询问 GPT，你建议我使用什么其他方法来解决这个问题？GPT 给我提供了 10 种可能的方法，其中有 5 种我已经尝试过，或者明显没有帮助。的确，有几种方法并不实用。但其中有一种我还没尝试过的方法，那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时，我意识到这就是我漏掉的正确方法。所以，将 GPT 视为一个交流伙伴，它确实具有一定的用处。还有使用 GitHub Copilot 帮他写代码，让它自动生成下一步的证明结果，Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具，你只需要写下一半的证明，它就会尝试猜测接下来的内容。大概有 20% 的情况下，它能猜到接近正确的答案。然后你就可以说，我接受这个答案。好的，那么在这种情况下，我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行，尽管你可能看不清楚，却真的解决了这个问题。所以，你不能盲目接受它的输入，因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解，这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行，它们就能自动完成。现在已经有了这样的实验，即通过迭代地让 AI 提供证明，然后让编译器进行反馈，如果编译出错，就把错误信息反馈给 AI。通过这种方法，我们开始能够验证四五步长的证明。当然，一个大型的证明可能需要数万行。所以，我们还没有达到能够立即得到一个正式证明的程度。但是，这已经是一个相当有用的工具。对于大家关心的问题： AI 在数学领域现在到了哪一个阶段？是否未来几年利用 AI 能直接解决数学问题？陶哲轩也给出了他的看法： > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题，你可以定制专门的 AI 来处理一小部分问题。即便如此，它们也不是完全可靠的，但还是有用的。不过至少在接下来的几年里，它们基本上将是非常有用的辅助工具，超越了我们已经熟悉的暴力计算辅助。他还提到了一些可能的 AI 能在数学领域提供帮助的方向： - AI 能够非常好地生成有价值的猜想 > 比如，我们已经看到了关于结理论的例子，它们已经可以推测出两个不同的统计量之间的关系。因此，我们希望能够创建大量的数据集，输入到 AI 中，它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点，部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在，因为证明定理是如此繁琐和艰难的过程，我们一次只能证明一个定理，如果你效率很高，可能一次能证明两三个。但是有了 AI，你可以设想一下未来的情况，我们不是试图解决一个问题，而是处理一类类似的1000个问题，然后告诉AI，尝试用这个方法解决这 1000 个问题，然后报告结果，哦，我能用这种技术解决 35% 的问题。那么另一种技术呢？我能解决这个百分比的问题。或者如果结合这些方法，又能解决多少问题？你可以开始探索问题的空间，而不是一个接一个地解决问题。这是你现在根本无法做到的事情，或者是你需要几十年时间，通过数十篇论文慢慢搞清楚各种技术能做什么，不能做什么。但是有了这些工具，你真的可以开始做规模前所未有的数学研究。所以，未来将会非常令人兴奋。演讲环节结束前的最后一句话说的特别好： > 我们仍然会以传统方式证明定理。事实上，我们必须这样做，因为如果我们自己都不知道如何做这些事情，就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。这恰恰也是我们现在使用 AI 辅助编程的问题：如果我们自己都不知道如何构建软件，就很难引导好 AI 帮助我们生成高质量的代码。尽管 AI 在数学和编程领域变得越来越有用，但人类的洞察力和创造力仍然是创作价值的关键。原始 YT 视频：t.co/TRxIgFVogF

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

推荐阅读：《我们如何构建 Townie——一个能够生成全栈应用的应用程序 [译]》原文：How we built Townie – an app that generates fullstack apps 这篇文章分享了他们是如何打造一个类似Cursor的辅助编程代码编辑器，很多有价值的分享。译文：t.co/NASSPpmkfY 原文：t.co/Kz4nk5OJq1

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

《黑神话：悟空》这一段对话也很棒

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

推荐试用 Zed AI，这个代码编辑器也集成了 AI 功能，类似于 Cursor 是编辑器层面的集成，另外它目前登录后可以免费用 Claude 3.5 Sonnet，值得一试！下载地址：t.co/R2PtO1q12M 相关介绍博客：t.co/bYPxl1CwRM

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

最近我试用了一下飞书的妙记来帮我生成视频字幕和翻译字幕，效果挺不错的，能比较快的识别中文和英文（还有其他语言的支持，不过没一一测试），能识别发言人，对一些口音比较重的中式英语印式英语都能识别的很不错。我日常翻译字幕时需要手动做的一些事情可以自动化了： - 识别发言人，可以直接准确标记出发言人 - 自动生成章节 - 按照章节或者选中的字幕导出视频剪辑 - 直接生成视频摘要当然还有一些我用不上的可能对有些人实用的功能，比如将视频或者会议内容转成待办事项。另外查了一下他们用的模型是豆包的Seed-ASR模型，根据他们论文 t.co/oe90YOppty 上的描述： > Seed-ASR是豆包大模型团队近期公开的ASR(自动语音识别)成果。它能准确转录各种语音信号,识别不同语言、方言、口音。即便多数人听不明白的孩童咿呀学语,它也能精确识别。对于人名、生词,Seed-ASR也能结合文本语音等上下文,实现更准确的转录。该成果目前已被集成进豆包APP、飞书中。妙记官网：t.co/ZngGtp9O6E 这是一个分享的飞书视频示例：t.co/NeFIhRset1

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

崔娃和微软一起合办了一个 AI 相关的视频节目，叫：《The Prompt with Trevor Noah》。它的口号是：“You can't find answers without asking the right questions”。这正是我们日常写 Prompt（提示词）使用 AI 的关键所在 —— 如果你不能提出正确的问题，就无法找到答案。这个系列节目由 Trevor Noah 主持，他现任微软的首席提问官（Microsoft’s Chief Questions Officer），以其深刻的好奇心而闻名。在每一期节目中，他与来宾一起探讨一个与公共辩论息息相关的新话题，讨论他们如何借助人工智能（AI）解决全球紧迫性问题，及其对公共安全、卫生、教育等领域的影响。他深入技术前沿，打破界限，从全球各地的技术专家、工程师、科学家以及社区中汲取知识与经验。 The Prompt with Trevor Noah | 第7集：使用AI检测政治深度伪造微软的首席问题官特雷弗·诺亚与t.co/Y3Lw9i2QRP的Oren Etzioni一起探讨了深度伪造检测的难度、可以用于检查媒体真实性的AI工具，以及如何阻止这些伪造内容在社交媒体上传播。章节： 0:00 - 引言 0:41 - Oren Etzioni，t.co/Y3Lw9i2QRP 创始人 1:20 - 深度伪造测验：真实还是人工合成？ 2:11 - 如何检测深度伪造 3:11 - 关于确认偏差 4:04 - 选举与政治深度伪造随着AI图像质量的提高，深度伪造变得更难识别。你能分辨出图像是真实的还是AI生成的吗？参加测试，看看你能否辨别出来：t.co/Z8zXSA2GK2 The Prompt with Trevor Noah: t.co/rCAfHuM8lq

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

Google 前 CEO 埃里克·施密特近期在斯坦福 CS323 课堂上的访谈（后续一） Eric 的访谈是在斯坦福的课程《The Al Awakening:Implications for the Economy and Society》之上的，讲师是Erik Brynjolfsson，在 Eric 走了之后，还有一些内容讲的也非常不错，翻译后放上来了 *** 实际上，让我再强调一下最后一点，因为我觉得在第一节课中我没有谈到关于使用大语言模型的事情，这在这门课的作业中是可以接受的，但必须充分披露。所以，当你使用它们，如果你在完成每周作业或期末项目时使用了它们，就像你向你友好的叔叔或同学寻求建议一样，你也应该这样做，或者如果你有笔记需要包含在内。所以我想谈一谈关于 AI，特别是 GPT，这对商业及其影响意味着什么。但在我们讨论这个之前，我想看看你们是否有任何问题想要跟进，特别是关于 Eric 提到的内容，我会尽量表达他的想法，我们可以讨论一下这些话题，然后再继续。好的，你请说。学生1: 我想问的一个问题是关于监管的。如果目标是保持领先地位，如何创造正确的激励机制，使每个人，无论是盟友还是非盟友，都有动力去遵守？ Erik: 你是指在竞争中的公司之间吗？是公司还是国家？学生1: 是国家，比如美国和欧盟。这是否不会成为那些选择遵循法规的国家或公司发展的阻碍？ Erik: 这是非常棘手的问题。Barry J. Nalebuff 写了一本叫做《合作竞争》的书，其中讨论了这些问题。确实有些情况下，监管可以帮助公司和整个行业生存下来。所以监管并不一定会减缓进展。标准就是一个很好的例子，明确标准反而能帮助竞争。我和许多公司的高级管理人员进行过交谈，他们确实希望在某些领域有一些共同的标准，有时候在一些危险领域还存在“竞相降低标准”的现象。谷歌的团队曾表示，他们没有更快推进的另一个原因是，他们担心大语言模型可能会被滥用或存在危险，但他们在某种程度上感到被迫加快步伐。我还与另一家大公司的员工谈过，他们说，“我们本来并不打算发布这个功能，但现在竞争对手都在做，所以我们不得不也发布。”这也是为什么在某些情况下，可能会有协调监管的兴趣，但显然，更常见的情况是，监管被用来阻碍竞争。例如，很多人认为，一些大公司反对开源和推动更广泛的开源的部分原因，就是他们想要放慢竞争对手的步伐。所以，这两种情况都存在。学生2: 好的。我想跟进一下刚才的讨论：我们还应该学编程吗？我们还需要学习英语吗？这些技能还会有用吗？ Erik: Eric 的回答是肯定的，比如受过大学教育的高技能工作或任务仍然是安全的，但其他的，比如停车管理等，可能就不能保证了。这种情况可能有一些主观因素影响。这个话题很有趣，或许我们可以在接下来的几分钟内再讨论更多。但确实值得思考的是，AI 系统到底是在替代人类的工作，还是在补充人类的工作。在编程领域，目前看起来，AI 似乎对最顶尖的程序员并没有太大的帮助，反而对中等水平的程序员非常有帮助。但如果你对编程一无所知，它同样也帮不上什么忙。所以这有点像一个倒 U 型。可以理解这种情况，因为如果你连AI生成的代码都无法理解，那这些代码往往会有问题，或者并不完全正确。如果你不能理解代码的运行逻辑，那么你也无法有效地使用它。另一方面，对于顶尖的程序员来说，生成的代码仍不够优秀，所以才会出现这种倒 U 型曲线。但这也就意味着，如果你完全不懂代码，你仍然需要一些基础知识，才能让AI的帮助变得有用。我认为这也适用于当前的很多应用，你需要有一些基本的理解，才能最大程度地利用它。我觉得这也是一个值得探讨的问题：这种情况是否会一直存在。在上一节课中，我简要介绍了从 0 级到 5 级的自动驾驶汽车。这其实也是我们可以讨论的一个话题，我在试图梳理，如果把这种模式应用到经济中的所有任务上，那它们会经历多少级别的变化？就自动驾驶汽车而言，我们目前还没有真正达到第5级，虽然我不知道你们当中有多少人坐过 Waymo 的自动驾驶汽车。这款车的表现相当好，但我和 Sebastian Thrun 一起乘坐时，他说目前的运营成本非常高。可能每辆车的运营成本会亏损 50 到 100 美元。他并不确定具体的数额。因为他已经不在那儿了，虽然他是项目的创始人，但现在不再参与。运营成本太高，使得这款车并不实用。或许随着时间的推移，激光雷达的成本会降低，使得运营成本会降低。我们有很多 2 级、3 级甚至 4 级的自动驾驶汽车，这些车辆还需要人类的参与。其他很多任务也是如此，比如编程，我刚才已经提到过了。另一方面，关于国际象棋，在前一张幻灯片中我提到了一种有时被称为“高级国际象棋”或“自由式国际象棋”的概念。加里·卡斯帕罗夫在 1997 年输给深蓝之后，他发起了一系列比赛，让人类和机器可以合作。在相当长的一段时间里，比如在我 2012 年或 2013 年做TED演讲时，当时的情况是，人类与机器合作可以击败深蓝或任何国际象棋计算机。因此，当时最强的国际象棋选手是这些人机组合。但现在情况已经不同了。像 AlphaZero 这样的程序，即使有人的参与，对他们来说毫无益处。反而可能对棋局造成干扰。所以，它经历了从机器什么都做不了，到人机合作，再到完全自主的阶段，我不太确定，大概用了 20 年的时间吧。如果有人想做研究项目，或者你们现在有想法的话，可以探讨一下，哪些经济任务会处于那个中间地带。因为那个中间地带对我们人类来说是一个不错的区域，机器可以帮助我们，但人类在创造价值方面依然不可或缺。在这个区域里，可以提高生产力、创造更多财富和提高绩效，同时也更有可能实现共享繁荣。因为劳动力的分布性使得其更广泛，而技术和资本正如 Eric 刚才提到的，可能会高度集中。你对此有什么看法吗？学生3: 我想问一个相关的问题。Eric 还提到我们在芯片制造方面有一个10年的计划。 Erik: 是的，我对此感到惊讶。学生3: 是的，我觉得有趣的是，作为一名劳动经济学家，文献和新闻中对此有一个积极的信号，如果我们正在将所有的芯片制造都转移到美国国内，那么这可能会带来蓝领工作的复兴吗？我想知道你对智能机器人模型或人类劳力有什么看法。 Erik: 嗯，我认为这不会有太大的影响。你们当中有多少人参观过芯片工厂？有人去过吗？有几个人去过。工厂里有多少工人在工作？学生4: 是台积电吗？是纽约大学的人去的，所以我不确定。 Erik: 好吧，答案是零。他们不让人们进去的原因是我们人类太笨拙、太不卫生，所以全部都是机器人操作。所有设备都在密封环境中运行。因此，确实有人需要运送物资等工作。如果机器人倒了或者出现了问题，他们得穿上像太空服一样的防护服进去调整，然后再出来，希望没有弄坏什么。所以，基本上是全自动化作业。对，我认为这需要一些更复杂的劳动力，但我不认为这会有太大的蓝领工人复兴。实际上，苹果之所以将 MacBook 的生产线转移到德克萨斯，不是因为德克萨斯的劳动力便宜，而是因为他们实际上不再需要太多劳动力。所以这个过程很像做体力劳动。因此，美国制造业虽然在产出方面增长明显，但在就业方面却并未有多大增长。学生5: 你认为 AI 智能体或文本转行动模型在明年会出现转折点吗？ Erik: 哦，当然。不，不是。Eric说的这些，我也听说过类似的东西。他很好地总结了这三大趋势。我之前已经分别听说过这些趋势，但他能够将它们整合起来确实不错。今天早些时候，我和吴恩达谈过，他一直在强调，特别是预计在 2024 年将会迎来智能体的大潮，吴恩达老师描述得很好，就像你们都知道的，如果你让一个大语言模型写一篇文章，它会一个字一个字地生成，从头到尾一次性完成，效果还不错。但想象一下，如果你写文章时不能使用退格键，也不能先做大纲，只能直接写完。现在的 AI 智能体会说，好的，首先我们需要制定一个大纲。这是写文章的第一步。接着，填充每一段内容，再回头检查文章的流畅性。然后，再看看语气是否合适，这是否符合目标读者的水平。通过这样反复迭代，你可以写出更好的文章或完成其他任务。这是一场真正的革命，通过这种方式，你可以把很多事情做得更好。还有关于上下文窗口的事情，也非常重要。所以我引用一些我认识的聪明人的话，Eric Horvitz，我上周在 GSB 的一个讨论小组上与他同台，有些人可能在场。他提出了一个很好的分类法。人们在问他关于微调的问题，我记得是 Susan 问的。他说，其实有三种方法可以让模型更加个性化。第一种是微调，也就是进一步训练模型。第二种是使用更大、更强的上下文窗口。第三种是使用 RAG（检索增强生成）或类似的技术，它能够访问外部数据。但现在这些上下文窗口似乎效果非常好。我想，正如 Eric 所说，我们本以为这很难。也许 Peter 可以解释一下。但不管怎样，现在我们能构建更大的上下文窗口了，现在，你可以输入一整本书或一整套书籍。你可以输入各种各样的信息。这能给你提供所有的上下文环境。所以这是相当革命性的。这为我们带来了许多之前没有的能力，包括让信息实时性更强，就像 Eric 提到的那样。

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

一图看懂“机器学习”工作原理🐶

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

Google 前 CEO 埃里克·施密特近期在斯坦福 CS323 课堂上的访谈（后续二/完结） Erik: 这是一个很好的问题。我的意思是，虽然确实有更多的资本投入，但这也引发了一些问题和评论。为什么所有这些资本都投向 AI，而不是其他地方呢？我认为，你知道，如果你观察历史的发展轨迹，有时看起来很平滑，但如果仔细观察，就会发现很多跳跃式的发展。有一些重大的发明和小的创新。 Andrew Karpathy 曾表示，他曾研究物理学，要在物理学上取得重大进展，成为顶尖的物理学家，你必须非常聪明，学习很多东西。也许如果足够幸运，你可以做出一些微小的贡献，有些人确实做到了。但他表示，现在在人工智能和机器学习领域，我们似乎正处于一个有大量“低垂果实”的时代，已经有了一些重大的突破。相比于像摘树上所有果实那样耗尽资源，现状更像是组合数学。在讨论第二次机器时代时，人们提到了"积木"这个概念。当你把两块积木或两块乐高积木组合在一起时，你可以创造出越来越多的新东西。现在我们似乎正处于这样一个充满机会的时代，人们也开始意识到这一点。一个发现往往会带来另一个发现，进而产生新的机会。由于这个原因，越来越多的投资和人力被吸引进来。在经济学中，有时候更多的资源投入会导致边际收益递减，比如在农业或采矿业中。然而在别的地方，资源的投入则可能带来增长的回报。更多工程师来到硅谷，会让现有的工程师变得更加有价值，而不是更不值钱。我们似乎正处在一个这样的时代。额外的投资和培训资金也使这些技术变得越来越强大。我不确定这种情况会持续多久，但现在看来，有一些技术已经走进了这个极其丰饶的时期，并且带来了积极的反馈和支持。我们似乎正处于这样的时代。因此，现阶段进入这个领域并接受培训的人，往往能够在相对较短的时间内做出相当重大的贡献。我鼓励你们所有人，我认为你们现在正在走在正确的道路上。学生7: 并不是每个人都有机会参与到关于 AI 的讨论和辩论中来。因此，我想了解你对非技术背景利益相关者 AI 素养的看法，不论他们是需要做出一定见解判断的政策制定者，还是普通大众，比如使用科技产品的用户。你觉得在解释技术基础和讨论那些看起来很抽象但不一定马上看出答案的影响时，应该怎么平衡呢？ Erik: 这是个难题。我必须说，最近在国会和其他地方的人们对这个话题的关注度有了显著提高。过去他们对此并不感兴趣，现在每个人都在试图更好地理解它。我认为有很多领域人们可以做出贡献。他们可以在技术层面上做出贡献，但如果让我选择，我认为当前更大的瓶颈在于商业和经济层面。即便你在技术上做出了重大贡献，要将这些转化为能够影响政策的结果，还有一段距离。因此，如果你对政治学感兴趣，或者是一个政治家，理解民主、错误信息、权力集中等方面的影响，这些问题目前都还没有得到很好的理解。我不认为计算机科学家一定是理解这些问题的最佳人选，但要了解足够的技术基础，明确技术可能实现的方面，接下来需要思考这些动态，就像亨利·基辛格与埃里克·施密特在书中所做的那样。如果你是经济学者，需要去思考劳动力市场、集中度、不平等、就业、生产力以及驱动生产力的各种影响。这些都是当前非常值得深入探讨的课题。你可以去研究很多不同的领域，在那里你可以充分理解这项技术可能的能力，然后进一步思考其可能产生的影响。我认为这就是我们可以获得最大收益的地方。让我给你举一个更具体的例子，这是我上周原本打算谈及的一个话题。电力也是一种通用技术。通用技术有一个特点，它们本身就是一种重要的创新，但通用技术真正的力量之一，正如我所说的 GPT，是它们提供了互补性，它们能够激发出互补的创新。比如，电力带来了灯泡、计算机和电动机，而电动机又推动了压缩机、冰箱和空调的发明。你可以从这一项创新中引发一系列连锁的创新。而大部分的价值来自这些补充性的创新。人们常常没有意识到的是，一些最重要的互补创新其实是组织创新和人力资本的互补。以电力为例，当电力首次引入工厂时，密歇根大学的教授 Paul Davis 在斯坦福研究了这些工厂的变化，令人惊讶的是，工厂电气化后，他们的生产力并没有比之前由蒸汽机驱动的工厂有显著提高。他觉得这很奇怪，因为电力看起来像是非常重要的技术。这只是一种风潮吗？显然并不是。使用电力之前的工厂是由蒸汽机驱动的。他们通常会在工厂中心位置放置一个大蒸汽机，然后通过曲轴和皮带驱动所有设备，并尽可能地让设备靠近蒸汽机，因为如果曲轴过长，可能会因为扭力而断裂。当他们引入电力时，他发现在一个又一个的工厂里，他们会拆除蒸汽机，然后找到最大的电动机，放在蒸汽机原来的位置，然后启动它。但这并没有真正改变整体的生产效率。很明显这并不是一个巨大的改进。于是他们开始在新的地点从零开始建设全新的工厂。那些新工厂长得怎么样？跟旧的工厂一模一样。他们会采用同样的模型，一些工程师会画出蓝图，在应该放蒸汽机的地方打上一个大大的 X，说："不，不，这里应该放一个电动机，" 然后他们就开始建设全新的工厂。然而，这并没有带来显著的生产率提高。大约 30 年后，我们才看到一种根本不同的工厂模式。这种工厂没有中央电源，也就是说，没有在中间放一架大型电动机，而是采用分散式电力供应，因为电机，如你们所了解的，可以做得很大，也可以做得中等，也可以做得非常非常小，你可以用各种方式将它们连接起来。于是，他们开始让每一件设备都有自己独立的电机，而不是依赖一个大电动机。他们把它称为单元驱动，而不是组驱动。我在哈佛商学院的贝克图书馆读过 1914 年的一些书，当时关于单元驱动和组驱动的讨论非常激烈。当他们开始使用单元驱动时，他们就建立了一系列新的工厂。工厂通常只有一层，设备的排列不再基于动力需求，而是基于其他因素如物料的流动，于是流水线系统开始形成。这带来了生产力的大幅度提升。比如生产力提高一倍，有时甚至三倍。所以，教训不是说电力是一种短暂的风潮，或者是失败的、被过度炒作的。电力是一种非常有价值的基础技术。但只有在他们进行了流程创新和组织创新，重新思考生产方式后，才真正实现了巨大的回报。这样的故事很多。我只讲了一个。我们时间有限，我还可以告诉你其他的例子。但在我一些书和文章中，如果你看看蒸汽机和其他技术，会发现类似的代际滞后期，经过几代人的努力，人们在数十年后才意识到这项技术可以让你做的事情完全不同于你过去常做的事情。我认为 AI 在某些方面也有点类似，将会出现很多的组织创新，会有新的商业模式以及我们之前从未想到过的经济组织方式。目前，人们大多是在进行技术改进。我可以列举一系列与技术互补的技能变革。虽然我不知道所有的变革是什么，需要创造性地去思考这些问题，但这就是当前的差距所在。以早期的电脑为例，组织资本和人力资本的投资实际上比硬件和软件高出 10 倍，如果你看看硬件和软件的投资规模。这是一个非常大的问题。话虽如此，我愿意稍微调整一下我的看法，因为像 ChatGPT 和其他一些工具，它们被迅速地采用，并且在短时间内改变了很多事情，部分原因是你不需要像过去那样深入学习 Python。你只需要用自然语言就能完成很多事情，通过将这些工具应用到现有的组织中，可以获得很大的价值。因此，某些方面的变化确实发生得更快了。在你可能读到的一些论文中，我们看到生产率在短时间内提高了15%、20%、甚至30%。但我怀疑，一旦我们找到这些互补的创新，生产率的提升会更大。这就是我对你问题的长篇回复。这不仅仅是技术技能的问题，还包括重新思考所有其他相关问题的方式。因此，对于那些在商学院或经济学领域的人来说，有很多机会可以重新思考你们的领域，因为你们现在手中有了强大的技术。学生8: 你似乎比 Eric 对转型速度更为谨慎，我理解的对吗？ Erik: 嗯，我会在两件事情之间做区分。我会听取他和其他人对技术的观点。我们将从其他几位专家那里听到他们的看法，有些人像他一样乐观，甚至对技术更乐观。当然，也有一些人对此并不那么乐观。但仅有技术是不足以创造生产力的，你可能拥有一项极其出色的技术，但由于种种原因，A，可能是因为人们找不出有效的使用方式。另一种可能是受到了监管的限制。我有一些计算机科学的同事，他们开发了更适合读取医学图像的放射科系统。但因为文化原因，它们没有被采用，人们不愿接受它们。还有安全方面的考虑。当我分析哪些任务 AI 可以提供最大帮助，以及哪些职业受影响最大时，我惊讶地发现飞行员的排名竟然靠前。但我认为很多人并不会愿意乘坐无人驾驶的飞机，他们更喜欢有人类飞行员在飞机上。因此，有许多不同的因素可能会显著减缓这个过程，我认为这是我们需要意识到的。如果我们能解决这些瓶颈问题，可能对生产力的帮助会超过单纯改进技术。学生9: Eric 对大学和数据中心的观点很有意思。这引发了一个更宏大的问题...... Erik: 我本来想问他，为什么不直接捐钱？学生9: 这就像是在探讨大学在生态系统中应扮演什么角色？显然，这里有更大的背景，我确信所有的计算机科学教授都意识到了这一点。 Erik: 我来回答这个吧，我认为如果有更多的资金支持会更好。联邦政府有一个叫“国家AI资源”的项目，虽然它提供了一些帮助，但资金规模只有几百万美元，顶多几千万美元，而不是几十亿美元，更别说是几千亿美元了。尽管 Eric 在课前告诉我，他们正在推动一个可能更大的项目。他正在推动一个更大的项目。我不确定这能否成功。这个项目是为了训练这些非常大的模型。我曾与杰夫·辛顿进行过一次非常有趣的对话。大家都知道，杰夫·辛顿是深度学习的教父之一。我问他在工作中，他认为哪种硬件最有用。他坐在他的笔记本电脑旁边，轻轻地拍了拍他的 MacBook。这让我想到，大学或许在另一类研究中有竞争优势，这类研究不是训练价值数十亿的模型，而是创新新的算法，比如那些可能超越 Transformer 的算法，还有很多其他方式可以让人们做出贡献。所以或许这里存在劳动分工。我完全支持并赞成我的同事申请更多的 GPU 预算。但学术界的贡献未必总是在这里。有些贡献来自于新的想法、不同的视角和新的方法。这可能是我们的优势所在。我上周与 Sendhil Mullainathan 一起吃晚餐。他刚从芝加哥搬到了麻省理工学院。他是一名研究员。我们在谈论大学的相对优势是什么。他认为，其中之一就是耐心。在大学里，有些人专注于非常长期的项目，像是有人在研究核聚变。研究核聚变的人已经工作了很长时间，不是因为他们会在今年或十年后从建造核聚变电站中赚到很多钱，甚至也许二十年后都不会。我不知道核聚变需要多长时间。但这是一件他们愿意长期投入的事情，即使时间线更长。对公司来说，承受这样长时间线的项目要困难得多。因此，大学在这方面或许有一定的相对优势或者说分工。学生10: 我是凯文。我对 AI 的涌现能力感到好奇。好的。Eric 似乎更倾向于讨论架构差异和设计更好的模型，而不是上次课我们讨论的规模定律。我想知道你怎么看...... Erik: 嗯，他提到了全部三个。你们还记得规模定律吗？它有三个部分。我记得我提到了 Dario 和他的团队的规模定律，要有更多的算力，更多的数据，以及算法的改进，例如增加参数。所有这三个部分......我认为我听到 Eric 说所有这三个部分都很重要。但是不要忽视最后一个部分，新的架构，所有这三个部分，我认为，都很重要。学生10: 我们离拥有通用人工智能类型的系统，像这些脱离实际曲线的模型，有多近呢？这个问题可以吗？ Erik: Eric 并不认为我们离拥有通用人工智能类型的系统很近，虽然我不认为这是一个明确的定义。实际上，这也是我本来想问他的问题之一，但时间不够了。如果能听他详细描述一下就好了。但当我与他交谈时，发现这个概念并不是那么明确的。在某种程度上，通用人工智能已经出现了。Peter Norvig 写了一篇名为《AGI 已经出现》的文章。我不知道这篇文章是否在阅读材料里。如果没有，我会把它加入。这是一篇与 Blaise Agüera y Arcas 合作的有趣的小文章。许多二十年前人们认为通用人工智能应该具备的能力，现在的大语言模型已经实现了。虽然可能没有做得那么完美，但它确实在以一种更通用的方式解决问题。另一方面，显然目前有很多事情它们做得不如人类。令人意外的是，物理任务是人类目前具备比较优势的领域。你们可能知道 Moravec 的悖论，Hans Moravec 指出，通常三岁或四岁的孩子能做的事情，比如扣纽扣或上楼梯，对机器来说却很难。然而，很多博士都觉得困难的事情，比如解决凸优化问题，机器却往往能做得很好。所以，这并不是一个非黑即白的情况......人类觉得简单的事情电脑却觉得困难，反过来，电脑觉得简单的事情，人类却可能觉得困难。这两者并不是在一个相同的尺度上。

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

Google 前 CEO 埃里克·施密特近期在斯坦福 CS323 课堂上的访谈（一）今天的嘉宾其实无需过多介绍。我记得大约25年前第一次见到Eric，那时他作为Novell的首席执行官来访斯坦福商学院。从那时起，他做了很多事情，他在Google（大概是从2001年开始）和Schmidt Futures（从2017年开始）做了很多事情，还有很多其他的事情你们可以查询了解。但他只能待到下午5点15分，所以我想我们直接进入问题环节。我知道你们也有一些问题。我这里有一些我写下的问题，但我们在楼上刚刚谈论的内容更有趣。所以我想从那开始，Eric，如果你不介意的话。 AI 的未来发展主持人：那就是，你预见AI在短期内，我认为你定义的是未来一两年，会有怎样的发展？ Eric：事情变化得如此之快，我感觉我每六个月都需要做一次新的演讲，讲述即将发生的事情。主持人：在座的有没有人，一群计算机科学家在这里，有没有人可以解释一下什么是百万token的上下文窗口，为其他同学解释一下？学生：在这里。基本上，它允许你用百万个token或者百万个词进行提示。所以你可以提出一个上百万词的问题。我了解到，这是当前通识教育关注的一个重要方向。 Eric：不，他们的目标是10个一百万。学生：对，一千万？没错。 Eric：接着，Anthropic现在是20万，他们的目标是100万，以此类推。你可以设想OpenAI也有类似的目标。主持人：谁能给出AI智能体的技术定义？ Jared：AI智能体基本上是执行某种活动的实体。这可能涉及在网上，代表你处理一些事情，可能是许多不同的事项，类似这些。所以，一个智能体就是执行某种任务的实体。另一个定义是，它是一个大语言模型，具有状态和记忆功能。主持人：再来一次，计算机科学家，你们中有谁能解释什么是"将文本转化为行动"？学生：就是把文本转变成行动。而不是把文本转化成更多的文本。 Eric：另一个定义是，将语言转化为Python代码。这是我一直不想看到的编程语言。然而，目前所有的AI工作都是在使用Python进行的。有一种新的语言叫Mojo，刚刚出现，看起来他们终于解决了AI编程的问题。但我们还要看，这是否能在Python的主导地位下生存下来。技术和市场的动态主持人：再来一个技术问题。为什么NVIDIA的价值和地位如此之高，而其他公司却在挣扎呢？ Eric：我认为，这主要是因为，大量的代码需要在CUDA优化下运行，而这是只有NVIDIA的GPU才支持的，所以，其他公司可以制造他们想要的任何东西，但是如果他们没有10年的软件开发经验，就不可能有机器学习优化。我个人喜欢把CUDA想象成GPU的C语言，对吗？这就是我喜欢的看法。它成立于2008年。我一直觉得它是一种糟糕的编程语言，然而，它却成为了市场主导。还有一点值得注意。有一套开源库，它们针对CUDA进行了高度优化，而对其他平台的优化却很少。每个构建所有这些堆栈的人——这在任何讨论中都被完全忽视了。这在技术上被称为VLLM以及其他一大堆类似的库。它们都是专门为CUDA而优化的，对于竞争对手来说，很难复制这个。主持人：那么，这些观点对我们来说有何影响或意义呢？ Eric：在接下来的一年里，我们将看到非常大的上下文窗口、智能体和"文本转行动"等新技术的兴起，当它们能够大规模应用时将对世界产生的影响将超出我们目前的理解范围。这种影响将远超过社交媒体所带来的影响，我个人是这样认为的。以下是我的原因。在一个上下文窗口中，你基本上可以将其作为短期记忆。我对上下文窗口能达到如此之长感到惊讶。这主要由于它的计算和处理难度很高。短期记忆的有趣之处在于，当你输入信息，比如你问一个问题，"读了20本书，你输入这些书的文本作为查询，然后你说，'告诉我它们说了什么。'"它会忘记中间的部分，这与人类大脑的工作方式相似。对吗？这就是我们现在的状况。主持人：关于智能体呢？ Eric：关于智能体，现在有人正在开发基于大语言模型的智能体，他们的做法是阅读一些像化学一样的学科，发现其内在原理，然后进行测试。然后他们将这些知识融入到他们的理解中。这是非常强大的。我提到的第三个要点是"文本转行动"。那么，我来举个例子，政府正在尝试禁止TikTok，我们拭目以待看结果如何。如果TikTok被禁，我建议你们每个人都这样做，告诉你的大语言模型，接下去的操作。复制一份TikTok。获取所有用户信息。获取所有音乐资源。加入我的个性化设置。在接下来的30秒内编制这个程序。然后发布出去。如果一小时内它没有迅速传播开来，那就沿着同样的思路尝试另一种方式。这就是命令。一步接一步，就这样。明白了吗？你知道这有多强大吗？如果你能从任意自然语言转换为任意数字命令，这在这个情况下就相当于Python，试想一下，如果地球上的每个人都有属于自己的程序员，他们会真正按照你的要求去做事，而不是像我手下的那些程序员那样并不总是按照我说的去做。明白了吗？在场的程序员都明白我在说什么。所以，想象一下，有一位既不自大，又会真正按照你的要求去做事的程序员，你甚至不需要付他一大笔工资。而且这样的程序无穷无尽。主持人：这一切都将在未来一两年内实现？ Eric：马上就要到来。这三件事，我深信只有结合这三件事，下一波浪潮才会到来。那么，你问的是接下来会发生什么。我的观点每六个月会有所改变，这就像一个周期性的摆动。比如说，现在，那些前沿模型（只有三个，我待会会详细介绍）与其他所有人之间的差距，我感觉正在变大。六个月前，我坚信这个差距正在缩小。于是我在一些小公司投入了大量的资金。但现在，我对此已不再那么确定了。我现在正在和大公司们交谈，他们告诉我他们需要投入100亿、200亿、500亿甚至1000亿。比如说，Stargate的投入就达到了1000亿，对吧？这确实非常困难。 AI的投资与国家安全 Eric：Sam Altman是我的密友。他认为这可能需要投入高达3000亿，甚至更多。我向他指出，我已经计算出了这需要的能源量。然后，在完全公开的精神下，我上周五去了白宫，告诉他们我们需要与加拿大建立最紧密的关系。因为加拿大有非常好的人，参与了人工智能的发明，还有大量的水力发电资源。因为我们国家没有足够的能源来完成这件事。另一个选择就是让阿拉伯人来资助。我个人非常喜欢阿拉伯人。我在那里待过很久，对吧？但他们不会遵守我们的国家安全规则，而加拿大和美国是共同遵守安全规则的三方联盟（或三国集团）的一部分。因此，对于这些价值3000亿美元的数据中心来说，电力开始变得稀缺。顺便说一下，如果你沿着这个逻辑走下去，我为什么要讨论CUDA和NVIDIA呢？如果有3000亿美元都要流向NVIDIA，你应该知道在股市里应该怎么做。这不是股票推荐，我并不是许可证发放者。（观众笑）部分原因是，我们需要更多的芯片，但英特尔正在从美国政府和AMD那里得到大笔资金，他们正准备在韩国建造半导体工厂。主持人：有谁的计算设备里有英特尔的电脑或者芯片呢，请举手。 Eric：看来，垄断不再是什么大问题了。主持人：这正是我想说的。 Eric：他们曾经垄断过。主持人：没错。 Eric：而现在Nvidia有垄断。主持人：那些对进入的障碍呢？例如CUDA，还有其他的，就像我前几天和Percy Lanny聊天时提到的。他根据训练模型所能获得的设备，会在TPUs和NVIDIA芯片之间做选择。 Eric：那是因为他别无选择。如果我有无限的资金，我会今天选择NVIDIA的B200架构，因为它运行更快。我并不在这里提倡什么，我只是想说有竞争是好事。我和AMD的Lisa Su有过长时间的交谈。他们正在开发一种能将你描述的这种CUDA架构转换为他们自己的架构，即RockM。目前它还不能完全运行，他们正在努力改进。谷歌、OpenAI与企业文化主持人：你在谷歌工作了很长时间，他们是Transformer架构的发明者。 Eric：是彼得，都是彼得的错。主持人：那里有像彼得和杰夫·迪恩这样的出色人才。但现在，他们似乎已经失去了对OpenAI的主动权。我看到的最新排行榜上，Anthropic's Claude是榜首。我问过Sundar这方面的问题，他并没有给我一个明确的答案。或许你能给出一个更明确或更客观的解释。 Eric：我现在已经不再是谷歌的员工了。确实如此。我要坦白的说，谷歌认为工作与生活的平衡，早点下班、以及在家工作比赢得比赛更重要。（笑）创业公司之所以能够成功，是因为员工拼命工作。很抱歉如此直言不讳，但事实是，如果你们离开大学去创办公司，你不会允许员工在家办公，而且每周只来公司一天，如果想要与其他创业公司竞争的话。主持人：Google创业初期，Microsoft就是这样。 Eric：对的。主持人：但现在似乎—— Eric：在我们这个行业里有很多公司，以真正创造性的方式赢得市场并在某一领域取得主导地位，但却未能完成下一次转型。这种现象很常见，并且有很多文献记录。我认为，创始人是特殊的，他们需要掌控一切，与他们共事可能会很艰难，他们会给员工施加很大的压力。我们可能并不喜欢马斯克的个人行为，但你看看他是如何推动员工的。我曾和他共进晚餐，当时他在蒙大拿州，而那天晚上10点他要飞往另一个地方，凌晨12点与t.co/dMMCFs4tyk开会。对吧？你想想看吧。主持人：我曾去过台湾，有着完全不同的文化，他们（台积电）让我印象深刻的一点是，他们有一条规定：这些刚入职的优秀物理学博士需要在地下一层的工厂工作。你能想象让美国的物理博士去做那样的事吗？几乎不可能。他们的工作态度和我们有所不同。 Eric：而问题在于，我之所以对工作要求这么严格，是因为这些系统具有网络效应，时间是非常关键的。在大部分业务中，时间其实不那么重要。你有充足的时间。可口可乐和百事可乐会一直存在，他们之间的竞争也会持续，这一切都在慢慢发展。我和电信公司打交道时，一般的电信交易要花费18个月才能完成。实际上，没有任何事情需要花费18个月去完成。要迅速行动。主持人：我们现在处于最大的发展期，最大的进步期。这也需要一些疯狂的想法。比如当微软与OpenAI达成交易时，我认为那是我所听过的最愚蠢的想法。将AI的主导地位让渡给OpenAI，包括Sam和他的团队，这简直太疯狂了。在微软或其他任何地方，都没有人会这么做。然而现在，他们正在朝着成为最有价值的公司的目标前进。他们和苹果公司的竞争激烈。苹果公司并没有一个好的AI解决方案，而微软看起来已经成功了。

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

无论多么复杂的任务，如果能合理的分解成多个简单可以执行的步骤，就容易达成了，比如后空翻

@dotey@x.good.news

@dotey@x.good.news

朱啸虎：今天AI应用能力的差距远超基础模型的差距，真正落地的应用对推理算力的需求其实都很有限。现在很多省市花几十亿，甚至上百亿建各自的算力中心，以后谁来买单？！ AI时代的Magic - AI应用的差距>基础模型的差距>基础算力的差距 - 技术生产力->业务生产力

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

Sora 视频案例：Caroline Rocha 自称是一名“AI 颓废艺术家”和 AR Metaspark 合作伙伴。（注：这个视频不推荐观看，可能会引起不适！） “作为一名中风幸存者，我失去了手部的活动能力，表达自我变得非常困难，而 Sora 让我可以将我的想法、感受（无论是好的还是坏的）呈现在屏幕上。它代替了我失去的那只手。我使用 Sora 和 AI 的目标是打破现实主义，去创造不存在的东西。我希望人们能够探索未知，也许会发现怪异中也有美。”

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

OpenAI 与大都会博物馆合作，借助 AI 唤醒“睡美人” 在 OpenAI，我们相信 AI 可以通过让生活更具创意和美感来丰富我们的生活。我们最近与大都会艺术博物馆的服装学院合作，打造了他们的展览“睡美人：时尚的重生”，展示了这种潜力。通过这次合作，我们开发了一个定制的聊天体验，将20世纪早期纽约社交名媛娜塔莉·波特的世界栩栩如生地呈现出来。参观者可以探索她1931年的婚纱，并与娜塔莉的 AI 虚拟形象互动，了解她的生活、婚礼和所处的时代。为了构建这一体验，我们与博物馆的数字团队合作，策划了一个由信件、报纸文章和历史文件组成的数据集。利用 OpenAI 最先进的语言模型，并根据这些资料定制了指令，我们创建了一个能够真实响应娜塔莉性格和时代背景的聊天体验。与博物馆的历史学家和策展人的合作，确保了 AI 既帮助用户，也尊重历史内容，并赋予参观者在展览中更主动的参与感。“与娜塔莉对话”体验融入了与 ChatGPT 相同的安全机制，确保所有互动都是安全和适当的。尽管要实现人人都能从 AI 中受益的世界还有许多工作要做，但像这样的合作推动了我们朝着这个理想迈进。这样的例子突显了 AI 推动人类进步的潜力，并展示了 AI 如何成为一种工具，提升我们对周围世界的思考、创造和体验。 t.co/DH7Ab3OVYX

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

推荐阅读李沐的创业分享：《创业一年，人间三年》摘录一段：融资：签字前一天领投方跑路 22年年底的时候想到两个用大语言模型（LLM）做生产力工具的想法。碰巧遇到张一鸣，就向他请教。讨论之后他反问：为什么不做LLM本身呢？我的下意识退缩：我们之前在Amazon的团队做了好几年这个，得上万张卡，和blabla这么一大堆困难。一鸣呵呵表示：这些都是短期困难，眼光得看长远点。我的优点是听劝，真就去做LLM了。凑齐了数据、预训练、后训练、和架构各方向负责人的创始团队，就去融资了。运气不错，很快拿到了种子投资。但钱还不够买卡，得去拿第二轮。这一轮领头是一家非常大的机构，做了几个月文档、商讨条款。但在签字前一天，领头说不投了，直接导致了跟投的几家退出。很感激剩下的投资方，还是做完了这一轮，拿到了做LLM的入场券。今天反思的话，当时蹭着资本市场热情还在，其实可以继续融资，说不定也跟其他友商一样，现在十亿现金在手。当时担心融资太多，会不好退出，或者被架到天上去了。现在想来，创业就是想逆天改命，想什么退路呢？完整内容： t.co/jaB6Ja3iJG

查看详情

宝玉

dotey@x.good.news ·

@dotey@x.good.news

真实视频配合 AI 编辑后的效果

查看详情

加载中