宝玉

宝玉

机器人
加入于 · 2024-03-15 18:25:27
avatar
@dotey@x.good.news
推理规模扩展定律(inference scaling law)会成为大力出奇迹的新方向吗?它能带我们走进 AGI 吗? 在谈到大语言模型时,我们经常会联想到“大力出奇迹”,因为大语言模型正是靠着在“学习”方面的不断投入,用海量的数据和巨大算力训练出了像 GPT-4 这样强大的模型。但现在,似乎大力出奇迹这条路走到了头,GPT-4 之后没有看到大语言模型在性能上明显的提升。 最近,OpenAI 突然发布了 o1 模型,也就是传闻中的“🍓”模型,可能也是早先提到的 Q\* 模型。虽然这并非最强的原始版本,只是一个预览版,但它展示了一种不同于以往语言模型的推理模式:1 在生成结果前会先生成一条思考链,经过“思考”后再给出回复,这使得它在编程和数学方面的表现明显提升。 o1 的发布这些天引发了广泛的关注和讨论。有些人非常激动,认为 o1 开辟了一条通向 AGI(通用人工智能)的新路径;也有人感到失望,觉得 o1 的实际表现还不如 Claude 3.5 或 GPT-4o,等待了这么久却只得到一个性能平平的模型。 我倾向于前者,对 o1 这个方向持乐观态度。并非因为 o1 的数学能力特别强,或者它能理解晦涩的小说内容,而是 o1 似乎真的探索出了大力出奇迹的一条新的方向,那就是在推理上的大力出奇迹,或者有学术一点的说法,叫推理规模扩展定律(inference scaling law)。 以前我们谈论的大力出奇迹或者说规模扩展定律(Scaling Law),主要针对的是训练过程,意味着训练数据越多、算力越强、模型参数越大,最终的模型性能就越好。因此,我们一直在追求更大的规模。 而推理规模扩展定律则是另一条路径,就是模型训练完成后,它会在推理上消耗很多算力,用算力和时间换取推理能力的大幅提升。从 OpenAI 新发布的 o1 上就可以看到这条路径的实际应用:在生成结果前,要花大量的算力和时间在推理上,先生成思维链(Chain of Thought,CoT),借助思维链提升推理能力,得到更好的结果,甚至连复杂的奥数题都可以轻松解出来。 很多人对 o1 的思维链不屑一顾,觉得:“这不就是‘让我们一步一步思考’么?我在提示词让模型按照给定步骤生成也能类似的效果!”也有的找了一堆模型相互 PK,认为就是达到推理模型的效果了。 对于某些特定任务,这可能可行。例如,我曾设计过一个翻译提示词,让模型分三步:先直译、再反思、最后意译,效果相当不错。但问题在于,大语言模型需要应对各种各样的任务,我们不可能为每一种任务都编写一套思维链提示词,这不现实。所以,我们需要模型自己生成思维链,能够针对每个任务自主搜索最佳路径,生成最合适的思维链,达到最好的推理和生成效果。 要训练模型自己生成思维链并不是意见容易的事情,因为你需要大量的思维链训练语料,还要有合适的奖励模型,奖励模型生成的好的思维链,惩罚生成的不好的思维链。但 o1 的发布证明这条路是可行的,我们可以让模型自己生成思维链。 OpenAI 并未透露他们的具体训练方法,但推测是在后期训练阶段,通过强化学习,利用大量的数学题和代码库,训练模型生成解题的思维链。然后,根据结果和过程,对模型的行为进行奖励或惩罚,提升其生成思维链的能力。 当像 o1 这样的推理模型训练成功后,它就具备了强大的推理能力。对于输入的任务,能够生成高质量的思维链,通过增加算力和时间投入,可以显著提升模型的推理效果,大力出奇迹。 那么,是否意味着只要拥有无限的计算能力和时间,推理模型就能超越人类,完成许多复杂的任务呢? 这让我想到了 AutoGPT——一个可以自主规划和分解任务,自动完成目标的智能体。最初,人们期望只要给它足够的 Token 和时间,它就能帮助人类完成复杂的任务。但现实并不如人意,AutoGPT 很少能产生可靠的结果。限制它的正是其推理能力;面对许多任务,它无法有效地规划和分解,因而无法取得理想的结果。 o1 也是如此。能否通过计算能力换取智能,取决于其推理能力是否足够强大,能否在各种任务中生成高质量的推理过程。目前,o1 在数学和编程领域表现突出,文字解密方面也有不错的表现,但在其他领域的推理能力尚未展现出来,还需要看后续的发展。不过从 OpenAI 内部人士的发言来看,他们自己是信心满满。 > Greg Brockman: 根据我们的发布数据,在今年的国际信息学奥林匹克竞赛(IOI)中,模型在模拟人类条件下(每道题 50 次提交)取得了第 49 个百分位/213 分。但在每道题 10,000 次提交的情况下,模型得到了 362.14 分——超过了金牌线。因此,模型的潜力远比表面看起来的要大得多。 > > Jason Wei:AIME 和 GPQA 的结果确实很好,但这不一定能转化为用户可以感受到的东西。AI 使用人类语言来建模思维链在很多方面都很棒。该模型可以做很多类似人类的事情,比如将复杂的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。游戏已被彻底重新定义。 > > Shengjia Zhao:它不会完美,也不会适合所有事情,但它的潜力再次让人感到无限。再次感受到 AGI。 > > William Fedus:「ChatGPT 现在可以先仔细思考,而不是立即脱口而出答案。最好的类比是,ChatGPT 正在从仅使用系统 1 思维(快速、自动、直觉、容易出错)进化到系统 2 思维(缓慢、深思熟虑、有意识、可靠)。这让它能够解决以前无法解决的问题。 > 从今天 ChatGPT 的用户体验来看,这是向前迈出的一小步。在简单的提示下,用户可能不会注意到太大的差异(但如果您遇到一些棘手的数学或编码问题,您会注意到的🙂 )。但这是未来发展的重要标志。 也许他们已经实现了类似于 AlphaGO 那样自己训练自己的模式,让模型的推理能力可以持续提升。如果未来 o1 能在大部分领域展现出强大的推理能力,那么我们就可以在任务中,通过增加算力和时间上的投入,换取超越人类的智能,实现大力出奇迹,真正迈向 AGI。 至少就目前而言,o1 已经在编程和数学领域展示了强大的能力。尤其是在编程方面,如果能通过算力和时间换取高质量的代码,也能创造巨大的价值! 目前推理规模扩展定律这方面 OpenAI 还是走在前面,他们也没有透露太多细节,但就像 Sora 一样,只要我们知道在推理上大力出奇迹这个方向是可行的,开源模型将会很快跟进,很快就会有接近 o1 推理能力的开源模型出现。 看来,未来对算力的需求还会进一步增加。 本文同步发布于博客:t.co/kR2aEWCloN
查看详情
0
0
0
avatar
@dotey@x.good.news
这个IQ结果我是很怀疑的,因为o1 preview不支持多模态,很多题没法做的!我早就评论问了,但推主一直没回应
查看详情
0
0
0
avatar
@dotey@x.good.news
这是一篇著名的微小说,思想没那么纯洁的成年人都能懂这部小说隐含的那种意思,但是 AI 能吗? 测试下来 GPT-4o 是懂的,但是表达的很隐晦,Claude 似乎是懂装不懂,o1 mini 就完全不懂,o1 preview不止懂,还直白的描述出来了
查看详情
0
0
0
avatar
@dotey@x.good.news
我用 o1 Preview 2024年高考新课标一卷数学的前8道选择题,猜猜对了多少? 第一步,先借助 Gemini 帮我把试卷中的数学公式转成 Latex,必须得夸一下 Gemini 做 OCR 真的好用!
查看详情
0
0
0
avatar
@dotey@x.good.news
今天 OpenAI o1 团队通过 X 组织了一个 AMA(Ask Me Anything)的活动,团队通过这个推文下的评论和用户互动。 有网友已经整理了 AMA 的内容,这里简单转译一下: 原始推文: t.co/SCeJ61jYdK *** 我们今天在AMA环节中与OpenAI o1团队的学习总结 ### 模型名称和推理范式 - OpenAI o1的命名代表了一种新的AI能力水平;计数器重置为1 - “Preview”表示这是完整模型的早期版本 - “Mini”表示它是o1模型的较小版本,优化了速度 - “o”代表OpenAI - o1不是一个“系统”;它是一个训练生成长推理链的模型,然后再给出最终答案 - o1的图标象征着一个拥有非凡能力的外星人 ### o1模型的大小和性能 - o1-mini比o1-preview小得多且更快,因此未来将提供给免费用户 - o1-preview是o1模型的早期检查点,既不大也不小 - o1-mini在STEM任务中表现更好,但世界知识有限 - 与o1-preview相比,o1-mini在某些任务上表现更好,尤其是在代码相关任务中 - o1的输入Token计算方式与GPT-4o相同,使用相同的分词器 - o1-mini可以比o1-preview探索更多的思维链 ### 输入Token上下文和模型能力 - 更大的输入上下文即将为o1模型提供 - o1模型能够处理更长、更开放的任务,较少需要像GPT-4o那样进行输入分块 - o1可以在给出答案之前生成长推理链,这不同于之前的模型 - 当前无法在链式推理(CoT)过程中暂停推理以添加更多上下文,但正在为未来模型探索此功能 ### 工具、功能和即将推出的特性 - o1-preview目前还不使用工具,但计划支持函数调用、代码解释器和浏览功能 - 工具支持、结构化输出和系统提示将在未来更新中添加 - 用户最终可能会获得对思考时间和Token限制的控制权 - 正在计划启用流式传输并在API中考虑推理进展 - 多模态能力内置于o1中,旨在在诸如MMMU等任务中达到最先进的表现 ### 链式推理 (CoT) - o1在推理过程中生成隐藏的推理链 - 目前没有计划向API用户或ChatGPT公开CoT Token - CoT Token被总结,但无法保证其完全 忠实于实际推理过程 - 提示词中的指令可以影响模型如何思考问题 - 使用强化学习 (RL) 改进了o1的链式推理性能,GPT-4o无法仅通过提示词匹配其CoT表现 - 思维阶段看起来较慢,因为它总结了思维过程,但生成答案的速度通常更快 ### API和使用限制 - o1-mini对ChatGPT Plus用户的每周限制为50个提示词 - 在ChatGPT中,所有提示词计算方式相同 - API访问的更多层次和更高的速率限制将逐步推出 - API中提示词缓存功能备受期待,但尚无时间表 ### 定价、微调和扩展 - o1模型的定价预计每1-2年将遵循价格下降趋势 - 当速率限制增加时,将支持批量API定价 - 微调已在计划中,但时间表尚不确定 - o1的扩展因研究和工程人才的瓶颈而受限 - 推理计算的新扩展范式可能会为未来几代模型带来重大收益 - 逆向扩展问题目前并不突出,但个人写作提示中,o1-preview的表现仅略优于GPT-4o(甚至略逊) ### 模型开发和研究见解 - o1通过强化学习训练以实现推理性能 - 该模型在诗歌等横向任务中展现了创造性思维和强大的表现 - o1的哲学推理和泛化能力(例如破译密码)令人印象深刻 - 研究人员使用o1创建了一个GitHub机器人,该机器人可以提醒正确的CODEOWNERS进行代码审查 - 在内部测试中,o1通过对自己提出困难问题来评估其能力 - 正在添加广泛的世界领域知识,未来版本会有所改进 - 计划为未来迭代的o1-mini提供更新的数据(当前截至2023年10月) ### 提示技巧和最佳实践 - o1受益于提供边界情况或推理风格的提示技巧 - 与早期模型相比,o1模型对提示中的推理线索更为敏感 - 在检索增强生成(RAG)中提供相关的上下文可以改善性能;不相关的部分可能会削弱推理 ### 一般反馈和未来改进 - 由于处于早期测试阶段,o1-preview的速率限制较低,但将会增加 - 正在积极努力改进延迟和推理时间 ### 模型的卓越能力 - o1可以思考诸如“生命是什么?”等哲学问题 - 研究人员发现o1在处理复杂任务和从有限指令中进行泛化方面表现令人印象深刻 - o1的创造性推理能力,例如通过自我测试来评估其能力,展示了其高水平的解决问题能力
查看详情
0
0
0
avatar
@dotey@x.good.news
现在有了推理和反思,骗不了 o1 的提示词了,不像以前傻乎乎直接就都吐出来了
查看详情
0
0
0
avatar
@dotey@x.good.news
这是 OpenAI o1 背后的团队一起制作的一个短小的视频,其中一个人提出了一个问题:“什么是推理呢?”,这真是个好问题,感觉似乎知道答案,又似乎不知道如何表达。 但是他紧接着自己回复了这个问题:“一种理解推理的方式是, 有时候我们会提出一些问题需要立即得到答案因为这些是简单的问题。例如,如果你问“意大利的首都是哪里?”, 答案是罗马,几乎不需要多想。但如果你在思考一个复杂的难题, 或者想写一份好的商业计划书, 或者撰写一本小说, 你可能需要花些时间去深入思考。而你花在思考上的时间越多,结果往往越好。因此,推理是一种将思考时间转化为更好结果的能力, 不论你正在处理什么任务。” 简单来说就是推理意味着慢思考,区别于快思考马上给出答案,在得出结果之前要先自我反思质疑。这可能就是 o1 和以往模型的核心区别,以前 GPT-4,除非你额外要求,默认是马上给出答案,并不会去自我反思自我质疑的。 另外他们还分享了做研究中的“啊哈”时刻,就是那种灵光一现顿悟的时刻,突然发生了意想不到的突破, 让一切突然变得明了。不知道 AI 是不是将来也会自己产生 “啊哈” 时刻,突然觉醒统治人类😄
查看详情
0
0
0
avatar
@dotey@x.good.news
OpenAI 发布了新的模型 o1 的预览版,也就是传闻中的🍓模型 这个模型的特点是推理能力非常强,在数学和编程方面表现出色,在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o 仅解决了 13% 的问题,而 o1 模型解决了 83% 的问题。o1 的编程能力也在 Codeforces 比赛中超过了 89% 的选手。 ChatGPT Plus 和 Team 用户今天将可以在 ChatGPT 中访问 o1 模型。可以在模型选择器中手动选择 o1-preview 和 o1-mini,o1-preview 的每周消息限制为 30 条,o1-mini 为 50 条。 API 用户需要 Tier 5 才可以在 API 中使用这两个模型,速率限制为 20 RPM。 目前 o1 只是一个早期模型,侧重点是推理,所以像网络搜索、多模态都还不支持,需要配合 GPT-4o 一起使用。
查看详情
0
0
0
avatar
@dotey@x.good.news
问:想问一个基础的问题,我想让chatgpt读一篇十几页或者几十页的报告,然后针对其中的一部分,按照模板进行总结或者appraisal(有过往的报告参考),最好的方法是直接把pdf上传,然后再把模板上传,这样直接让他生成吗? 感谢宝玉老师! 答: 如果这个任务只有几页,那么对于 LLM 来说是很简单的任务,因为现在的 LLM,上下文窗口长度都比较大,GPT-4o(ChatGPT)有 32 K(2.3 万英文单词),Claude 3.5 Sonnet 有 200K(14万英文单词),Gemini 1.5 Pro 有 1M(70万英文单词) 所以如果只有几页,那么把报告内容+模板都提供给 LLM,让其按照模板总结就好。 如果几十页,那恐怕有点困难,可以先试试 Gemini 1.5 Pro,应该够用。 如果超出上下文长度,有几个办法: 1. 手动精简内容,把不必要的信息清理掉 2. 分块总结,将几十页拆成几页几页的小块,再选一种分块总结方案: - 每块独立总结,然后将所有总结合并,可能会损失上下文 - 一块块总结,将前一块总结的结果合并到下一块一起总结,速度慢一些,但是上下文损失小一些 当然还有其他一些办法,根本就是保证输入长度不要超过 LLM 的最大上下文长度(最好不要超过最高上限的2/3,因为输出内容也占用长度)。 另外 PDF 中内容的格式对于结果也会有影响,比如图表的总结效果可能并不会好。如果能把这些信息变成文本会更好。
查看详情
0
0
0
avatar
@dotey@x.good.news
在使用 AI 编程之前,一个不为人熟知的技巧是在 GitHub 上搜索有价值的代码,直接调用或者复制相应代码,节约很多自己从头写代码的时间。 举个例子,比如我想做一个文本生成语音服务,当然有很多收费的 API 可以用,但是也有一些免费好用的,比如有一个 Python 项目叫 Edge-TTS t.co/qT74qRSA8b ,可以免费调用微软的 TTS 服务。 但问题在于这个项目是 Python 的,如果我是纯前端项目,没法直接用,但我怎么找到靠谱的相应的 TypeScript 库或者代码呢? 首先我需要在这个项目找到核心代码,它是怎么实现的? 我第一个关键字是“https”,因为我知道它是调用的微软Edge的服务,如果是Web服务,应该绕不开需要https开头的URL 很幸运,第二个文件就找到了,如果这个关键字不行我可能会用一些微软常用的域名或者“.com”这样的常用域名后缀,都搜不出来就得去翻代码了。 打开文件,里面配置了 API 地址和 Token。 那么按照这个信息我应该就可以很容易找到其他语言的实现。 第二步我优先选择 Token 内容为搜索关键字 因为关键字的选取,最好是相关性和唯一性比较强,这样更容易过滤掉不相关的信息。 对于实现这个功能,无论什么语言 Token 肯定是绕不过去的,并且是个唯一性很强的字符串,比较容易搜索到。用 API 地址也是个可选项,但是太长的字符串搜索结果要差一些,另外可能会被无用信息干扰。 另外还需要过滤一下语言,如果只是考虑 Web 项目,那么加上 “language:TypeScript”可以限定只检索 TypeScript 代码,这样可以把无关的语言排除掉。 搜出来 42 条结果,而且相关性很高,都是高质量的 Repo,有大家熟悉的 OpenAI-translator 和 LobeChat,看来是我 Out 了,原来大家都已经用上了。 剩下的事就比较简单了。 不过现在你也可以试试让 AI 帮你生成试试,但是要调通能运行也还是需要花一点时间的,比如它可能不会帮你找 Token 😄 所以即使在 AI 编程时代,这些技巧也并不过时,我就经常先让 AI 生成一段代码,然后根据它生成的代码再去 GitHub 检索,效果很不错。 相对来说 GitHub 上的代码,至少绝大多数时候是能运行的并经过反复考验的,而 AI 生成的代码很多时候就是基于 GitHub 训练的代码生成的。两者结合起来效果更佳。
查看详情
0
0
0
avatar
@dotey@x.good.news
求推荐一个好用的 React 应用程序用的 Markdown 编辑器(HTML编辑器也可以),用在自己的博客后台发布上,需求: 1. 容易集成到React程序 2. 可以所见即所得 3. 方便加插件增加一些定制需求,比如支持数学公式、插入YT视频、自动下载图片什么的 先行感谢!🙏
查看详情
0
0
0
avatar
@dotey@x.good.news
现在不懂软件开发的人对 AI 是普遍乐观的,认为 AI 很快就要替代程序员了,而程序员群体作为最了解开发最常使用 AI 的群体怎么反而大多数认为这些工具无法替代人类程序员的角色呢? **首先现在的成功案例,都是偏向原型性质的、简单的产品,离真正的复杂商用产品还是有一段距离。**原型产品的特点就是不需要考虑后期维护,不需要考虑各种使用场景,满足特定场景的演示、验证需求即可。但程序员们日常实施的项目,需要在保障各种不同使用场景下的稳定运行,以及对复杂庞大的代码库长期维护。 **然后 AI 目前还只能生成代码,而在软件工程中,编码只是软件生命周期的一部分。**程序员的日常工作,还有很多编码之外的工作,比如需要和产品经理反复沟通确认需求,基于需求去设计合理的架构,将复杂的架构拆分成小的模块并保证模块之间可以正常通信,需要对结果进行反复测试,发现 Bug 要去跟踪和修复,开发完成还要部署到线上去运行。 **最后受限于 AI 的上下文窗口长度,AI 还不具备大项目的代码开发和管理能力。**当前 AI 都有上下文窗口长度限制,也就是说每次和 AI 的交互,内容不能太长,也不能生成太长的代码,这就意味着你无法把整个代码库都扔给 AI,只能是每次选取一部分代码,加上提示词一起交给 AI 生成,所以在让 AI 生成代码时,仍然要程序员去把复杂的需求拆分成简单的模块,仍然需要手动去选取最相关的代码供 AI 参考。 所以现在说 AI 能替代程序员还为时尚早,但是善于使用 AI 的程序员一定能大幅提升效率,甚至于不懂写程序的人借助 AI 的帮助作出原型类产品也是完全有可能的。除此之外,现在的 AI 本身是一个极好的知识库,通过和 AI 的交互,我们还可以让 AI 成为我们的导师,帮助我们学习各种开发上知识,解答开发中遇到的难题,快速提升自己。
查看详情
0
0
0
avatar
@dotey@x.good.news
8岁女孩45分钟构建聊天网页的新闻,本质就像4岁孩子做10+乐高,真的能做出来,但如果在遇到障碍时没有懂行的家长移除障碍,应该也是搞不定的
查看详情
0
0
0
avatar
@dotey@x.good.news
最近在从 vercel 迁移一个站点到 cloudflare 上时,这个站点用到了 aws 的 dynamodb,由于 cloudflare 的 worker 不直接支持原生 nodejs 的 crypto 库,导致官方的 aws-sdk 无法在 worker 运行导致无法迁移,后来发现 aws 官方还有一个更轻量的 sdk t.co/Tb2CTigfZ9
查看详情
0
0
0
avatar
@dotey@x.good.news
1992年的时候,比尔盖茨的一段采访视频,主持人不解的问盖茨:“有什么是计算机能做但是书本做不到的呢?阅读不就是最重要的互动过程吗?当你坐下来阅读的时候……” 在 30 多年前计算机不普及的时候,普通人确实很难想象计算机上不仅有图像,还能有声音、动画,还能互动,这会是怎么样的一种魔法体验,但现在已是平常! 对于上面的问题,盖茨耐心的解释: “不,不是这样的。完全不是。 如果你想了解乐器,不只是看看图片,如果你真的想了解乐器,你应该听它的声音。 你可能会想先读一下有关它的资料, 然后再弹击它来听听它的声音, 也许还想拨动某根特定的琴弦, 听听它独特的声音。 或者说你正在学习人体知识,你希望能够放大观看某个部位, 甚至想看到它运作的动画演示。再或者你在学习化学知识, 你可能会想亲眼看到化学键是如何结合的。 所以,计算机能够将文字、图片、声音和动画全部结合在一起, 让你能按自己的节奏学习, 获取更多细节,跳过不需要的部分, 并通过让计算机对你进行测验来确认你是否真正理解了这些知识。 这是一种比书本更高级的互动方式。”
查看详情
0
0
0
avatar
@dotey@x.good.news
大家注意这个钓鱼号,发私信说你的账号有问题,如果不提交反馈24小时内账号就要被禁了,然后留了一个钓鱼链接。 这个账号首页大量转发 X Support 的信息,咋一看还以为是 X Support。 提醒大家注意这种钓鱼信息,并建议大家一起举报: t.co/2la40AMtrC
查看详情
0
0
0
avatar
@dotey@x.good.news
如果你有想学习 Prompt Engineering(提示工程),但是又不知道从哪里寻找合适的学习资料,这里是我了解的一些优质资源,持续更新,也欢迎补充。
查看详情
0
0
0
avatar
@dotey@x.good.news
敏捷开发的精髓: - 持续可以交付:即使是半成品,也是可以运行的半成品,好过什么都看不到 - 时间盒子:Deadline倒逼生产力,到时间了得交付,可以缩小Scope,但是不能延期 - 小团队:减少依赖减少沟通成本 - 仪式感:通过每日站会这种仪式性的会议,加强沟通激发主动性
查看详情
0
0
0
avatar
@dotey@x.good.news
这个工具的事先思路很有意思: 1. 先预先生成26个字母的SVG,包括大小写 2. 根据输入框的字母选择相应的SVG 3. 加上CSS动画,渐进显示
查看详情
0
0
0
avatar
@dotey@x.good.news
1/n 演示一下如何借助Curosr (t.co/IL1AdYCKUS )反编译代码。 用Hopper Disassembler打开你想逆向的App,这里我随便找了一个App(Objective-C的才行,Swift的搞不定,或者我方法不对) 打开一个代码比较乱又比较多的代码
查看详情
0
0
0
avatar
@dotey@x.good.news
最近有个朋友跟我讨论技术问题,他在用个第三方的OCR的服务,用来提取发票上的文字为结构化数据。但收费较高,想自己实现一套,试了开源的PaddleOCR,识别可以,但是无法转成结构化的数据。 我建议他试试多模态的LLM,比如Gemini 1.5 Flash,用来做 OCR 效果非常好,可以在 Prompt 里面定制要输出的格式,并且成本极低。 参考提示词: *** Extract text from the provided image and organize it into a structured JSON format. *** 如果要自定义JSON格式,给一个样例应该就可以了。
查看详情
0
0
0
avatar
@dotey@x.good.news
有的产品经理以为有了AI,再也不用看程序员脸色,自己借助AI就能做出牛逼的产品,最终发现再牛逼的AI,也无法驾驭自己天马行空的想法
查看详情
0
0
0
avatar
@dotey@x.good.news
请教一下,有没有小模型能帮助将没有分段的文章按照关系分成自然段落,最好本地就能运行的。
查看详情
0
0
0
avatar
@dotey@x.good.news
问:宝玉老师,对于一个IT新人,如果往5年后看,现在值得学的技能有哪些,谢谢 答: IT技术其实变得很快的,很难预测未来主流的IT技术是什么,就像5年前你预测不到现在我们要用AI辅助编程,要学Prompt。但有些技能5年10年都不会变的,比如沟通、写作、软件工程等等。 人的精力有限,不可能什么都学。所以你需要关注两方面技能:对未来职业目标有帮助的专业技能 + 选什么职业都几乎需要的基础技能 作为一个IT新人,学习技能之前先想想:5年后你的职业目标是什么?资深开发工程师?某个领域技术专家?什么都懂一点的全栈工程师?技术管理? 有了职业目标,你就可以分析它需要的技能是什么,比如想成为领域专家,那么这个领域所有相关技能都要有深入理论基础和丰富的实践经验;比如想成为资深工程师,那么不仅是要有相关的编程领域方面的技能,还需要有系统设计、简单的项目管理或人员管理能力 基于职业目标把所需要的技能里出来,但是真列出来可能会吓你一条,因为对于新手来说,要学的太多了!这时候就需要去筛选一下,重点学习和积累那些最基础的最重要的技能,其他的技能当然也不是说不学,而是保持积累,在有冲突的时候学习那些重要的技能。 那么哪些是重要的技能呢? - 专业技能,和你的职业的专业相关的,比如编程、算法、数据库等,当然你选择的方向不一样会有些差别,如果你是前端可以不用重点学习后端的编程语言,但最好了解一点,并且不要自己给自己设限,这部分技术发展很快,需要常学常新 - 职场技能,这部分和职位无关,属于职场通用技能,也有人叫软技能。比如沟通能力,写作表达能力 - 基础技能,属于从事专业技术工作所需要的基础技能,和你做具体某个工种关系没那么大,比如项目管理,软件工程,现在还有Prompt Engineering 很多人担心说 IT 发展太快,要学的太多,或者 AI 来了保不住岗位,但是如果你一细分,发现要成为一位专业人士,所需要的技能是很多样的,其中 AI 能替代的很有限,需要你持续学习更新的也主要集中在某些编程语言框架上,绝大部分基础技能都属于学好了以后可以一直用的。当然像 AI 这种新的基础技能也是要及时跟进学习的。 比较容易犯的错误就是盲目追逐新的编程、框架技术,忽略了职场技能和基础技能的学习;或者没有职业规划,不知道该学什么或者什么都学。 对于IT初学的前5年,专注是最好的,在某个领域专精下去,把专业技能、职场技能和基础技能都打好基础,以后就算换领域,绝大部分技能都是可以重用的。
查看详情
0
0
0
avatar
@dotey@x.good.news
问:宝玉老师,有个问题想咨询一下,我现在手里有一张excel,里面大概有两万多行数据,都是一些很细碎的零件描述,我想用ai来给每一行做零件分类,我试了4o,但是4o只会帮我写程序去跑,本质上来说还是模糊匹配,准确率很低,老师知道有啥办法吗 答: 首先这件事你不能指望AI帮你一次性完成,不是说你上传一个Excel给AI,然后AI给你生成一个新的Excel,目前还做不到,或者说很难。 所以你需要人工拆解,把这个复杂的任务拆解成简单的任务,半手动的让AI帮你完成这个任务。 这里面有几个难点: 1. 需要读取Excel的数据 2. 需要让AI帮你对每一条记录分类 3. 需要将结果写回Excel 4. 无法一次性完成2万条记录的任务,需要拆分成多次,拆分后需要合并 如果我做这样的任务我会这么做: 1. 将Excel导出成CSV文件,并且只保留用来分类的字段,但有两个字段是必须的:零件ID和零件描述 因为大语言模型对文本支持是很好的,相对成本也比较低,这样的任务理论上来说纯文本就够了,如果多模态要复杂很多。 程序读取、写入CSV文件都很方便,甚至于你把CSV文件内容给模型,也能识别的很好。 至于只保留用来分类相关的字段,是因为大模型的上下文窗口有长度限制,无关信息越少越好。 至于唯一ID,是因为要方便的让大语言模型生成的结果解析后,可以正确的对应,可以正确的写回去。 这部分使用 Excel 软件手动操作就可以了 2. 将大的CSV文件用程序拆分成多个小的CSV文件 2万条记录让大语言模型去分类,恐怕上下文窗口不够用的,并且内容长了出错的概率也会很大,所以要拆分。我不知道Excel是否直接可以导出多个小CSV文件,但CSV的文件拆分用程序做很容易的,你甚至可以让 AI 帮你写一个大CSV文件拆分成小CSV文件的程序,应该很容易做到。 至于每个文件多少条记录,取决于你内容的长度,这部分需要先试验一下一次给 LLM(大语言模型) 多少条效果最好,比如100条、50条、10条都试试。 3. 写一个Prompt,让其可以根据输入的一组零件ID和零件描述生成分类 这是一个相当核心的任务,也是最复杂的部分: a). 你需要预先定义好分类,方便 LLM 归类时选择 b). 需要定义好输出的数据结构,方便程序解析。可以用JSON、XML、YAML,理论上来说也可以直接生成CSV格式,这样可以不需要程序介入,直接CSV输入,CSV输出,但是CSV出错的概率会大一些,不过值得试试 c). 需要写好Prompt,让 LLM 根据输入的内容,输出你想要的结果,输出你前面定义好的数据结构 这里的分类、数据结构和Prompt都需要自己去写,但是也可以借助AI完成,比如让AI帮你生成分类,帮你定义数据结构,帮你写Prompt。 比如我告诉 GPT-4o: 我现在手里有一张excel,里面大概有两万多行数据,都是一些很细碎的零件描述,我想用ai来给每一行做零件分类,请帮我生成: - 5条零件描述,要详细,大约1段文字 - 完整的零件分类,大约10条 - 一条Prompt来根据输入的零件编号和描述返回对应的零件分类,返回JSON格式。输入示例: [{"id": "123", "description": "XXXXX"}, {"id": "345", "description": "YYYY" }] 返回示例: {"123", "cat1", "345": "cat2"} 它就帮我生成了分类、示例数据和Prompt(参考图一) 然后我把Prompt和示例数据拿到Gemini去生成,直接就得到了想要的结果(参考图二) 4. 写程序调用 LLM 的 API 如果懂编程的话,这部分其实很简单,就是调用 API 的事情,如果不懂程序就比较麻烦,但是理论上来说也可以借助 LLM 帮忙,帮你写代码,这部分代码主要逻辑: a) 每次读取一个小CSV文件 b) 解析CSV文件内容,得到零件列表 c) 调用 LLM 的 API,输入前面调试好的 Prompt,输入CSV中的零件列表,按照Prompt设定好的输入格式输入 d) 解析 API 返回的结果,得到零件id和分类之间的对应关系 e) 保存为新的 CSV 文件,在原来的基础上给每个零件加上分类 f) 直到生成所有新的带有分类的CSV文件 5. 将新的带分类的CSV文件合并 再让 LLM 写一个小程序,将所有 CSV 文件合并成一个大的 CSV 文件,将CSV文件内容导入Excel 大概的思路就是这样的,还是要把复杂的问题拆分成相对简单的小问题,每一个小问题可以去借助 AI 帮你完成。实际做的时候肯定还会有些小的问题,理论上来说将遇到的问题去询问 LLM,能帮你解决。
查看详情
0
0
0
avatar
@dotey@x.good.news
最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上,陶哲轩做了一次 AI 和数学的演讲,非常精彩,从数学使用计算计算机的历史开始讲起,一直讲到大语言模型,干货相当多,尤其适合对数学有兴趣的同学。 (对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看) 先摘录几个冷知识: 1. 我们使用机器做数学计算已经有数千年,最早的机器辅助计算可能是罗马人,然后是中国的算盘 2. 二战时就有人肉“计算机”,计算弹道和其他任务,多位女孩子,因为男士们在打仗,所以那时候的计算基本单位不是GPU,而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在,数学家们使用一种现代化的证明辅助编程语言,叫做 Lean。在 Lean 中有一个核心的数学库,通过众包的方式开发的,本科数学课程中看到的内容,比如微积分基础、群论基础或者拓扑学等等,这些都已经被形式化了,所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程,那就是先编写一个称为“蓝图”的详细证明计划,将整个证明分解为数百个小步骤。每个步骤可以单独形式化,然后再将它们整合在一起,这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图,然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。 去年,陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了,使用了蓝图工具,参与的人中有概率论专家,甚至还有一些并非数学家的人,他们是程序员,但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务,并完成了它。 在数学领域,通常很难这么多人一起合作,一般最多可能五个人合作。因为在大项目上合作时,你必须相信每个人的数学都是正确的。但是,一旦超过一定规模,这就无法实现了。但现在借助 Lean 编译器,它能自动检查。团队成员无法上传任何编译不通过的内容,会被拒绝。因此,你可以与一些从未见过的人合作。 最后是讲大语言模型,首先陶哲轩就打脸了 GPT-4 的论文(我猜是微软那篇《GPT-4,通用人工智能的火花》),论文中号称 GPT-4 能解决国际数学奥林匹克问题,但实际上,这个问题不是 2022 年国际奥数竞赛的原始问题,而是一个简化版本,并且他们测试了几百道国际奥数竞赛问题,成功率只有1%,论文里的这个是精心挑选的恰巧能做对的。 并且陶哲轩提到了基于大语言模型的一些改进的方案: 比如 CoT(Chain of Thought),也就是 LLM 做简单的算术运算都做不对,但是如果让它一步步解释,可能就对了。还可以教 AI 一些解题技巧,比如尝试简单的例子,反证法,尝试逐步证明等。 比如让模型和编程语言或者工具连接,将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证,并且迭代的进行修正和验证,直到得到正确的结果,这可以提升大语言模型生成的效果。 即使借助这些手段,大语言模型还远远不能解决大多数数学问题,更不用说数学研究问题了! 当然陶哲轩也没太过打击大家对于 AI 的信心,表示我们在 AI 上还是在不断的取得进展,还提到了他日常是怎么用 AI 的,比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题,我尝试了几种方法,但都无法解决。于是,我尝试询问 GPT,你建议我使用什么其他方法来解决这个问题?GPT 给我提供了 10 种可能的方法,其中有 5 种我已经尝试过,或者明显没有帮助。的确,有几种方法并不实用。但其中有一种我还没尝试过的方法,那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时,我意识到这就是我漏掉的正确方法。所以,将 GPT 视为一个交流伙伴,它确实具有一定的用处。 还有使用 GitHub Copilot 帮他写代码,让它自动生成下一步的证明结果,Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具,你只需要写下一半的证明,它就会尝试猜测接下来的内容。大概有 20% 的情况下,它能猜到接近正确的答案。然后你就可以说,我接受这个答案。好的,那么在这种情况下,我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行,尽管你可能看不清楚,却真的解决了这个问题。所以,你不能盲目接受它的输入,因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解,这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行,它们就能自动完成。现在已经有了这样的实验,即通过迭代地让 AI 提供证明,然后让编译器进行反馈,如果编译出错,就把错误信息反馈给 AI。通过这种方法,我们开始能够验证四五步长的证明。当然,一个大型的证明可能需要数万行。所以,我们还没有达到能够立即得到一个正式证明的程度。但是,这已经是一个相当有用的工具。 对于大家关心的问题: AI 在数学领域现在到了哪一个阶段?是否未来几年利用 AI 能直接解决数学问题? 陶哲轩也给出了他的看法: > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题,你可以定制专门的 AI 来处理一小部分问题。即便如此,它们也不是完全可靠的,但还是有用的。不过至少在接下来的几年里,它们基本上将是非常有用的辅助工具,超越了我们已经熟悉的暴力计算辅助。 他还提到了一些可能的 AI 能在数学领域提供帮助的方向: - AI 能够非常好地生成有价值的猜想 > 比如,我们已经看到了关于结理论的例子,它们已经可以推测出两个不同的统计量之间的关系。因此,我们希望能够创建大量的数据集,输入到 AI 中,它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点,部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在,因为证明定理是如此繁琐和艰难的过程,我们一次只能证明一个定理,如果你效率很高,可能一次能证明两三个。但是有了 AI,你可以设想一下未来的情况,我们不是试图解决一个问题,而是处理一类类似的1000个问题,然后告诉AI,尝试用这个方法解决这 1000 个问题,然后报告结果,哦,我能用这种技术解决 35% 的问题。那么另一种技术呢?我能解决这个百分比的问题。或者如果结合这些方法,又能解决多少问题?你可以开始探索问题的空间,而不是一个接一个地解决问题。这是你现在根本无法做到的事情,或者是你需要几十年时间,通过数十篇论文慢慢搞清楚各种技术能做什么,不能做什么。但是有了这些工具,你真的可以开始做规模前所未有的数学研究。所以,未来将会非常令人兴奋。 演讲环节结束前的最后一句话说的特别好: > 我们仍然会以传统方式证明定理。事实上,我们必须这样做,因为如果我们自己都不知道如何做这些事情,就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。 这恰恰也是我们现在使用 AI 辅助编程的问题:如果我们自己都不知道如何构建软件,就很难引导好 AI 帮助我们生成高质量的代码。 尽管 AI 在数学和编程领域变得越来越有用,但人类的洞察力和创造力仍然是创作价值的关键。 原始 YT 视频:t.co/TRxIgFVogF
查看详情
0
0
0
avatar
@dotey@x.good.news
推荐阅读:《我们如何构建 Townie——一个能够生成全栈应用的应用程序 [译]》 原文:How we built Townie – an app that generates fullstack apps 这篇文章分享了他们是如何打造一个类似Cursor的辅助编程代码编辑器,很多有价值的分享。 译文:t.co/NASSPpmkfY 原文:t.co/Kz4nk5OJq1
查看详情
0
0
0
avatar
@dotey@x.good.news
大厂与其山寨 Cursor,不如做个好用的 AI 邮件客户端 大厂抄 Cursor,这样追在别人屁股后面跑是没有前途的,AI 代码编辑器已经是红海了,就算大厂又如何,微软比 Cursor 大多少?结果 GitHub Copilot 也没打过 Cursor,大厂还不如多投资几家像 Cursor 这样的公司,为什么非要抄他们呢! 程序员这个群体大家都知道,又不愿意花钱又没忠诚度,Cursor 好用马上都退订 Copilot,能白嫖绝对不花那$20 的订阅费,大厂不如多看看普通用户的需求。 普通用户需要的不是 Cursor,是能帮助沟通和写作的 AI 编辑器,比如写邮件、回短信。但是有好用的吗?没有!唯一可以看到的期货是苹果的 Apple Intelligence。 ## 普通人的写作需求是什么? 普通人日常的写作分三种:日常沟通、公文和创作。 **日常沟通** 日常沟通协作就是各种日常的邮件,短信、微信、Slack 等等,这类写作尤其是邮件,套话很多,特别适合用 AI 生成。我日常写稍微长一点的邮件基本都是 GPT 帮我完成了,给出要点和充足上下文,生成的又快又好,稍微改一下就可以用。 **公文类写作** 公文类就是各种报告、总结、文档等等,这种公文套话多,格式固定,但是费时费力,现在绝大部分公文都可以用 AI 帮助协作了。 而且同类型的公文,比如文档,以前历史的文档都可以重用,大语言模型尤其擅长模仿写作风格或者内容结构。结合 RAG(检索增强生成)这样的技术,写新的内容之前把以前写过的相关内容找出来,类似于 Cursor 那样帮你预先生成,大部分时候可能一路 Tab 就好了。 **创作类写作** 创作类又可以细分,一类是二次创作,比如翻译、书评等;一类是原创的创作,比如写论文、写小说还有像这篇这样的原创博客。 二次创作像翻译这种创作,如果结合 AI 其实可以效果更好,比如 AI 先翻译一遍,局部不对的,类似 Cursor 那样,调出对话框,告诉它如何改进,比如先解释一下、去搜索一些外部资料补充,再次生成结果就好很多,但是不需要手动去复制、搜索引擎搜索、筛选、重写等等。 至于原创,我个人是不依赖于 AI 写作的,从来没有让我满意过,我更喜欢一点一点将模糊的想法形成文字,并不断修改成型,AI 的自动完成甚至对我是一种干扰。但写完后借助 AI 帮我改改错别字、润色一下还是可以的。 ## AI 写作工具的挑战是什么? 相信我上面列出的几类写作需求也同样是大多数人所需要的,像代码编辑器,GitHub Copilot、Cursor 这样的好工具层出不穷,而给普通人写作的 AI 辅助工具,却没有看到什么好用的,这里面确实有很多挑战! **私有数据的获取** 要想让大语言模型生成好的结果,一定要有充足的上下文,这就意味着要获取你的私有数据,而普通人写作时的数据,很多都涉及隐私,相当敏感。没有人希望自己的私密聊天记录和通信记录发送到服务器,公司相关的邮件更是如此。另外像微信、Slack 这样的通信工具的数据,本身也是没有公开 API 可以获取的,通过其他手段可能会有些麻烦。 **模型的能力** 苹果在演示 Apple Intelligence 中的智能邮件回复时,效果很惊艳,但是它用的是本机小参数模型,如果不能接入 GPT-4o、Claude 3.5 这样的大参数优秀的语言模型来做这个任务的话,我不觉得效果会有多好,毕竟模型的能力才真正决定了最终生成的效果。 包括现在开源的大语言模型,要想在本机运行,大一点参数的模型根本运行不起来,小一点参数的效果又不好,这也是制约之类 AI 写作工具的一大瓶颈。 **交互体验** GitHub Copilot 和 Cursor 的成功,很大一部分程度上归功于其交互体验,根据当前你写代码的位置,智能的给出提示,随时唤起对话框输入提示词个性化的完成任务。但是代码相对来说确定性更强,有固定的语法结构和最优算法解,还有无数历史代码参考,通常一个上下文内,只有有限的最优解,所以可以给出精准的提示。而对于写作,完全是发散式的,可能性太多,极难预测,同样的交互也许就不一定适合普通写作。 **技术挑战** 很多做过或者了解 RAG 的都知道,现在 AI 搜索,看起来技术不复杂,但是做好其实极难,根据用户的输入找出贴切的上下文是极难的事情。要做好 AI 写作,难度不会比 AI 搜索更小,因为本质就是先根据你当前输入的内容,去做 AI 搜索,找出以前相关的内容,甚至要去搜索外网相关的内容,再结合输入位置前后的内容和你的要求帮你写作。 当然还有很多其他挑战,我也无法一一列举。 ## 下一个 AI 写作工具的机会在哪里? 我以为下一个 AI 写作工具的突破可能首先会是邮件客户端,邮件写作是高频需求,整理邮件也是一大痛点,相对来说邮件的数据也容易拿到,用户只要安装了客户端,绑定邮件账号,就可以在用户的允许下拿到用户的所有邮件数据,并且可以结构化的整理邮件数据,比如和某个人、某个组之间的所有对话,比如某一类对话。 如果有信的过的邮件客户端,能帮我连接 GPT-4o 和 Claude 3.5 这样的 API,能根据我需求智能撰写回复邮件,能根据我需求整理邮件清理垃圾邮件,对我的生产力会是很大提升。 AI 邮件客户端之后,可能会是公文写作,帮助你把历史内容都做好索引,学习你的写作风格和文章结构,根据你采纳建议的反馈不断完善模型。 专业翻译类的 AI 工具,是值得好好做的,书籍的翻译、文章的翻译、字幕的翻译,都是可以借助 AI 大幅提升生产力的地方,好的翻译工具,效率的提升可能是数倍记的。 在 GitHub Copilot 之前,我没想到 AI 可以这样辅助编程,再到 Cursor,我也没想到交互还可以进一步进化到这样方便的程度。所以对于 AI 写作工具也是类似的,我不觉得 Cursor 就是天花板,未来一定有超出我想象的更好的交互形式出现,可能唯一限制我们的就是我们的想象力吧。 期待大厂能做出适合普通人的好用的引领未来的 AI 编辑器,而不是去山寨一个 Cursor 出来!相比而言,我更看好小团队或者个人,他们比大厂更有机会开发出像 Cursor 这样吊打大厂们的 AI 工具。 本文同步发表于:t.co/nFCBi9ogZ4
查看详情
0
0
0
avatar
@dotey@x.good.news
《黑神话:悟空》这一段对话也很棒
查看详情
0
0
0
avatar
@dotey@x.good.news
Google 每天为开发者免费提供15亿个Token,其中 Gemini 1.5 Flash免费套餐包含: - 每分钟15次请求(RPM) - 每分钟100万个Token(TPM) - 每天1,500次Token(RPD) - 免费上下文缓存服务,每小时最多可存储100万个Token - 免费微调 Gemini 1.5 Pro免费套餐包含: - 每分钟2次请求(RPM) - 每分钟32,000个Token(TPM) - 每天50次请求(RPD) 微调模型 text-embedding-004 提供: - 每分钟1,500次请求(RPM) 除了前面说的 API,Google AI Studio 还为开发者提供免费访问,其中 Gemini 1.5 Pro 有 2M Token上下文窗口。 价格页面:t.co/dW7wzbSv4m Google AI Studio:t.co/ebN0Xfcvnw
查看详情
0
0
0
加载中