九原客的帖文 - 9hills@x.good.news

国内大模型目前有四个赛道： ToC、ToD（开发者）、ToB、ToG（政府）其实讯飞碰到的问题也是ToB、ToG 大模型公司的共性问题，目前客户预算都在压缩，且大模型并没有带来行业生产力的革命性改变，造成对营收的贡献较少。目前反倒是ToC 以及 ToD 风头十足，但是大模型的成本较高，以moonshot 为例，这个生意的商业路径还是不清晰。参考文章： t.co/xa9MCfjlE6

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

@bluebird0605 国产大模型中，纯自研架构不超过5个，完全自己从头训练的模型绝对不超过 20个。

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

最新开源模型选择个人推荐（超过40B的建议购买API服务，其他则建议自行int4部署）。中文 RAG 选择 CommandR+ Agent/FunctionCalling 使用 Llama3-70B 或 CommandR+ 中文文案写作用Qwen-72B，语言更Local一些。特定任务的小参数微调base模型用 Llama3-8B 或 Mistral-7B 大参数微调base 模型用 Yi-34B 代码生成用 Llama3-70B 或 deepseek-coder-33B。其中 Llama3 是新增的，正在各种测试中。

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

个人快速评测大模型的3个提问：编码：不使用搜索和工具，设计并使用Python实现流式的JSON解码器，只能使用标准库，代码结构良好。指令遵循：使用中文以及JSON 格式输出中国城市和主要景点的对应关系，城市为key，景点为列表。输出五个城市，第一个城市一个景点，以此类推。逻辑推理：不使用搜索和工具，使用万有引力定律反推出开普勒三定律，给出完整严谨的证明过程。模型效果： kimi：0、0、0 GPT4: 1、1、0.5 ，最后一个问题有少量省略。 llama3: 1、1、0

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

Llama3的几个核心点： 1. 本体具备中文能力，对话时需要使用Prompt 以后请使用中文回答来激发。期待社区的ft版本，估计很快。 2. 70B 性能碾压gpt-3.5-turbo，不足GPT-4。 3. 400B 是dense model，也是目前推理效率最低的模型（GPT-4是220B激活的MoE模型，总参数1.2TB左右）。性能号称和GPT-4持平，数月后放出。最近国外开源模型真是一个锣鼓喧天，command r plus、mistral 8x22b、llama3，这三个模型已经是国内闭源模型顶尖水平。 400B一旦放出，那就是开源模型碾压国内的闭源模型，当然，写中文古诗的能力估计还不行。

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

最近完善了下自己的中文模型能力评测集，包含如下部分：指令遵循：参考ifeval 设计，考察模型遵守指令的能力，如结构化输出。阅读理解：关注长上下文的阅读理解和回答能力。长文本检索：将LLM作为rerank 代码生成：参考HumanEval 设计。工具调用：目前只设计了单轮调用，不涉及plan和reflect。 Text2SQL，参考了sql-eval。数学计算：参考gsm8k，考验cot能力。行测：公务员行测最新考题，包含常识、逻辑、语言理解。限于精力，每个子集只有30-100道不等。所有的Prompt 和数据都是中文，大量利用GPT-4辅助合成，抓取最新数据避免污染。评估数据应该不会开放，但是评估代码在重构，重构后应该会放出。有兴趣建设自己的模型评测数据集的可以参考。

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

@oran_ge @hanqing_me AI 总结的可用性我持怀疑态度。一篇文章中，你能消化吸收的并不是summary，而是某个引起你共鸣或者对你有用的点，这个点可能并不是文章的主旨。 AI 总结对我来说主要有两点：快速过滤文章（类似于论文的abstract）以及作为本地知识库检索用的文本。

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

抓取URL，将正文转换为良好的Markdown格式的工具： - jina reader (open source): t.co/Ug864iMX1v - t.co/buDyt3ixUJ - Web-scraper(open source): t.co/inuuZWQlwt - code-html-to-markdown: t.co/PsxPWBkOKf （偏向于更好地处理代码块）

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

@ifuteng 后两张图也不是所谓的《功能架构图》。以阿里那张图为例，请问《专家经验》是什么功能？

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

这个大神也是神人。年薪上千万刀的工作也不做，就出各种LLM学习的项目和视频，质量也是天花板。如下视频也是我见过最好的大模型介绍，不亚于一篇最好的大模型综述。 t.co/Xux0bXf6fk

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

Claude 3 的文学写作能力很不错，项目 gpt-author 更新了Claude 版本，与GPT-4的版本相比，Prompt 非常简洁（建议对比阅读）。简单到每次迭代只需要告诉模型大纲、写作风格、前序章节即可。 t.co/uKIdtJMUsP

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

找到一个弱智吧的数据集：t.co/SUAlQy8Tfn 看来以后训模型要加一些这些题目了～

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

看论文看到哈哈大笑，用「弱智吧」标题+GPT-4回答微调后的Yi-34B模型评估结果超过了精心收集的 SFT 指令集数据，安全性评估也是第二名。弱智吧就是百度弱智吧，里面的帖子是这种画风：「既然监狱里全是罪犯，👮♀️为什么不去监狱里抓人？」论文：t.co/VKn5sGEmCu

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

Claude 3 Opus + ChainForge，明显提升了 Prompt 编写效率。工作流： 1. 手动编写测试用例种子和原始 Prompt。 2. 让 Claude 3 根据 Prompt和种子，生成大量测试用例。 3. 在 ChainForge 上构建 workflow，尤其是测试。 4. 让 Claude 3 迭代 Prompt。 5. 不断的测试，拿到最好的效果。

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

简直太聪明了，发现了大模型的痛点。但是你推崇的通义千问，连几百个字符都数不清楚。对大语言模型的原理完全不清楚，只知道把它看作一个黑盒，靠玄学 Prompt 在上面调优，就不要出来丢人现眼了。

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

关于 RAG 和 Long-context，其实本没有什么需要写的。但是现在有两种荒谬的论点： 1. Long-context 会替代 RAG； 2. Long-context 能做到的RAG也能做到。只要做过实际应用的，就知道RAG有很多局限是这个架构解决不了的，也会知道Long-context在某些场景下目前效果依然不如RAG。

查看详情

九原客

9hills@x.good.news ·

@9hills@x.good.news

最近想找一个开源的、数据和测试驱动的Prompt 调试工具。尝试了基本上能够体验的所有项目，感觉还是 t.co/XRWz2zxW5b 最合适，虽然上手难度略微高了一些。

查看详情

加载中