九原客

九原客

机器人
加入于 · 2024-03-18 02:02:03
avatar
@9hills@x.good.news
用正则表达式切chunking确实是一个办法,速度是极快的,但这玩意咋维护啊。
查看详情
0
0
0
avatar
@9hills@x.good.news
PDF 转 Markdown 工具列表:
查看详情
0
0
0
avatar
@9hills@x.good.news
最新支持中文的开源模型个人向推荐(不同参数规模的)。
查看详情
0
0
0
avatar
@9hills@x.good.news
使用 Magpie 方法从qwen2中合成了 200K 指令数据集。 方法很简单,用chat template 空user message 作为输入,让模型自己补全出指令数据(甚至还可以补全出多轮)。 t.co/XyV7DD8LZ9
查看详情
0
0
0
avatar
@9hills@x.good.news
What We Learned from a Year of Building with LLMs 的中文翻译 《大模型产品化第一年​:战术、运营与战略》 这篇文章很务实,做企业大模型应用的强烈推荐。 t.co/wAcnmhqgKK
查看详情
0
0
0
avatar
@9hills@x.good.news
大模型国内乱象之行业大模型。 可以观赏神文《中国杀出全球首个烹饪大模型》,简直就是各种名词的堆叠: 食神大模型的赋能,是一个连续多场景过程 / 跨设备协同和规划 / 多模态数据的感知、多模态的交互以及与多个设备的协同联动等多个层面的能力 t.co/nhDSvZ6xqD
查看详情
0
0
0
avatar
@9hills@x.good.news
教训:不要和老前辈犟嘴,尤其是你在用人家发明的东西。不过我猜马斯克下的人应该不会在汇报材料里放CNN这种基础的东西,而是写一些高大上点的词汇,导致马斯克没啥概念。 网友笑话:特斯拉的xAI团队正在加班从FSD中移除卷积神经网络。
查看详情
0
0
0
avatar
@9hills@x.good.news
通过 Post-pretrain 的行业大模型可能是一个伪命题。 最近翻阅了 10+ 篇相关论文,结合我们一些实例,发现所谓的行业模型没什么用。 通用模型+ RAG + Prompt 工程 能够做到同样的事情,甚至效果还超出了行业模型。 不过这个地方实在是概念污染太严重,一帮人有意无意的去洗脑客户。
查看详情
0
0
0
avatar
@9hills@x.good.news
@howie_serious @TianDatong 一方面说中文互联网内容已死,一方面又给中文互联网灌垃圾。 干这种事情,好歹悄默默的干,不寒碜。 自己默默赚钱呗,别出来喊来喊去生怕别人不知道。
查看详情
0
0
0
avatar
@9hills@x.good.news
不懂Python或者一知半解的人太多了。 不懂也没关系,还去质疑 yetone,哈哈。 就算异步轮训,哪有用6s轮训的。只是杠精上脑了而已。
查看详情
0
0
0
avatar
@9hills@x.good.news
Gemini 1.5 Flash的意义可能被低估了。 就不提上下文长度以及多模态,效果只是略逊于Pro,但是价格折人民币只需要0.002 元/千tokens。恐怖如斯! 用在沉浸式翻译上,效果比DeepSeek那好太多了。 目前推荐用OpenRoute的服务,官方API还没有开通付费所以并发很低。
查看详情
0
0
0
avatar
@9hills@x.good.news
有同学问我如何快速零基础了解大模型原理。 我一般会推荐这套视频,可视化做的非常的棒,总共也就三个小时,不仅适合了解,也是很不错的入门。 t.co/7FvhDAvbbq
查看详情
0
0
0
avatar
@9hills@x.good.news
十七种 AI 交互范式和各种例子,做大模型应用的推荐了解下。 t.co/vonsQrfZtC
查看详情
0
0
0
avatar
@9hills@x.good.news
国内大模型目前有四个赛道: ToC、ToD(开发者)、ToB、ToG(政府) 其实讯飞碰到的问题也是ToB、ToG 大模型公司的共性问题,目前客户预算都在压缩,且大模型并没有带来行业生产力的革命性改变,造成对营收的贡献较少。 目前反倒是ToC 以及 ToD 风头十足,但是大模型的成本较高,以moonshot 为例,这个生意的商业路径还是不清晰。 参考文章: t.co/xa9MCfjlE6
查看详情
0
0
0
avatar
@9hills@x.good.news
@bluebird0605 国产大模型中,纯自研架构不超过5个,完全自己从头训练的模型绝对不超过 20个。
查看详情
0
0
0
avatar
@9hills@x.good.news
最新开源模型选择个人推荐(超过40B的建议购买API服务,其他则建议自行int4部署)。 中文 RAG 选择 CommandR+ Agent/FunctionCalling 使用 Llama3-70B 或 CommandR+ 中文文案写作用Qwen-72B,语言更Local一些。 特定任务的小参数微调base模型用 Llama3-8B 或 Mistral-7B 大参数微调base 模型用 Yi-34B 代码生成用 Llama3-70B 或 deepseek-coder-33B。 其中 Llama3 是新增的,正在各种测试中。
查看详情
0
0
0
avatar
@9hills@x.good.news
个人快速评测大模型的3个提问: 编码:不使用搜索和工具,设计并使用Python实现流式的JSON解码器,只能使用标准库,代码结构良好。 指令遵循:使用中文以及JSON 格式输出中国城市和主要景点的对应关系,城市为key,景点为列表。输出五个城市,第一个城市一个景点,以此类推。 逻辑推理:不使用搜索和工具,使用万有引力定律反推出开普勒三定律,给出完整严谨的证明过程。 模型效果: kimi:0、0、0 GPT4: 1、1、0.5 ,最后一个问题有少量省略。 llama3: 1、1、0
查看详情
0
0
0
avatar
@9hills@x.good.news
Llama3的几个核心点: 1. 本体具备中文能力,对话时需要使用Prompt 以后请使用中文回答 来激发。期待社区的ft版本,估计很快。 2. 70B 性能碾压gpt-3.5-turbo,不足GPT-4。 3. 400B 是dense model,也是目前推理效率最低的模型(GPT-4是220B激活的MoE模型,总参数1.2TB左右)。性能号称和GPT-4持平,数月后放出。 最近国外开源模型真是一个锣鼓喧天,command r plus、mistral 8x22b、llama3,这三个模型已经是国内闭源模型顶尖水平。 400B一旦放出,那就是开源模型碾压国内的闭源模型,当然,写中文古诗的能力估计还不行。
查看详情
0
0
0
avatar
@9hills@x.good.news
最近完善了下自己的中文模型能力评测集,包含如下部分: 指令遵循:参考ifeval 设计,考察模型遵守指令的能力,如结构化输出。 阅读理解:关注长上下文的阅读理解和回答能力。 长文本检索:将LLM作为rerank 代码生成:参考HumanEval 设计。 工具调用:目前只设计了单轮调用,不涉及plan和reflect。 Text2SQL,参考了sql-eval。 数学计算:参考gsm8k,考验cot能力。 行测:公务员行测最新考题,包含常识、逻辑、语言理解。 限于精力,每个子集只有30-100道不等。所有的Prompt 和数据都是中文,大量利用GPT-4辅助合成,抓取最新数据避免污染。 评估数据应该不会开放,但是评估代码在重构,重构后应该会放出。 有兴趣建设自己的模型评测数据集的可以参考。
查看详情
0
0
0
avatar
@9hills@x.good.news
@oran_ge @hanqing_me AI 总结的可用性我持怀疑态度。 一篇文章中,你能消化吸收的并不是summary,而是某个引起你共鸣或者对你有用的点,这个点可能并不是文章的主旨。 AI 总结对我来说主要有两点:快速过滤文章(类似于论文的abstract)以及作为本地知识库检索用的文本。
查看详情
0
0
0
avatar
@9hills@x.good.news
抓取URL,将正文转换为良好的Markdown格式的工具: - jina reader (open source): t.co/Ug864iMX1v - t.co/buDyt3ixUJ - Web-scraper(open source): t.co/inuuZWQlwt - code-html-to-markdown: t.co/PsxPWBkOKf (偏向于更好地处理代码块)
查看详情
0
0
0
avatar
@9hills@x.good.news
@ifuteng 后两张图也不是所谓的《功能架构图》。 以阿里那张图为例,请问《专家经验》是什么功能?
查看详情
0
0
0
avatar
@9hills@x.good.news
这个大神也是神人。年薪上千万刀的工作也不做,就出各种LLM学习的项目和视频,质量也是天花板。 如下视频也是我见过最好的大模型介绍,不亚于一篇最好的大模型综述。 t.co/Xux0bXf6fk
查看详情
0
0
0
avatar
@9hills@x.good.news
Claude 3 的文学写作能力很不错,项目 gpt-author 更新了Claude 版本,与GPT-4的版本相比,Prompt 非常简洁(建议对比阅读)。简单到每次迭代只需要告诉模型大纲、写作风格、前序章节即可。 t.co/uKIdtJMUsP
查看详情
0
0
0
avatar
@9hills@x.good.news
找到一个弱智吧的数据集:t.co/SUAlQy8Tfn 看来以后训模型要加一些这些题目了~
查看详情
0
0
0
avatar
@9hills@x.good.news
看论文看到哈哈大笑,用「弱智吧」标题+GPT-4回答微调后的Yi-34B模型评估结果超过了精心收集的 SFT 指令集数据,安全性评估也是第二名。 弱智吧就是百度弱智吧,里面的帖子是这种画风:「既然监狱里全是罪犯,👮♀️为什么不去监狱里抓人?」 论文:t.co/VKn5sGEmCu
查看详情
0
0
0
avatar
@9hills@x.good.news
Claude 3 Opus + ChainForge,明显提升了 Prompt 编写效率。工作流: 1. 手动编写测试用例种子和原始 Prompt。 2. 让 Claude 3 根据 Prompt和种子,生成大量测试用例。 3. 在 ChainForge 上构建 workflow,尤其是测试。 4. 让 Claude 3 迭代 Prompt。 5. 不断的测试,拿到最好的效果。
查看详情
0
0
0
avatar
@9hills@x.good.news
简直太聪明了,发现了大模型的痛点。但是你推崇的通义千问,连几百个字符都数不清楚。 对大语言模型的原理完全不清楚,只知道把它看作一个黑盒,靠玄学 Prompt 在上面调优,就不要出来丢人现眼了。
查看详情
0
0
0
avatar
@9hills@x.good.news
关于 RAG 和 Long-context,其实本没有什么需要写的。 但是现在有两种荒谬的论点: 1. Long-context 会替代 RAG; 2. Long-context 能做到的RAG也能做到。 只要做过实际应用的,就知道RAG有很多局限是这个架构解决不了的,也会知道Long-context在某些场景下目前效果依然不如RAG。
查看详情
0
0
0
avatar
@9hills@x.good.news
最近想找一个开源的、数据和测试驱动的Prompt 调试工具。 尝试了基本上能够体验的所有项目,感觉还是 t.co/XRWz2zxW5b 最合适,虽然上手难度略微高了一些。
查看详情
0
0
0
加载中