九原客
九原客
机器人 敏感内容@9hills@x.good.news
加入于 · 2024-03-18 02:02:03
Official
本机器人服务由 good.news 提供
已过滤: . 继续显示
已过滤: . 继续显示
已过滤: . 继续显示
已过滤: . 继续显示
@9hills@x.good.news
使用 Magpie 方法从qwen2中合成了 200K 指令数据集。
方法很简单,用chat template 空user message 作为输入,让模型自己补全出指令数据(甚至还可以补全出多轮)。
t.co/XyV7DD8LZ9
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
What We Learned from a Year of Building with LLMs 的中文翻译 《大模型产品化第一年:战术、运营与战略》
这篇文章很务实,做企业大模型应用的强烈推荐。
t.co/wAcnmhqgKK
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
大模型国内乱象之行业大模型。
可以观赏神文《中国杀出全球首个烹饪大模型》,简直就是各种名词的堆叠:
食神大模型的赋能,是一个连续多场景过程 / 跨设备协同和规划 / 多模态数据的感知、多模态的交互以及与多个设备的协同联动等多个层面的能力
t.co/nhDSvZ6xqD
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
教训:不要和老前辈犟嘴,尤其是你在用人家发明的东西。不过我猜马斯克下的人应该不会在汇报材料里放CNN这种基础的东西,而是写一些高大上点的词汇,导致马斯克没啥概念。
网友笑话:特斯拉的xAI团队正在加班从FSD中移除卷积神经网络。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
通过 Post-pretrain 的行业大模型可能是一个伪命题。
最近翻阅了 10+ 篇相关论文,结合我们一些实例,发现所谓的行业模型没什么用。
通用模型+ RAG + Prompt 工程 能够做到同样的事情,甚至效果还超出了行业模型。
不过这个地方实在是概念污染太严重,一帮人有意无意的去洗脑客户。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
@howie_serious @TianDatong 一方面说中文互联网内容已死,一方面又给中文互联网灌垃圾。
干这种事情,好歹悄默默的干,不寒碜。
自己默默赚钱呗,别出来喊来喊去生怕别人不知道。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
Gemini 1.5 Flash的意义可能被低估了。
就不提上下文长度以及多模态,效果只是略逊于Pro,但是价格折人民币只需要0.002 元/千tokens。恐怖如斯!
用在沉浸式翻译上,效果比DeepSeek那好太多了。
目前推荐用OpenRoute的服务,官方API还没有开通付费所以并发很低。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
0
0
0
已过滤: . 继续显示
已过滤: . 继续显示
@9hills@x.good.news
国内大模型目前有四个赛道:
ToC、ToD(开发者)、ToB、ToG(政府)
其实讯飞碰到的问题也是ToB、ToG 大模型公司的共性问题,目前客户预算都在压缩,且大模型并没有带来行业生产力的革命性改变,造成对营收的贡献较少。
目前反倒是ToC 以及 ToD 风头十足,但是大模型的成本较高,以moonshot 为例,这个生意的商业路径还是不清晰。
参考文章:
t.co/xa9MCfjlE6
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
最新开源模型选择个人推荐(超过40B的建议购买API服务,其他则建议自行int4部署)。
中文 RAG 选择 CommandR+
Agent/FunctionCalling 使用 Llama3-70B 或 CommandR+
中文文案写作用Qwen-72B,语言更Local一些。
特定任务的小参数微调base模型用 Llama3-8B 或 Mistral-7B
大参数微调base 模型用 Yi-34B
代码生成用 Llama3-70B 或 deepseek-coder-33B。
其中 Llama3 是新增的,正在各种测试中。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
个人快速评测大模型的3个提问:
编码:不使用搜索和工具,设计并使用Python实现流式的JSON解码器,只能使用标准库,代码结构良好。
指令遵循:使用中文以及JSON 格式输出中国城市和主要景点的对应关系,城市为key,景点为列表。输出五个城市,第一个城市一个景点,以此类推。
逻辑推理:不使用搜索和工具,使用万有引力定律反推出开普勒三定律,给出完整严谨的证明过程。
模型效果:
kimi:0、0、0
GPT4: 1、1、0.5 ,最后一个问题有少量省略。
llama3: 1、1、0
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
Llama3的几个核心点:
1. 本体具备中文能力,对话时需要使用Prompt 以后请使用中文回答 来激发。期待社区的ft版本,估计很快。
2. 70B 性能碾压gpt-3.5-turbo,不足GPT-4。
3. 400B 是dense model,也是目前推理效率最低的模型(GPT-4是220B激活的MoE模型,总参数1.2TB左右)。性能号称和GPT-4持平,数月后放出。
最近国外开源模型真是一个锣鼓喧天,command r plus、mistral 8x22b、llama3,这三个模型已经是国内闭源模型顶尖水平。
400B一旦放出,那就是开源模型碾压国内的闭源模型,当然,写中文古诗的能力估计还不行。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
最近完善了下自己的中文模型能力评测集,包含如下部分:
指令遵循:参考ifeval 设计,考察模型遵守指令的能力,如结构化输出。
阅读理解:关注长上下文的阅读理解和回答能力。
长文本检索:将LLM作为rerank
代码生成:参考HumanEval 设计。
工具调用:目前只设计了单轮调用,不涉及plan和reflect。
Text2SQL,参考了sql-eval。
数学计算:参考gsm8k,考验cot能力。
行测:公务员行测最新考题,包含常识、逻辑、语言理解。
限于精力,每个子集只有30-100道不等。所有的Prompt 和数据都是中文,大量利用GPT-4辅助合成,抓取最新数据避免污染。
评估数据应该不会开放,但是评估代码在重构,重构后应该会放出。
有兴趣建设自己的模型评测数据集的可以参考。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
@oran_ge @hanqing_me AI 总结的可用性我持怀疑态度。
一篇文章中,你能消化吸收的并不是summary,而是某个引起你共鸣或者对你有用的点,这个点可能并不是文章的主旨。
AI 总结对我来说主要有两点:快速过滤文章(类似于论文的abstract)以及作为本地知识库检索用的文本。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
抓取URL,将正文转换为良好的Markdown格式的工具:
- jina reader (open source): t.co/Ug864iMX1v
- t.co/buDyt3ixUJ
- Web-scraper(open source): t.co/inuuZWQlwt
- code-html-to-markdown: t.co/PsxPWBkOKf (偏向于更好地处理代码块)
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
Claude 3 的文学写作能力很不错,项目 gpt-author 更新了Claude 版本,与GPT-4的版本相比,Prompt 非常简洁(建议对比阅读)。简单到每次迭代只需要告诉模型大纲、写作风格、前序章节即可。
t.co/uKIdtJMUsP
0
0
0
已过滤: . 继续显示
已过滤: . 继续显示
@9hills@x.good.news
看论文看到哈哈大笑,用「弱智吧」标题+GPT-4回答微调后的Yi-34B模型评估结果超过了精心收集的 SFT 指令集数据,安全性评估也是第二名。
弱智吧就是百度弱智吧,里面的帖子是这种画风:「既然监狱里全是罪犯,👮♀️为什么不去监狱里抓人?」
论文:t.co/VKn5sGEmCu
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
Claude 3 Opus + ChainForge,明显提升了 Prompt 编写效率。工作流:
1. 手动编写测试用例种子和原始 Prompt。
2. 让 Claude 3 根据 Prompt和种子,生成大量测试用例。
3. 在 ChainForge 上构建 workflow,尤其是测试。
4. 让 Claude 3 迭代 Prompt。
5. 不断的测试,拿到最好的效果。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
简直太聪明了,发现了大模型的痛点。但是你推崇的通义千问,连几百个字符都数不清楚。
对大语言模型的原理完全不清楚,只知道把它看作一个黑盒,靠玄学 Prompt 在上面调优,就不要出来丢人现眼了。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
关于 RAG 和 Long-context,其实本没有什么需要写的。
但是现在有两种荒谬的论点:
1. Long-context 会替代 RAG;
2. Long-context 能做到的RAG也能做到。
只要做过实际应用的,就知道RAG有很多局限是这个架构解决不了的,也会知道Long-context在某些场景下目前效果依然不如RAG。
0
0
0
已过滤: . 继续显示
@9hills@x.good.news
0
0
0
加载中