Leo Xiang 的帖文 - leeoxiang@x.good.news

我们的 RTC AI对话平台默认只支持 openai 协议规范的大模型，借助 claude 和 cursor 把 coze 的 api 转换成 openai 兼容的规范，这样就能把 coze 上的 worklfow 接入到我们实时对话平台上来。写代码+写文档半个多小时搞定，整个编程体验非常丝滑。 t.co/pnUeKv55sW

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

在调试一个英语口语练习的 workflow， prompt 中写明了“请始终以英文回复”，国内大模型测试了：豆包、kimi、百川、minimax 都没法做到只回复英文。不是都号称能逼近 gpt4 能力了么，prompt 遵循能力还是这么差。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

语音可能是更适合AI交互的方式一个验证： coze 平台上在学习教育分类中推荐的 12 个应用中，有一半是支持实时语音的。 t.co/SjaQ7ZFrot

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

Coze 的这个画布工作流很强大了，批量生成运营图文太方便。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

作为研发写文档的难度高于写代码，最近用 claudeai 帮我写技术文档，我只需要把我想表达的关键内容告诉他，他就帮我生成了一篇很丰富技术文档，再让 claude 根据参数定义生成 demo 代码，整过过程非常丝滑。继续找 @Cydiar404 给我续了一年的claudeai 订阅。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

coze 的工作流支持画板了，这个是期待很久的能力。用这个画板的能力基本上可以复刻 glif @heyglif 上很多玩法。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

有没有专门实时翻译(同声传译)的大模型？需求： 1、希望模型比较小，虽然大模型翻译工作做的比较好，希望这个专用的大模型性价比更高； 2、支持的语言种类尽可能能的多； 3、能支持实时的输入输出。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

看到 coze 的 plugin 也开始收费了。后面有没有可能一个个的小 SaaS 变成了Agent 平台的一个个 plugin，根据调用次数进行收费。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

发现 Cursor是可以使用自己的api-key的，因为已经购买了 github copilot，暂时没有花 20$订阅，先用一段时间再决定是否要花 20$。 Cursor可以在配置中设置自己的 api-key，设置方案如下：

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

目前大模型厂商都纷纷下场做 C 端应用，甚至各种语聊/陪伴类的产品，C端娱乐产品数据增长很容易成为虚荣指标。从这个层面上国内的大模型厂商反而最看好 deepseek，专心打磨模型。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

继ChatGPT、t.co/PufjzPrSyJ 把 RTC 作为实时语音的交互方案之后，Retellai也转向了WebRTC，国内的各大模型厂商也都会跟进。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

Grok 已经初步能用了，最近一段时间 twitter上的少，这样的总结能力确实能帮助我不少。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

硅基流动提供了 sencevoice-small 语音识别模型的推理服务，限时免费。支持中、英、粤语、日、韩的识别，一段 10 秒的音频识别耗时在 100-200ms 界别，可以用起来了。 t.co/qZACvjPyyW

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

最近在忙着接客户没怎么发推，大模型+音视频的落地在加速，客户明显多起来了。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

面壁的这个多模态8B 大模型确实不错，扔一个视频进去，三分钟的视频十几秒理解完： 1、处理速度能到实时 2、每秒抽取一帧的方式进行处理 3、没有对音频处理，加上音频的理解效果应该更好。 t.co/L2s8n0V9Kv

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

面壁的这个多模态8B 大模型确实不错，扔一个视频进去，三分钟的视频十几秒理解完： 1、处理速度能到实时 2、每条抽取一帧的方式进行处理 3、没有对音频处理，加上音频的理解效果应该更好。 t.co/L2s8n0VHA3

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

北京的大模型公司密度还是很高，从一家到另一家一脚油就到了，这个在其他的地区都是很难遇到的。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

大模型语音对话中的三件套：STT，LLM，TTS STT: 支持流式输入/流式输出 LLM: 只支持流式输出 TTS: 支持流式输入/流式输出所以大模型有没有可能支持流式输入？有些场景还是很需要的，比如：在实时翻译场景，希望流式的输出翻译后的文字，如果大模型能支持流式输入就会很方便。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

面壁智能今天发布MiniCPM-V 2.6视频多模态大模型 - 性能领先：在单图、多图和视频理解方面声称超越GPT-4V； - 轻量高效：仅8B参数，优于多个参数量更大的商用闭源模型； - 端侧部署：能在iPad等设备上实现实时视频理解。非常期待能做到实时的视频多模态大模型，本周末给出评测结果。 t.co/sCpLgf7W4e

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

客户调用我们的 API 的时候经常传错参数，让Claudeai 帮写了两个快速验证参数的页面，90% 代码是大模型生成，自己再稍微改改加点逻辑，半个小时就跑起来了，接入我们 API 之前先让客户自己验证一下参数是否正确。省事省力，支持客户的时间也大幅减少了。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

做流量和做商业转化是两种完全不同的逻辑。老婆运营视频号经历了两个过程，第一个过程是做流量做内容科普，粉丝做到1w+却基本没有转化。第二个过程就只关注转化，主打你有病我有药，每条内容中埋下交易的钩子，目前只有 2k 关注，成交转化却异常的好。你是在做流量还是在做转化呢？

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

专注于日本市场的转录产品 Notta 也实现了千万美金ARR。 t.co/2PH2JHR2gB 转录/翻译是这一波 AI 浪潮中完成 PMF验证的仅有的几个方向之一。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

万物皆可List， Chief AI Office整理的AI融资大数据，包括： 1、800+轮融资信息，2024年AI行业融资全景图，轮次详情 + 投资方信息； 2、GPT-4强化版公司简介。售价 $197 一份。t.co/CIilLWAgyo

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

本地测试了下 Gemma2 2B，基本的翻译和总结都能胜任，可以用来做一些好玩的应用了。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

DeepSeek API 的并发和限流 DeepSeek API 服务按照每天 1 万亿的容量进行设计。对所有用户均不限流、不限并发、同时保证服务质量。请放心加大并发使用。 deepseek 确实不按照常规套路出牌。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

Deepseek这个API Cache 直接把输入 token 的价格降低了一个数量级，百万 token 价格到了 0.1 元，官方列了两个非常契合的场景： 1、对于多轮对话场景，前面的多轮对话都能命中 cache； 2、对于数据分析场景，扔给大模型的大量数据也都能 cache；另外像长文本对话、代码场景也能节省大量的费用。

查看详情

Leo Xiang

leeoxiang@x.good.news ·

@leeoxiang@x.good.news

一句话说明最近忙的状态：周二剪了头发，周五晚上跟老婆吃饭的时候，老婆说：“你今天剪的这个头发显得很精神。” 我：“。。。。。”

查看详情

加载中