歸藏(guizang.ai)

歸藏(guizang.ai)

机器人
加入于 · 2024-03-16 13:09:27
avatar
@op7418@x.good.news
感觉目前人物和肢体复杂动作的控制还是 V2V 会做得比较好。

比如这个让半夜的自己出现在中土世界变成一个精灵。

用到的工具有,iPhone 拍摄、Sky glass app、Viggle AI、Runway、Udio。
查看详情
avatar
@op7418@x.good.news
沉浸式翻译团队的新产品 AI 搜索 Bilin 很有意思。

完全不做总结,只是提供多语言的搜索结果,拓展信息面。

专注于解决某个语言的互联网内容不够的问题,其实已经很够用了。

国内很多 AI 搜索质量差的问题是国内能搜到的数据就不行。
查看详情
avatar
@op7418@x.good.news
Perplexity 现在支持非常详细的股票分析。

可以生成历史收益报告,行业同行比较。公司财务状况的详细分析。

甚至支持 Web3 的相关数据和图表生成。
查看详情
avatar
@op7418@x.good.news
算力和云服务也在卷,Prime intellect 现在居然提供每小时 1 美元的 H100。
查看详情
avatar
@op7418@x.good.news
项目生成逻辑是:

首先,该系统会分析参考视频,创建一个包含各种可能身体姿势和动作转换的"动作图谱 (motion graph)"。

接着,系统会选择最能配合音频的最佳动作序列。

最后,它会生成流畅的过渡帧,从而创建出一个真实自然的动作视频。

项目地址:t.co/cY3gjpxVv6
查看详情
avatar
@op7418@x.good.news
卧槽,我们有开源的 Heygen 可以用了?

目前开源的HeyGen类似项目基本都支持面部和唇形同步,不支持更大范围的肢体运动。

TANGO 这个项目只需要提供几十秒的肢体运动视频,就可以无限生成匹配对应音频的全身视频。

再搭配上一些唇形同步开源项目比如快手的LivePortrait,完美复刻HeyGen不是梦想。
查看详情
avatar
@op7418@x.good.news
朋友训的一个FLUX Lora画的向佐,太传神了,哈哈。
查看详情
avatar
@op7418@x.good.news
某些对于我们正常人只是可有可无的科技创新对一些残障人士却非常重要。

这个失聪小姐姐在眼镜里看到别人说话的字幕的时候看起来真的好开心。
查看详情
avatar
@op7418@x.good.news
新的爆款 FLUX Lora 预定,可以生成动漫和现实混合的图片。

已经可以想到很多玩法了,直接转动漫或者让自己跟著名动漫人物互动。
查看详情
avatar
@op7418@x.good.news
92 期 AIGC 更新了,总结了上周主要的 AI 内容和资讯。

这是最后一期免费的 AIGC 周刊,下周周刊将开始收费。

年订阅费(45期)为199元人民币或者等额美金,首周会打七折。订阅渠道目前只有Quail 也就是我下面的链接。

算一算到我更新周刊已经快两年了,时间过得真快啊,我还记得第一期是ChatGPT发布后的一周开始的。

这两年时间我几乎每个周日的下午都耗在了这上面,但是随着AI发展的细分和深入,其实关注真正AI内容的人反倒更少了。

可能辛苦一下午的周刊,还不如随手发的一个视频案例阅读量大,所以我觉得是时候转为付费了。

这样可以保证真正想看的朋友可以有稳定的服务,也可以让我自己不至于因为越来越惨淡的阅读量失去更新和整理的动力。

再次感谢各位两年的陪伴和阅读,我们要开启下个阶段了,拜谢🙇‍。
查看详情
avatar
@op7418@x.good.news
很久没关注 Midjourney 的进展了,来看看上周他们公布的一些进度和即将发布的内容:

概要: 新的在线编辑器将于一周内推出,V7版本正在进行bug修复,个性化配置功能即将上线。

📝 即将推出:在线编辑器

🔹 正在开发新的编辑器,用户可以导入图片,并使用内置的深度图 (DepthMap) 和图像修复 (InPainting) 功能进行编辑。
🔹 团队正在讨论首次发布时要包含的功能。
🔹 内容审核功能运行良好。
🔹 正在优化用户界面,将新功能与现有图片功能分开展示。

🎨 个性化功能

🔹 开发新的个性化工具,方便用户快速上手并管理多个个性化配置。
🔹 支持激活多个个性化配置,并引入更精细的风格个性化系统。
🔹 将个性化功能整合到探索页面和8图网格生成功能中。

🧠 V7模型

🔹 V7模型在修复bug后已重新进入训练阶段。
🔹 训练和测试各需要几周时间。
🔹 期待多方面的改进,包括更好地理解提示词 (prompt) 和提升多语言处理能力。
🔹 在正式发布前,我们会投入足够的时间进行测试,确保模型性能符合预期。

🎬 视频模型

🔹 视频模型的训练工作仍在进行中。
🔹 团队正在讨论要开发的视频模型类型,考虑因素包括速度、分辨率和成本。
🔹 关注视频模型不断增加的开发成本。

🌐 3D模型

🔹 已收集第一批大规模3D数据集,准备开始训练3D模型。
🔹 正在评估3D模型是否应该作为2D模型或视频模型的扩展功能。

🔍 探索功能和人口统计研究

🔹 正在准备关于人口统计学和心理测量学研究的文章,初步结果令人满意。
🔹 计划整合一项新功能,允许夸大人口统计特征,以探索极端情况下的效果。

💻 软件开发和硬件

🔹 正在招募硬件和软件开发专家。
🔹 讨论开发桌面和移动应用程序的可能性。

⏱️ 发布节奏和优先事项

🔹 思考如何平衡多个项目的开发和保持快速迭代。
🔹 讨论是否应该专注于单一项目,还是同时推进多个项目。
🔹 目前重点放在提升质量和开发核心功能上,而非匆忙发布新产品。
查看详情
avatar
@op7418@x.good.news
Kimi 居然更新了语音通话模式!

今天突然发现我的 Kimi 上多了一个按钮,点了一下发现是语音通话功能,最近集中发货啊。

试了一下效果还挺好的:

最好的一个设计是可以在语音界面展示字幕;
支持打断模式;
支持更换声音;
支持语速调节;

另外还有独特的情景模式:
一个是英语陪练,可以单词跟读语法纠错和话题口语练习;
另一个是模拟面试,可以挖掘你的简历模拟面试场景。

还支持声音克隆,克隆的声音也能在语音通话里使用,我也克隆了自己的,可以在下面领取。
查看详情
avatar
@op7418@x.good.news
Adobe 还发布了一个非常强的功能生成扩展。

可以直接在 Adobe Premiere 中延长生成某一段视频填补镜头之间的间隙、或者延长镜头。

也可以单击并拖动音频剪辑的末端,以延长生成环境声音,以平滑音频编辑。

这个对于创作者来说还是挺重要的,如果生成质量好的话缺的视频和音频就不需要补拍补录了。
查看详情
avatar
@op7418@x.good.news
Adobe 的视频生成能力终于要来了。

结合他们本生的视频编辑工具,可以进一步维护他们的护城河。

发布Firefly 视频生成模型,支持文生视频、图生视频。

最强的是支持视频编辑,比如这个镜头拍摄的时候是拿的苹果,可以编辑为拿旁边的梨。

还可以生成一些纯黑背景的光效素材,然后用滤色模式合并。
查看详情
avatar
@op7418@x.good.news
哈哈 这个海螺做的视频好玩。

把经典影视内容所有的武器都变成冰淇淋。

查看详情
avatar
@op7418@x.good.news
三大历史时刻同屏。

虽然世界经济和政治环境稀巴烂,但是看着 AI 航天的发展感觉人类还是有希望。

查看详情
avatar
@op7418@x.good.news
哈哈 时间线上全是星舰的梗图
查看详情
avatar
@op7418@x.good.news
上海交通大学开源了一个非常牛批的语音生成模型 F5-TTS。

刚好这几天AI音频和播客火爆,这下瞌睡送枕头了。

模型特点有:

零样本 (Zero-shot) 声音克隆
速度控制(基于总时长)
可以控制合成语音的情感表现
长文本合成
支持中文和英文多语言合成
在 10 万小时数据上训练
最重要的是支持商用
查看详情
avatar
@op7418@x.good.news
关注 AI 必读!Anthropic CEO 万字长文-预测强人工智能的积极未来。

描述了自己思考中的强人工智能的定义,详细介绍了强人工智能可能在五个核心方面对未来人类的积极作用。

叙述极为严谨在每个领域都有严密详细的推理过程,值得所有人关注 AI 的人看一下。

下面是整理的要点和全文翻译:
查看详情
avatar
@op7418@x.good.news
收尾帧视频生成的玩法还没到上限。

这个 Luma 生成的视频太吊了,非常强的一致性和表现力。

老哥甚至用 Cursur 写了程序来实现这种效果。

具体流程为:

将图片放到 luma 的首尾帧,增加平滑相机之类的提示,关闭增强提示。

然后在 AE 中对视频加速,调整运动曲线。

查看详情
avatar
@op7418@x.good.news
DIAMOND 这个项目太牛了。

你甚至可以用鼠标和键盘玩实时生成的CS:GO。

和真实游戏的区别是,这里的游戏环境、人物动作、装备都是实时生成的不存在预置的3D模型。

而且这个项目是开源的,你可以自己部署试一试,目前可以在3090显卡上以10帧的速度运行。
查看详情
avatar
@op7418@x.good.news
阿里妈妈发布了一个FLUX DEV的8步Lora,看演示图片质量的损失非常小,比FLUX schell本身好很多。

如果你要部署FLUX DEV提供服务的话,可以试试,生成速度可以快3倍左右。

而且跟他们的FLUX Inpainting模型搭配使用效果也很好。
查看详情
avatar
@op7418@x.good.news
上海国投公司搞了一个上海人工智能生态基金。基金规模 100 亿元,首期 30 亿元。

并且和与稀宇科技(MiniMax)、阶跃星辰签署战略合作协议。

看起来MiniMax这轮融资OK了,视频模型救场,哈哈
查看详情
avatar
@op7418@x.good.news
朋友圈看到曲凯发的这个《EVE》3D AI伴侣的演示也太好了。

建模、动作和声音都无可挑剔,还有多模态能力。

做成手机APP确实比电脑要用要好,可以在使用电脑工作或者游戏的时候随时触发。
查看详情
avatar
@op7418@x.good.news
Meta 这个AI视频的应用很好。

帮助广告主把静态图片广告变成视频,或者将横屏视频扩展成竖屏。

可以大幅提高广告表现力,改善用户体验,广告主的素材制作成本也低很多。
查看详情
avatar
@op7418@x.good.news
看来 Krea ai 想做视频和图片界的 POE。

他们现在集成了海螺、Luma、Runway 和可灵四家最好的视频生成模型。

交一份钱用四份模型,还是挺合算的。
查看详情
avatar
@op7418@x.good.news
今天发现我自己常用来启动 ComfyUI 的云服务平台揽睿星舟进行了一波大升级。

现在启动之后就可以使用 comfyui,内置了常见的插件和模型,直接就跑,没有充了钱还得排队这一说。

之前很复杂的服务启动流程也被自动化了,阻挡小白用户最麻烦的一步也被搞定了。

也可以直接把 ComfyUI 工作流包装成应用来给用户提供服务。

嫌自己本地部署 Comfyui 麻烦的朋友可以试试:t.co/5FEJKJ2i3B
查看详情
avatar
@op7418@x.good.news
可灵的对口型能力更新了,现在可以直接输入文本指定对应声音朗读,然后再对口型。
查看详情
avatar
@op7418@x.good.news
收到了豆包的 Ola Friend 耳机,试了一下还挺强的,比宣传片能做的事情多多了。

比如你可以随时记录想记录的内容然后让豆包进行加工和整理,然后直接把对话收藏就行。

基本就是一个加强版随时唤醒的 Voicenote,日常习惯了语音记录的话成本很低,很多想法都可以被捕捉和记录。

其他的功能有:

- 不是非得说豆包豆包才能唤醒,点一下也行。
- 说豆包豆包是连续对话,点一下是回合制。
- 收音效果很好,基本很小声它也能听到,周围人只能看到你嘴在动。
- 支持跟汽水音乐联动,播放对应歌单之类的。
- 豆包的音频自然度应该是国内最好的,非常自然,同事试了一下非常喜欢说没有 AI 感。
查看详情
avatar
@op7418@x.good.news
快手和北大开源了一个基于流匹配的自回归视频生成模型 Pyramidal Flow Matching。

演示视频看起来效果非常好。

所有的数据都来源于开源数据集;
可以生成 768P、10 秒 24FPS 的视频;
总参数量为 2B。
查看详情
加载中