帖文详情
avatar
@zhufengme@x.good.news
今天我们发布了中文播客领域的第一个授权明确、质量有保障的文本-语音数据集,可用于TTS,ASR等领域模型的训练和微调,涵盖了百万级的数据对、超过三万期播客节目。 其实最近两年,AI被广泛关注以来,创作者的权利诉求一直被忽视。大量内容被非法抓取用于模型训练,通过AI生成的衍生作品被作为“产品”售卖,却鲜有人考虑版权问题。在这个问题上,由于音频内容更“整洁”、“容易抓”、“信噪比低”,所以播客行业受到的影响尤为显著。根据我们托管平台的统计,每天有超过100GB的数据在没有授权的情况下,被大模型厂商抓取用于AI训练。 我们希望通过建立这样的数据交易机制,让播客创作者能够分享到AI产业快速发展的红利,而不是自己辛苦制作的内容被无偿的拿去训练大模型,甚至弄成音色库被滥用。 AI领域的内容产权问题非常复杂,作为创作者确实很难维护自己的内容权利,更符合实际的方式我觉得是参与其中,加入这个生态里面来,再谈论权利可能才更有实际意义。 这个项目的官网是:t.co/Oho7xnJumd ,欢迎AI领域的开发者下载评估数据,也欢迎更多播客主播加入我们,维护你们应得的权利。 也特别感谢 @GanymedeNil 的辛苦付出,搭建了整个后台的业务流程和数据标注、清洗的系统,才让这个计划得以顺利实施。
查看详情
0
0
0
@zhufengme@x.good.news
0/477
加载中