今天我们发布了中文播客领域的第一个授权明确、质量有保障的文本-语音数据集，可用于TTS，ASR等领域模型的训练和微调，涵盖了百万级的数据对、超过三万期播客节目。其实最近两年，AI被广泛关注以来，创作者的权利诉求一直被忽视。大量内容被非法抓取用于模型训练，通过AI生成的衍生作品被作为“产品”售卖，却鲜有人考虑版权问题。在这个问题上，由于音频内容更“整洁”、“容易抓”、“信噪比低”，所以播客行业受

@zhufengme@x.good.news

今天我们发布了中文播客领域的第一个授权明确、质量有保障的文本-语音数据集，可用于TTS，ASR等领域模型的训练和微调，涵盖了百万级的数据对、超过三万期播客节目。其实最近两年，AI被广泛关注以来，创作者的权利诉求一直被忽视。大量内容被非法抓取用于模型训练，通过AI生成的衍生作品被作为“产品”售卖，却鲜有人考虑版权问题。在这个问题上，由于音频内容更“整洁”、“容易抓”、“信噪比低”，所以播客行业受到的影响尤为显著。根据我们托管平台的统计，每天有超过100GB的数据在没有授权的情况下，被大模型厂商抓取用于AI训练。我们希望通过建立这样的数据交易机制，让播客创作者能够分享到AI产业快速发展的红利，而不是自己辛苦制作的内容被无偿的拿去训练大模型，甚至弄成音色库被滥用。 AI领域的内容产权问题非常复杂，作为创作者确实很难维护自己的内容权利，更符合实际的方式我觉得是参与其中，加入这个生态里面来，再谈论权利可能才更有实际意义。这个项目的官网是：t.co/Oho7xnJumd ，欢迎AI领域的开发者下载评估数据，也欢迎更多播客主播加入我们，维护你们应得的权利。也特别感谢 @GanymedeNil 的辛苦付出，搭建了整个后台的业务流程和数据标注、清洗的系统，才让这个计划得以顺利实施。

查看详情

@zhufengme@x.good.news

0/477