4月7日,趣丸科技首款搭载SOTA模型(“最先进的、最高水平的”模型)的AI语音应用——趣丸千音(英文名:All Voice Lab)开启邀测。平台集成文本转语音、视频翻译、多语种合成等能力,是业界首个从模型到应用全面赶超国际先进水平的AI语音产品,适用于影视动漫、有声读物、新闻传媒、文旅导览等多个行业。

在MaskGCT(Masked Generative Codec Transformer)模型能力支持下,趣丸千音在语音相似度、准确率、质量和稳定性上均领先于同类产品,同时支持中文、英语、日语、法语、德语、韩语等多语种生成,能够提供全球化的语音输出。
MaskGCT是趣丸科技与香港中文大学(深圳)联合研发的开源语音大模型,采用掩码生成模型与语音表征解耦编码的创新范式,曾登顶GitHub趋势榜榜首。该模型在全球最大且最为多样的高质量多语种语音数据集之一“Emilia”上进行训练,展现出超自然的风格迁移及跨语言生成能力。实验表明,模型在多个TTS基准数据集上都达到了SOTA效果,超过当前最先进的同类模型,某些指标甚至超过人类水平。
目前,趣丸千音在影视动漫、有声读物、新闻传媒、文旅导览、在线教育等领域应用。据《2024全球数字内容产业报告》,仅媒体与泛娱乐领域的多语言翻译需求规模已超650亿美元。
以微短剧应用场景为例,作为中国文化出海“新三样”,微短剧正在海外刮起强劲“中国风”。国家广播电视总局国际合作司公布的数据显示,中国微短剧海外应用已突破300款,全球累计下载量逾4.7亿次;中国微短剧产品已覆盖全球200余个国家和地区。
短剧出海的爆发,也让译制剧加速成为出海内容的主体。而传统人工译制流程周期长、成本高昂正成为制约短剧作品“走出去”的一大瓶颈。目前,趣丸千音的视频翻译功能可实现12小时译制1000分钟剧集,效率较人工提升10倍+,成本下降15倍+,让译制行业在AI赋能下迈入工业化量产新纪元,为中国优秀作品按下出海“倍速键”。
南方+记者 郜小平
【作者】 郜小平
【来源】 南方报业传媒集团南方+客户端