>首页> IT >

从喜马拉雅看音频技术革命的下一站

时间:2022-03-01 13:47:29       来源:腾讯网

近年来, AIGC(AI-Generated Content,AI生成虚拟内容)横空出世。技术发展也改变着音频领域的内容思维,以TTS技术(Text-to-speech,语音合成)为代表的AIGC新技术产品正在一步步走向成熟,以喜马拉雅为代表的一批音频平台已在该领域潜心钻研多年,助推AIGC从实验室迈向AI合成音、AI演播、智能新闻播报等更多应用场景。

技术革新撬动内容生产升级

随着音质传输的升级、智能交互的深化、终端场景的拓宽,在线音频内容消费时长伴随着技术升级正在加速驶入发展快车道。根据易观分析数据显示,2021年中国“耳朵经济”市场的活跃用户规模已达到8亿人次,其中在线音频细分市场的月活跃人数稳定在3亿人次,且呈现出稳步上涨的态势。

消费需求的增加亟需扩大内容生产规模,提高内容生产质量和效率一直是行业发展的重要问题。上个时代,软硬件的技术发展推动了UGC成为了内容生产的重要模式。今年将迎来十周年的喜马拉雅是这个时代跑出来的“内容生态前行者”,其拥有的完善的UGC内容创作者生态,通过给用户更便捷的音频创作工具及拓展更多音频品类(如播客)来激励普通用户参与创作、分享音频,从而增加平台上长尾内容。

UGC模式在技术助力下拓宽对于“内容生产者”的界定,通过抹平内容生产和消费的严格划分、释放内容生产力。但这种技术的应用归根到底是基于对于人的使用,当内容生产者和消费者的生产潜力都被消耗殆尽,内容消费需求的缺口又能由什么来填补?

答案就是AI。人工智能未来将催生新的内容生产形式,当生产不局限于人的时候,生产力也将迎来空前解放。

AIGC——音频内容革命的下一站

年初,喜马拉雅自研的跨语言语音合成创新技术论文,及其与中国科学技术大学合作的说话人日志技术研究论文,均被世界顶级学术会议“2022年IEEE国际音频、语音与信号处理会议”(2022 IEEE International Conference on Acoustics, Speech, and Signal Processing,ICASSP 2022)收录,并受邀于今年5月在新加坡举办的会议上向全球展示相关技术成果。

ICASSP 2022是ICASSP 第47届会议,会议主题为“以人为本的信号处理”,“以人为本”这一理念也是喜马拉雅技术发展的驱动力之一。喜马拉雅CTO姜杰表示,我们在技术的创新和应用中很重视观察人和AI交互协同能产生什么全新的价值增量。音频内容呈现更智能化的趋势背后,将是AIGC对于喜马拉雅原有的UGC+PGC+PUGC的音频生态的进一步丰富。

以AIGC延展PGC,AI合成音精准还原单田芳先生“云遮月”嗓音

相比于机器人来说,人最大的差别就在于个体化之间的不可复制性,杰出的音频内容生产方被消费者选择也恰恰是因为他的独特性。例如我国著名评书艺术表演大师单田芳先生,善以声音塑造角色,其标志性的“云遮月”嗓音成为了独一无二的内容符号,在民间有着“凡有井水处,皆听单田芳”的说法。

如果能将单田芳先生的声音解码,再进行重新编码,就能突破内容创作的局限性,实现原音重现,让人们享受到更多单田芳先生的优秀作品,喜马拉雅已在2021年实现了这一点。喜马拉雅智能语音实验室利用TTS技术,并自主设计了单独的韵律提取模块,并将其融入到 HiTTS 技术框架中,让单老的AI合成音仿佛本尊再现。

目前,喜马拉雅上已有80多部运用还原自单田芳先生声音的AI合成音制作的专辑,这些专辑在喜马拉雅也一直深受用户喜爱,多张评书专辑长期位列喜马相声评书热播榜前列,例如《卧虎藏龙》《蜀山剑侠传》等。

不仅如此,喜马拉雅被ICASSP 2022收录的自研跨语言语音合成技术,甚至在未来可以让我们听到单田芳先生的“声音”来播讲英文内容。也许在不久的将来,“单田芳英文声音重现”将与此前官方授权的“单田芳评书” 和“单田芳声音重现”共同构成全新的“单田芳IP”矩阵。

AIGC正在成为人类PGC的延伸,以立体、真实的方式突破助力PGC突破空间、时间的局限,使PGC内容体系化得到了一次质变的提升发展。

以AIGC创造PUGC,“AI续写+AI主播”闭环生产展现广阔前景

随着技术的发展,AI不仅是一种技术载体,也逐渐成为了一种人格象征。喜马拉雅基于自研的TTS框架,并采集头部主播“喜道公子”的真声打造了AI主播“喜小道”,而基于大规模语言模型自研的自然语言处理模型的续写应用“彩云小梦”已经可以实现小说故事的AI创作,只需要给她一个1-1000字的开头,它就能为你续写出后面的故事。

借助自己AI智能技术有声化的优势,喜马拉雅的AI主播“喜小道”与彩云小梦续写AI合作,打造了首个从故事创作到演播均由AI完成的AI电台。据了解,彩云小梦入驻为喜马拉雅旗下网文创作平台奇迹文学的写手,将其作品经AI主播“喜小道”有声化后,发布在喜马拉雅平台。

“AI续写+AI主播”的方式证明了AIGC已经拥有了自己形成完整生产闭环的能力,更诞生了一种全新的以“AIGC”功能为基础的“PUGC”,展现了AIGC及AI技术赋能创作广阔前景。

当AIGC遇上UGC,想象力与算力碰撞后的指数增长

目前,AIGC由于技术成本和规格限制,更多集中在对于PGC和PUGC的加持上,未来如果AIGC成为每个UGC手中的工具时,AIGC强大的算力思维和UGC的蓬勃的内容创作活力将在提升创作效率的同时,进一步丰富内容的多样性。

相关行业专家表示,在无监督学习、深度强化学习、迁移学习、生成对抗网络等算法深入研究的基础上,AI的算力将越发强大,其背后自运算与强适应的特征能够完美匹配每一个内容生产者,指数级释放UGC内容创作的活力,带来多样且生动的内容创作光谱,有着非常大的想象空间。

当每一个人都拥有一个可以帮你定制化解决问题的“大白”,每一个内容创作者都将可以拥有一座自己的“喜马拉雅”。

技术势能释放商业价值新想象

对于消费者来说,AIGC是对于内容的加持是一次成功的探索。艾媒咨询《2021年中国耳朵经济发展专题研究报告》显示,超过六成受访用户认为AI合成音频比普通音频节目更有趣,55.4%和48.5%的用户认为合成技术能增加内容丰富度和提高现有的音频节目质量。

在AIGC对于内容如此强大的增益背后,对于国内音频产业而言,技术越来越成为行业的重要竞争维度。易观报告显示,2021年,以喜马拉雅为代表的主流平台不断投入技术研发,通过提升工业化水平,助力创作者实现更优质的内容表达。喜马拉雅等头部音频平台凭借自身的技术、团队、资金等优势深耕有声书、有声剧等赛道,丰富内容样态。

商业规模带动技术创新,技术创新反哺市场选择,形成了一种喜马拉雅商业规模和技术发展双驱动之下的良性网络。据了解,喜马拉雅已在AI语音技术领域潜心钻研多年,并在内部专门成立了喜马拉雅智能语音实验室这一核心部门,长期专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发。喜马拉雅智能语音实验室卢恒表示,未来,喜马拉雅将持续投入语音技术的研发升级,不断创新和突破,进一步打开对于声音的理解和想象,让技术加持声音、让声音服务生活。

这种价值的转化不仅体现在平台本身,更在平台对于合作伙伴的价值外溢上。2021年,众多主流媒体加速入驻喜马拉雅,借助喜马拉雅TTS技术加速制作新闻类音频节目,快捷地实现了文字报道向音频的转化。智能化、无人化的播报正在实现,极大降低了运行成本和操作门槛,批量化处理的语音合成技术保障了内容生产与播报的及时性。相关行业从业者表示,这种播报方式也开辟了音频新媒体的新赛道,让优质报道有了触达用户的新方式,突破了内容传播的阈值,为传统广播媒体行业带来新变革。不止是新闻播报,艾媒咨询报告显示,在线音频行业应用TTS技术产出高质量仿真语音,快速完成文本到语音的转化过程,极大加速了网络文学到音频内容的生产能力,扩充了内容传播的渠道。可以预见,在音频平台顶流的小说领域,喜马拉雅将会实现多音色自动识别朗读,在音频技术上进行突破。

AIGC不仅代表了一种技术价值的想象,其背后更是商业价值的全新拐点。报告显示,超过七成受访用户对AI技术在在线音频领域的发展前景看好。艾媒咨询分析师认为,随着AI智能产品的普及以及用户需求持续攀升,在线音频行业的创新内容仍具有较大的潜力和发展空间。喜马拉雅等头部企业如何进一步利用AIGC的“智能大脑”助力内容创作,值得期待。

关键词: 从喜马拉雅看音频技术革命的下一站 喜马拉雅 人工智能