基于深度学习的多说话人分割聚类
多说话人分割聚类是指从存在多个说话人的音频流中找出“谁在何时说话了”的任务,对一段对话、一场会议或一个广播节目进行自动转录或理解时,该任务是必不可少的。一个典型的多说话人分割聚类系统至少包括语音活跃性检测(VAD)、说话人变更点检测(CPD)和说话人聚类三个部分,还可以包括一个额外的重分割部分来优化结果。传统方法中,上述各个部分分别使用具有多个阈值的不同类型模型来实现,这使得最终的系统通常过于复杂且不够鲁棒,不容易部署到声学条件不匹配的实际应用中。
近年来,随着深度学习和说话人表征技术的快速发展,使用深度神经网络来实现多说话人分割聚类系统中的各个部分已经成为了一种趋势。
本次报告首先介绍剑桥大学的传统多说话人分割聚类系统,该系统曾获得ASRU 2015 MGB挑战赛说话人分割聚类任务的冠军,然后介绍团队最近在使用深度神经网络实现分割聚类系统不同部分的一些工作。最后还包括了对多说话人分割聚类研究的一些热点问题的探讨,包括如何实现完整的全神经网络端到端(可训练的)系统以及如何将分割聚类与语音分离和识别进行整合。