秒速赛车平台

· 主页 > 秒速赛车平台 >

业界 深度学习也能实现「鸡尾酒会效应」:

秒速赛车_秒速赛车平台-【秒速赛车彩票官方指定】  时间:2018-10-24 18:27

  原标题:业界 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型

  在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心理上「屏蔽」其他所有声音。这种能力被称为「鸡尾酒会效应」,是我们人类与生俱来的技能。然而,虽然关于自动语音分离(将音频信号分离为单独的语音源)的研究已经非常深入,但该问题仍是计算机领域面临的重大挑战。谷歌今日提出一种新型音频-视觉模型,从声音混合片段(如多名说话者和背景噪音)中分离出单独的语音信号。该模型只需训练一次,就可应用于任意说话者。

  在《Looking to Listen at the Cocktail Party》一文中,谷歌提出了一种深度学习音频-视觉模型,用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。在这篇文章中,谷歌通过计算生成视频,增强其中特定人员的语音,同时减弱其他人的声音。研究者的方法用在具有单个音频轨道的普通视频上,用户需要做的就是在视频中选出他们想要听到的说话人的面部,或者结合语境用算法选出这样的人。这种方法用途广泛,从视频中的语音增强和识别、视频会议,到改进助听器,不一而足,尤其适用于有多个说话人的情景。

  这项技术的独特之处是结合了输入视频的听觉和视觉信号来分离语音。直观地讲,人的嘴的运动应当与该人说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。视觉信号不仅在混合语音的情况下显著提高了语音分离质量(与仅仅使用音频的语音分离相比,正如在本文中所证明的),但是重要的是,它还将分离的干净语音轨道与视频中的可见说话者相关联。

  在谷歌提出的方法中,输入是具有一个或多个说话人的视频,其中我们需要的语音受到其他说话人和/或背景噪声的干扰。输出是将输入音频轨道分解成的干净语音轨道,其中每个语音轨道来自视频中检测到的每一个人。

  为了生成训练样本,我们首先从 YouTube 上收集 10 万个高质量讲座和演讲视频。然后从视频中提取带有清晰语音的片段(如没有音乐、观众声音或其他说话者声音的片段)和视频帧中只有一个说话者的片段。这样得到了大约 2000 个小时的视频片段,镜头中出现的是单个人,且说话的时候没有背景干扰。之后,我们使用这些干净数据生成「合成鸡尾酒会」——将人脸视频、来自单独视频源的对应语音及从 AudioSet 获取的无语音背景噪声混合在一起。

  使用这些数据,我们能够训练出基于多流卷积神经网络的模型,将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。网络输入是从每一帧检测到的说话者人脸缩略图中提取到的视觉特征,和视频声音的光谱图表征。训练过程中,网络(分别)学习视觉和听觉信号的编码,然后将其融合在一起形成一个联合音频-视觉表征。有了这种联合表征,网络可以学习为每个说话者输出时频掩码。输出掩码乘以带噪声的输入光谱图,然后被转换成时域波形,以获取每位说话者的单独、干净的语音信号。完整细节,请参考论文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》。

  以下是用谷歌的方法得到的语音分离和增强的结果展示(视频见原文)。被选取的说话人之外的另一个人的声音可以被完全消去,或抑制到所需的音量级别。

  为了强调该模型对视觉信息的利用,研究者从谷歌 CEO Sundar Pichai 的同一个视频中截取了不同的两部分,并将它们并排展示。在这个场景中,仅适用音频中的特征语音频率是很难实现语音分离的。然而,即使在这样富有挑战性的案例中,该模型也可以正确地分离语音。

  该方法还有作为预处理应用到语音识别和自动给视频加文字说明的潜力。处理语音重叠的说话人对于自动的文字说明系统来说是很有挑战性的,并且将音频分离为不同的来源可以帮助生成更加准确和易读的文字说明:

  谷歌认为该项技术有很广泛的应用前景,目前正在探索如何将该技术整合到谷歌的产品。


文章当前地址:http://www.agrovc.com/lmy/710.html