新闻详情

首页 / 新闻

DNN降噪取得大突破清微智能、清华合发论文被邀登语音旗舰会议ICASSP演讲

Time：2020年5月22日 | Author：清微智能

近日，由清华大学和清微智能技术团队合作的论文PAGAN: A Phase-Adapted Generative Adversarial Networks for Speech Enhancement（PAGAN：一种用于语音增强的自适应生成对抗网络）被第45届国际声学、语音与信号处理会议(ICASSP 2020)录用，并被邀请演讲分享。ICASPP是语音领域等级的国际会议，在语音识别、语音合成等方向汇集了全球领先的理论研究与技术应用成果，能够被其邀请分享的内容则代表着研究内容在国际语音领域处于尖端水平。

已成刚需的降噪要求

随着人们生活水平的提升，电子设备的降噪问题已经成为一种刚需。论文《PAGAN：一种用于语音增强的自适应生成对抗网络》对降噪问题中频域处理过程中会导致相位不匹配的问题，提出一种全新的思路——用对抗网络的方法，生成网络使用频谱信息，对抗网络使用时域信息，以得到更好的频域降噪中的相位匹配。

论文链接：https://ieeexplore.ieee.org/document/9054256

语音降噪是最常见的语音应用，但由于噪声产生是随机的，产生的原因和特性也相当复杂，因此只有适宜的语音增强技术才能达到较理想的降噪效果。

深度神经网络（DNN）在语音增强方面效果明显，因此也越来越受欢迎。但目前大多数基于DNN的语音增强方法都是从带噪语音中估计干净语音的频谱，而忽略了嘈杂语音和干净语音之间的相位失配，而且越低信噪比下的带噪语音的相位和干净语音的相位偏差会越大，这极大地限制了语音增强的性能。

本篇抛却了依靠估算更准确的相位的思路，另辟蹊径提出了一种通过时域鉴别器对抗传统DNN解决相位失配问题的新方法，通过对DNN进行训练，使其更适应于嘈杂语音的相位，将相位不匹配带来的影响降至最低。

论文中还提出了一种新的评估标准，用来判断对噪声相位的适应程度。实验结果表明，时域鉴别器的添加使得估计的去噪后的频谱对于带噪语音的相位更加友好，对语音增强性能的提高效果显著。

实验数据显示：使用Griffin-Lim（GL）作为中间对比算法，使用之前的全频域算法和GL算法作为后端处理的方法的PESQ的结果的差值为0.2左右，但是使用时域对抗网络的结果和GL作为后端的结果之间的差值只为0.02，所以可以得到结论使用时域对抗网络生成的频谱图对于带噪声的语音的相位更加友好。

团队表示：他们还正在尝试将这一理念拓展到其他深度学习降噪算法中去。

芯片，算法结合——降噪解题新思路

其实，在生活中的很多应用场景都有对于降噪的需求，特别是目前处于大爆发的耳机行业，市场在极度渴望降噪效果明显的TWS耳机出现。

对于降噪方法的探索，从被动到主动，除了物理上、算法上的各种改进，将芯片与算法相结合，配合具体场景的解决方案，不啻为一种新的解题思路，且逐渐被大家认可。

深度神经网络（DNN）凭借强大的数据驱动能力、计算模型的不断更新迭代，且能够适应不同的应用场景，为改善音频体验提供了更多可能性。清微智能的芯片因为采用可重构计算架构（CGRA）——一种可以根据算法和应用重构硬件资源的新型芯片架构技术，有着更强的灵活性和通用性，可以完美适配不断变化的新的算法，去年公司量产的语音芯片TX210，就可以灵活支持多种语音处理算法，已经应用至耳机、智能开关等多个领域。

除此外，TX210还具有面积小、功耗低（工作功耗仅有2mW，VAD功耗100uW）、低延时、高能效比等特征，能够大大节省相关解决方案的成本。

而目前处于研发阶段的TX210进阶版本的TX212，将在与降噪算法的适配上有进一步提升，芯片与领先的算法结合，将会带来全新的使用体验。

有人说，将芯片与算法结合的降噪方案将会作为一种基础能力应用到更多的场景中，给我们带来更好的生活品质，而技术的不断创新发展让一切进行的格外顺利。

关闭