查看原文
其他

Interspeech 2018 | 思必驰-上海交大6篇论文出征国际语音研究顶级会议

AISpeech 思必驰 2023-05-12


Interspeech 2018将于9月2日-9月6日(当地时间)在印度海得拉巴举办,这是Interspeech十余年来首次来到印度,所以让我们先调到印度频道。



Interspeech是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,汇聚来自全球语音领域的研究人员、人工智能从业者、相关知名企业等,本届参会人员预计将近2000名。会议以“Speech Research for Emerging Markets in Multilingual Societies”为主题,深入研究包括语音方面(信号处理和语音识别),语言方面(包括NLP、翻译等)等。


本届会议的技术项目主席、印度科学研究所(IISc)Prasanta Kumar Ghosh博士表示“这是一个关于语音,声学,音频,语言,机器学习和人工智能的会议”。


在今年4月的ICASSP会议上,思必驰-上海交大实验室发表14篇论文,创国内之最(点击这里了解更多)。在即将举办的Interspeech 2018上,思必驰-上海交大实验室又入选6篇paper,涉及语音识别解码器、语音识别、说话人识别、语音合成、声学模型、语言模型等多方面的研究。


6篇论文介绍如下:


《角度Softmax在短时文本无关说话人确认中的应用》

Angular Softmax for Short-Duration Text-independent Speaker Verification

By Zili Huang,Shuai Wang and Kai Yu.


近年来,研究者们希望搭建基于深度学习的说话人确认系统并取得了与传统i-vector方法接近的结果。除了深度学习框架,包括softmax损失和三元组损失的优化度量对于提取有区分度且泛化能力强的说话人嵌入是至关重要的。在这篇文章中,引入了角度Softmax损失来提升说话人嵌入的性能。在两个说话人确认框架中探索了角度Softmax损失的性能:基于卷积神经网络的端到端说话人确认框架和用深度判别分析作为信道补偿方法的i-vector说话人确认框架。在基于SRE生成的短时文本无关说话人确认数据集上的实验结果证明在上述两个框架中A-softmax相比其他度量都有明显的提升。


图1: EER comparison of different speaker embeddings, CDS as the scoring back-end 

 

图2: Impact of the hyper-parameter m 


图3: EER (%) of different compensation methods 


《使用基于频谱的WaveNet进行高质量声音转换》

High-quality Voice Conversion Using Spectrogram-BasedWaveNet Vocoder

By Kuan Chen, Bo Chen, Jiahao Lai and Kai Yu. 


在声音转换中,声码器的选择很重要。最近,基于梅尔倒谱的WaveNet声码器已经证实比标准的声码器好。在这篇文章中,我们提出增强的WaveNet声码器来改善声音转换的结果,使用逐帧的LSTM模型来转换梅尔频谱。为了检验结果,我们使用了基于梅尔倒谱的标准LSTM的声音转换流程,使用STARIGHT和WaveNet作为声码器,同时分析不同转换系统的基频的转换结果,另外有人工打分自然度,相似度和语义清晰度。结果表明,基于频谱的WaveNet声码器的声音转换方法比传统的WaveNet声码器都要好,尤其在相似度和隐似的基频转换方面。


图4: MOS on intelligibility of the converted speech.

 

图5: MOS on naturalness of the converted speech.

 

图6: Preference test on similarity.


之后,我们还会继续究基于梅尔倒谱的WaveNet声码器算法,并优化在小数据集上的性能和效果。


《用于低内存神经网络语言模型的结构化词嵌入》

Structured Word Embedding for Low Memory Neural Network Language Model

By Kaiyu Shi and Kai Yu 


近年来,以LSTM为代表的神经网络语言模型在语言模型任务上取得了很好的成绩,也成为了研究的热点。但是,对于嵌入式或者移动端的设备来说,没有压缩之后的神经网络语言模型仍然显得过于庞大。其中内存占用最多的是词嵌入的矩阵。如果直接对这个矩阵采用普通的压缩方法进行压缩会大大影响性能。本文提出使用乘积量化的方法对词嵌入矩阵进行量化,显著减少内存占用同时没有性能的损失。这种方法中,每一个的词向量被切分成几个子向量,然后分别对这些子向量进行向量量化。这样词嵌入矩阵就可以表示成索引加码本的组合。实验结果表明,提出的方法能够达到10-20倍的压缩效果,同时性能差异可以忽略不记。


图7: PerformanceonSWB 

 

图8: Comparison of various embeddings compression methods on PTB. 


《序列模型的知识提取》

Knowledge Distillation for Sequence Model

By Mingkun Huang, Yongbin You, Zhehuai Chen, Yanmin Qian and Kai Yu.


知识提取,或老师-学生训练,已经被有效地用在使用一个更复杂的模型(教师)来改善一个相对简单的深度学习模型(学生)。这通常是通过最小化学生和教师模型逐帧的输出分布之间的KL散度来完成。然而序列模型比如CTC,从帧级别知识提取中得到的提升很有限,这是由训练教师模型时用的序列准则和知识提取时用的帧级别准则之间不匹配所造成的。本文提出了序列层次知识提取以获得更好的提取性能。序列训练准则用于计算在给定整个语句和教师模型条件下的后验概率分布,而不是逐帧计算。我们同时在一个英文数据集和一个较大的中文数据集上做了实验。本文提出的方法比在传统的帧级别知识提取上用有标注和无标注数据取得明显的提升。


《基于注意力机制和门控卷积网络的单声道多说话人语音识别》

Monaural Multi-Talker Speech Recognition with Attention Mechanism and Gated Convolutional Networks

By Xuankai Chang, Yanmin Qian, Dong Yu


为了提高多说话人场景下的语音识别准确率,我们提出了一种新的模型结构,将注意力机制和门控卷积网络(GCN)结合到我们以前提出的基于置换不变性训练的多说话人语音识别系统(PIT-ASR)中。在人工混合两说话人的WSJ0数据集上的实验结果表明,与之前的PIT-ASR系统相比,新提出的模型可以将词错率(WER)相对降低15%以上。


《一种基于GPU的WFST解码器及其精确lattice生成方法》

A GPU-based WFST Decoder with Exact Lattice Generation

By Zhehuai Chen, Justin Luitjens, Hainan Xu, Yiming Wang, Daniel Povey and Sanjeev Khudanpur.


我们为Kaldi工具包,设计了一种基于图形处理芯片(GPU)的加权有限状态机(WFST)解码器,该解码器使用并行的维特比束剪枝算法。我们将令牌合并操作实现为一个高效的GPU原子操作;提出了动态负载均衡算法以提升多线程之间的调度效率;重新设计了并行化的精确词图生成和剪枝算法。在kepler到Volta的四种系列GPU上,取得了3-15倍的加速比;同时针对识别结果和置信度的实验显示,我们提出的方法能得到和原始版本一致的准确度和lattice质量。同时,该篇paper的第一作者Zhehuai Chen,也将参与顶级PhD Forum的报告分享。


更多Interspeech 2018精彩内容,请关注官网http://interspeech2018.org/


关于思必驰

思必驰是国内领先的智能语音语言技术公司,目前团队500余人,总部位于苏州,在北京、深圳、上海建立了分公司。思必驰是全球少数拥有全链路语音交互技术的公司之一,关键技术(信号处理、语音识别、自然语言理解、对话管理)处于领先地位,拥有完整的自主知识产权,与上交大联合成立智能人机交互实验室,思必驰享有相应的成果转化。2017年又推动支持苏州市政府联合上海交大成立了上海交大苏州人工智能研究院,保障了思必驰技术创新和转化的长远发展能力。



重磅 | 思必驰会话精灵正式发布,打造企业知识助理服务

思必驰完成5亿元D轮融资,继续深化AI生态布局



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存