Sistemas de Reconhecimento Automático de Fala Baseados em Redes Neurais Profundas Usando Espectrogramas do Sinal de Fase
Ênio Silva, Rui Seara

DOI: 10.14209/SBRT.2020.1570649609
Evento: XXXVIII Simpósio Brasileiro de Telecomunicações e Processamento de Sinais (SBrT2020)
Keywords: Atraso de grupo Espectrogramas do sinal de fase Extração de atributos Reconhecimento automático de fala
Abstract
Este trabalho apresenta uma investigação sobre o uso de espectrogramas de fase aplicados a sistemas de reconhecimento automático de fala (automatic speech recognition - ASR) baseados em redes neurais profundas (deep neural network - DNN). Particularmente, visando à obtenção de atributos discriminativos robustos ao ruído, a função atraso de grupo modificada é considerada na etapa de extração de log-espectrogramas de fase em escala Mel (log-Mel-espectrogramas) de sinais de fala. Nesse contexto, o uso de log-Mel-espectrogramas de fase em sistemas de ASR associados com DNNs do estado da arte (ASRDNN) é discutido. Além do mais, o desempenho dos sistemas de ASR-DNN é avaliado em ambientes acústicos com baixa razão sinal-ruído (signal-to-noise ratio - SNR). Resultados de simulação são mostrados confirmando a eficácia da utilização de log-Melespectrogramas de fase em sistemas de ASR-DNN.

Download