Front-end Híbrido e Back-end Deformável Aplicados em Sistemas de KWS Robustos ao Ruído
Ênio Silva, Rui Seara

DOI: 10.14209/sbrt.2024.1571036425
Evento: XLII Simpósio Brasileiro de Telecomunicações e Processamento de Sinais (SBrT2024)
Keywords: Detecção de palavras-chave Espectrogramas do sinal de fase Extração de atributos Reconhecimento automático de fala
Abstract
Com o objetivo de desenvolver sistemas de detecção de palavras-chave (keyword spotting - KWS) robustos ao ruído, este trabalho de pesquisa discute sobre o uso de front-end híbrido e back-end deformável, operando em ambientes acústicos com diferentes tipos e níveis de ruído. Nesse contexto, o front-end híbrido combina a extração manual (de magnitude e fase de sinais de fala) com a extração automática de atributos realizada através de redes residuais profundas (deep residual networks - ResNets). Além do mais, no bloco de back-end, a fim de maximizar a verossimilhança dos atributos extraídos com as palavras-chave dos sistemas de KWS, o uso de ResNets deformáveis é também considerado aqui. Assim, sistemas de KWS com front-end híbrido e back-end deformável são comparados com aqueles que não adotam essa estratégia. Resultados de simulação numérica são mostrados e avaliados com vistas à acurácia de reconhecimento dos sistemas de KWS, confirmando a eficácia do sistema proposto neste trabalho.

Download