Avaliação de Modelos para Melhoramento de Sinais de Fala Usando o Conjunto de Dados NTCD-TIMIT

Augusto Cesar Becker; Gabriel S. Lazaretti; Rafael R Pertum; Eduardo Vinícius Kuhn; Rui Seara

doi:10.14209/sbrt.2024.1571035995

Avaliação de Modelos para Melhoramento de Sinais de Fala Usando o Conjunto de Dados NTCD-TIMIT

Augusto Cesar Becker, Gabriel S. Lazaretti, Rafael R Pertum, Eduardo Vinícius Kuhn, Rui Seara

DOI: 10.14209/sbrt.2024.1571035995

Evento: XLII Simpósio Brasileiro de Telecomunicações e Processamento de Sinais (SBrT2024)

Keywords: Métricas de qualidade e de inteligibilidade Redes neurais convolucionais Redes neurais recorrentes

Abstract

Este artigo visa avaliar o desempenho de modelos obtidos a partir das arquiteturas desenvolvidas por Park et al. e Zhang et al. para o melhoramento de sinais de fala. Especificamente, tais arquiteturas são aqui implementadas usando linguagem Python e a biblioteca TensorFlow, treinadas no mesmo conjunto de dados (público) e com hiperparâmetros adequadamente escolhidos, e os modelos obtidos são avaliados através de métricas padronizadas. Resultados de simulação mostram que ambos os modelos melhoraram a qualidade e inteligibilidade dos sinais de fala processados, independentemente do valor da razão sinal-ruído e das características do ruído.

Download