Comparação das técnicas MFCC, PNCC e ZCPA na identificação de patologias relacionadas à voz, usando Redes Neurais Artificiais
Vinícius F Cardoso, Edson Cataldo, Leonardo Alfredo Forero Mendoza

DOI: 10.14209/sbrt.2024.1571026915
Evento: XLII Simpósio Brasileiro de Telecomunicações e Processamento de Sinais (SBrT2024)
Keywords: Inteligência artificial Saúde vocal Identificação de patologias vocais
Abstract
Este estudo investiga o uso inteligência artificial na classificação de vozes saudáveis e vozes com patologias vocais (cisto, edema de Reinke, nódulo e paralisia). Avaliamos técnicas como MFCC (Mel-Frequency Cepstral Coefficients), PNCC (Power-Normalized Cepstral Coefficients) e ZCPA (Zero-Crossings with Peak Amplitudes), aplicando-as nas redes neurais DNN (Deep Neural Networks), CNN (Convolutional Neural Networks), LSTM (Long Short-Term Memory), BiLSTM (Bidirectional Long Short-Term Memory). O método MFCC mostrou-se altamente eficaz, alcançando 99% de acurácia, o PNCC identificou bem as condições patológicas, mas sofreu com falsos negativos e positivos, e o ZCPA foi o menos eficaz, indicando a necessidade de aprimoramentos.

Download