
Classificação de Gêneros Musicais Usando Redes Convolucionais
Matheus Araújo de Oliveira, Walter Gontijo, João Paulo Vieira, Pedro P Santos, Danilo Silva, Eduardo L. O. Batista
DOI: 10.14209/sbrt.2025.1571157236
Evento: XLIII Simpósio Brasileiro de Telecomunicações e Processamento de Sinais (SBrT2025)
Keywords: Classificação de Gêneros Musicais CNN Transfer Learning
Abstract
Este artigo explora abordagens baseadas em redes neurais convolucionais (CNNs) para a classificação de gêneros musicais utilizando o dataset GTZAN. São avaliadas três estratégias principais: (1) VGGish, uma arquitetura CNN desenvolvida para tarefas de áudio; (2) um modelo com transfer learning utilizando MobileNetV2 pré-treinado no ImageNet; e (3) um esquema de votação majoritária entre segmentos. Os experimentos foram conduzidos tanto na versão filtrada do GTZAN (GTZAN-FF), que corrige falhas estruturais, quanto em uma versão não filtrada e aleatória (GTZAN-Random). Os resultados mostram que a combinação de transfer learning com votação majoritária atinge a maior acurácia realista (76% no GTZAN-FF), enquanto a avaliação sobre dados não filtrados gera métricas infladas (88,5%). Tais resultados mostram que utilizar uma versão filtrada do GTZAN permite garantir a validade dos resultados em cenários mais realistas.Download