Classificador de Textos Otimizado Utilizando Lei de Potência para Palavras Raras
André Dieb Martins, Bruno B. Albert, E. C. Gurjão
DOI: 10.14209/sbrt.2013.27
Evento: XXXI Simpósio Brasileiro de Telecomunicações (SBrT2013)
Keywords: Classificador Bayes Ingênuo Multinomial Lei de Potência para palavras raras Aprendizado de Máquina
Abstract
Nesse artigo é descrito o desenvolvimento de um sistema para classificação automática de textos, baseado no classificador Bayes Ingênuo Multinomial. É apresentada uma versão modificada do algoritmo, denominado NB+, na qual a informação proveniente de palavras mais raras é melhor aproveitada. Para avaliar o sistema, um procedimento experimental é realizado utilizando o corpus 20Newsgroups-18828, pre-processado utilizando pesos TF-IDF e seleção de características sob o critério k-melhores. A versão modificada apresenta melhorias de 10% a 20% em todas as métricas (F1, acurácia, precisão e cobertura) para a região entre 50 e 200 características. Ambas versões convergem para o mesmo desempenho nas demais regiões. A melhoria de desempenho na região de baixa densidade de características trás a tona novas oportunidades na construção de classificadores mais baratos e mais eficientes.Download