Skip to content

Sociedade Brasileira de Telecomunicações

Classificador de Textos Otimizado Utilizando Lei de Potência para Palavras Raras


Nesse artigo é descrito o desenvolvimento de um sistema para classificação automática de textos, baseado no classificador Bayes Ingênuo Multinomial. É apresentada uma versão modificada do algoritmo, denominado NB+, na qual a informação proveniente de palavras mais raras é melhor aproveitada. Para avaliar o sistema, um procedimento experimental é realizado utilizando o corpus 20Newsgroups-18828, pre-processado utilizando pesos TF-IDF e seleção de características sob o critério k-melhores. A versão modificada apresenta melhorias de 10% a 20% em todas as métricas (F1, acurácia, precisão e cobertura) para a região entre 50 e 200 características. Ambas versões convergem para o mesmo desempenho nas demais regiões. A melhoria de desempenho na região de baixa densidade de características trás a tona novas oportunidades na construção de classificadores mais baratos e mais eficientes.

Autores :

Estatatísticas de Acesso

Loading...

Total de visitas: 16
Loading...

Downloads do artigo: 1

Voltar