Next: O Problema da Dimensionalidade
Up: Conceitos Básicos de Reconhecimento
Previous: Mínima Distância ao(s) Protótipo(s)
  Contents
  Index
Problemas de generalização
Nesta seção, são discutidos os problemas de generalização de classificadores. Tais problemas são muito relevantes no projeto de sistemas de reconhecimento estatístico de padrões, que também podem ser comuns a sistemas não estatísticos, como redes neurais.
Não importando qual o classificador utilizado, em problemas práticos, ele deve ser treinado usando exemplos de treinamento para estimar a distribuição das classes. Como resultado, o desempenho do classificador depende tanto do número de exemplos de treinamento como dos valores específicos das instâncias, ou seja, da qualidade desses exemplos. Ao mesmo tempo, o objetivo do projeto de um sistema de reconhecimento é classificar futuros exemplos de teste mesmo que esses não sejam os mesmos que os de treinamento.
Porém, a otimização de um classificador para maximizar seu desempenho no conjunto de treinamento nem sempre produz um bom resultado para o conjunto de testes. A habilidade de generalização de classificadores refere-se a seu desempenho ao classificar padrões de teste que não foram utilizados durante o treinamento.
Os problemas de generalização ocorrem quando um classificador se especializa demais em seus padrões de treinamento, ou quando utiliza mais informações (características) que as necessárias. Basicamente, há três problemas oriundos da redução na capacidade de generalização de um classificador [Jain et al., 2000]:
- sobre-ajuste (overfitting), relacionado com o número de parâmetros livres do classificador;
- sobre-treinamento (overtraining), relacionado com o número de iterações de treinamento;
- problema da dimensionalidade (curse of dimensionality), relacionado com a dimensão do espaço de características.
Assim, o desempenho de um classificador depende da relação entre sua complexidade, a qualidade do conjunto de treinamento (o quanto ele representa a distribuição dos dados) e o número de características utilizadas. A taxa de erro dos classificadores apresentam um comportamento de curva em U com a variação de dos fatores relacionados com esses problemas.
A seguir encontram-se mais detalhes sobre o problema da dimensionalidade, pois esse afeta todos os sistemas de reconhecimento de padrão estatístico e também por causa da sua relação com seleção de características.
Subsections
Next: O Problema da Dimensionalidade
Up: Conceitos Básicos de Reconhecimento
Previous: Mínima Distância ao(s) Protótipo(s)
  Contents
  Index
Teofilo Emidio de Campos
2001-08-29