Next: Reconhecimento de Faces
Up: Reconhecimento de Padrões
Previous: Problemas de generalização
  Sumário
Redução de dimensionalidade
O termo dimensionalidade é atribuído ao número de características de uma representação de padrões, ou seja, a dimensão do espaço de características. As duas principais razões para que a dimensionalidade seja a menor possível são: custo de medição e precisão do classificador. Quando o espaço de características contém somente as características mais salientes, o classificador será mais rápido e ocupará menos memória. Além disso, conforme discutido acima, quando o conjunto de exemplos de treinamento não é muito grande, um espaço de características pequeno pode evitar a maldição da dimensionalidade e propiciar pequenas taxas de erro ao classificador (vide seção 3.1.3) .
Além da necessidade de utilizar a menor dimensionalidade possível, há outro fator analizado pelo teorema do ``patinho feito'' de Watanabe [20], que diz que é possível fazer dois padrões arbitrários ficarem similares se esses forem codificados com um número suficientemente grande de características similares. Isso enfatiza a necessidade de uma escolha cuidadosa de características.
Para efetuar redução de dimensionalidade, basicamente há dois métodos: extração de características e seleção de características. Basicamente, os algoritmos de extração de características criam novas características a partir de transformações ou combinações do conjunto de características original. Já os algoritmos de seleção de características selecionam, segundo determinado critério, o melhor subconjunto do conjunto de características original.
Freqüentemente extração de características precede seleção de características, de forma que, inicialmente é feita a extração de características a partir dos dados de entrada, a seguir um algoritmo de seleção de características elimina os atributos mais irrelevantes segundo um determinado critério, reduzindo a dimensionalidade.
A escolha entre seleção e extração de características depende do domínio de aplicação e do conjunto específico de dados de treinamento disponíveis. Em geral a seleção de características reduz o custo de medição de dados, e as características selecionadas mantém sua interpretação física original, mantendo as propriedades que possuíam quando foram criadas. Já as características transformadas geradas por extração de características podem prover uma habilidade de discriminação melhor que o melhor subconjunto das características originais, mas as novas características (combinações lineares ou não lineares das características originais) podem não possuir um significado físico.
É importante salientar que, se a redução de dimensionalidade for excessiva, o classificador pode perder o poder de discriminação. Por isso é importante analisar a variação do comportamento do classificador com a dimensionalidade, de forma que seja possível estimar a dimensionalidade ideal para determinado classificador e conjunto de dados.
Maiores detalhes sobre extração e seleção de atributos estão nas seções 4 e 5.
Next: Reconhecimento de Faces
Up: Reconhecimento de Padrões
Previous: Problemas de generalização
  Sumário
Teofilo Emidio de Campos
2000-09-18