O termo dimensionalidade é atribuído ao número
de características de uma representação de padrões, ou seja, a dimensão do
espaço de características (). As duas principais razões para que a
dimensionalidade seja a menor possível são: custo de medição e precisão do
classificador. Quando o espaço de características contém somente as
características mais salientes, o classificador será mais rápido e ocupará
menos memória [Jain et al., 2000]. Além disso, conforme discutido na seção 2.3, quando o conjunto de exemplos de treinamento não é muito grande, o problema da dimensionalidade pode ser evitado usando-se um espaço de características pequeno. Isso também propicia a obtenção de menores taxas de erro de classificação.
Em visão computacional, a necessidade redução de dimensionalidade é acentuada, pois a dimensionalidade de imagens é muito grande. O espaço de imagens possui características que podem ser eliminadas para efetuar o reconhecimento de objetos. Uma imagem de largura e altura
(em pixels) pode ser vista como um padrão no espaço de imagens, o qual possui dimensionalidade
(vide seção 3.2.2). Esse pode ser um valor muitíssimo elevado em imagens obtidas por scanners ou câmeras. Além disso, qualquer alteração em translação, rotação, escala, etc. dos objetos contidos nessa imagens fará com que ocorra grandes erros de classificação. Por isso, é necessária a utilização de algoritmos de redução de dimensionalidade que propiciem a obtenção de representações dos padrões (obtidos das imagens) de forma robusta a essas alterações.
Além da necessidade de utilizar a menor dimensionalidade possível, há outro fator analisado pelo teorema do ``patinho feito'' [Watanabe, 1985], que diz ser possível fazer dois padrões arbitrários ficarem similares se esses forem codificados com um número suficientemente grande de características similares. Isso enfatiza a necessidade de uma escolha cuidadosa de características.
Para efetuar redução de dimensionalidade, existem basicamente duas abordagens: extração de características e seleção de características. Em linhas gerais, os algoritmos de extração criam novas características a partir de transformações ou combinações do conjunto de características original. Já os algoritmos de seleção, como o próprio nome diz, selecionam, segundo determinado critério, o melhor subconjunto do conjunto de características original.
Freqüentemente, a extração de características precede a seleção, de forma que, inicialmente, é feita a extração de características a partir dos dados de entrada, seguido por um algoritmo de seleção de características que elimina os atributos mais irrelevantes segundo um determinado critério, reduzindo a dimensionalidade.
A escolha entre seleção e extração de características depende do domínio de aplicação e do conjunto específico de dados de treinamento disponíveis. Em geral, a seleção de características reduz o custo de medição de dados, e as características selecionadas mantêm sua interpretação física original, mantendo as propriedades que possuíam quando foram criadas. Já as características transformadas geradas por extração podem prover uma habilidade de discriminação melhor que o melhor subconjunto das características originais. Entretanto, as novas características (combinações lineares ou não lineares das características originais) podem não possuir um significado físico.
É importante lembrar que, se a redução de dimensionalidade for excessiva, o classificador pode ter seu poder de discriminação reduzido (vide o problema da dimensionalidade na seção 2.3). Por isso, é importante analisar a variação do comportamento do classificador com o número de características, de forma que seja possível estimar a dimensionalidade ideal para determinado classificador e conjunto de dados. A seguir, encontram-se maiores detalhes sobre a extração e a seleção de atributos.