Um critério amplamente utilizado é o de erro de classificação com a utilização de um subconjunto de características. Basicamente, quando não se dispõe de informações a respeito da distribuição dos dados, utilizam-se os padrões de treinamento e de teste no espaço determinado pelo conjunto de características para avaliar um classificador. A taxa de acerto é utilizada como função critério, de forma que, quanto maior a taxa de reconhecimento, melhor é o conjunto de características.
Segundo [Kohn, 1998], deve-se tomar o cuidado de não empregar o conjunto de treinamento e de testes utilizado no processo de seleção de características (ou projeto do classificador) para estimar a probabilidade de erro do classificador após a seleção de características. Caso isso seja feito, o classificador estará ajustado especificamente para o conjunto padrões utilizado em seu projeto, e a estimativa da probabilidade de erro será muito otimista.
Outro ponto do qual se deve tomar cuidado é evitar o problema da dimensionalidade. Assim, é necessário que seja utilizado um conjunto de treinamento grande o suficiente para que a qualidade da estimativa da taxa de erro seja boa.
Basicamente, essa abordagem possui dois problemas. O primeiro é que o erro de classificação, por si só, não pode ser confiavelmente estimado quando a razão entre o tamanho do conjunto de exemplos e o do conjunto de características for pequena (vide seção 2.3). O segundo e principal problema dessa abordagem é que a escolha de um classificador é um problema por si só, e o subconjunto selecionado ao final claramente depende do classificador [Jain et al., 2000].
Nas seções 5.2.1 (publicada em [Campos et al., 2000c]) e 5.3.1 (com parte dos resultados publicados em [Campos and Cesar-Jr, 2001]), estão descritos experimentos de seleção de características utilizando funções critério baseadas em desempenho de classificadores.