Next: Problemas de generalização
Up: Métodos de Classificação
Previous: distância de Mahalanobis
  Contents
  Index
Mínima Distância ao(s) Protótipo(s)
O classificador de distância ao protótipo é bastante simples em termos de esforço computacional, tanto na fase de treinamento quanto na de teste. Essa característica deve-se à simplicidade de seu algoritmo.
A fase de treinamento consiste na determinação dos protótipos, no mínimo um para cada classe. Os protótipos são vetores no espaço de característica que usualmente são criados a partir de informações obtidas do conjunto de treinamento ou da distribuição probabilística das classes. Um exemplo um tanto comum de protótipo utilizado é a média (baricentro) do conjunto de treinamento das classes.
Na fase de teste, cada padrão é classificado de acordo com o protótipo mais próximo. Normalmente utiliza-se a distância Euclidiana para calcular a proximidade entre os padrões e os protótipos.
Nota-se que a regra de decisão é bastante simples. Se os protótipos forem vistos como padrões de treinamento, é praticamente trivial mostrar que essa regra se equivale à do classificador KNN, para .
Também é fácil notar que há um caso em que o classificador de distância ao protótipo se eqüivale a um classificador Bayesiano. Isso ocorre quando é utilizado apenas um protótipo por classe, sendo cada protótipo definido pelo baricentro do conjunto de treinamento de sua classe (, onde identifica a classe). Nesse caso, esse classificador é equivalente ao classificador Bayesiano para distribuições normais
, caso seja assumido que todas as classes possuem distribuições probabilísticas com a mesma matriz de covariância , sendo uma matriz diagonal. Em mais detalhes, essa equivalência ocorre quando a distribuição probabilística das classes é tal que o desvio padrão é uniforme para todas as direções do espaço de característica, de forma que
. Graficamente, pode-se ilustrar como distribuições circulares, sendo que esses ``círculos'' são centrados no baricentro da distribuição de cada classe, e todos os círculos possuem o mesmo raio.
Portanto, nesses casos, mesmo sendo muito simples, esse classificador comporta-se como um classificador ótimo. É importante ressalvar que, quando for usada a distância de Mahalanobis (equação 2.17), não existem restrições quanto à mariz de covariância das classes para que o classificador de mínima distância ao protótipo seja equivalente ao de Bayes para distribuições normais.
Uma fronteira de decisão construída por esse classificador (adotando-se a distância Euclidiana, com um protótipo por classe) é um hiperplano perpendicular ao segmento de reta que une dois protótipos. Esse hiperplano intercepta a mediatriz desse segmento, definindo o lugar geométrico dos pontos eqüidistantes a esses dois protótipos. Dessa forma, pode-se mostrar que o conjunto de todas as fronteiras de decisão gerado pela regra de decisão de mínima distância ao protótipo eqüivale a um diagrama de Voronoi na dimensão com os sítios na posição dos protótipos [Theodoridis and Koutroumbas, 1999] (detalhes sobre esses diagramas podem ser encontrados em [de Berg et al., 2000]). Como é de se esperar, o mesmo pode ser clamado a respeito do classificador 1NN, com a diferença que, quando dois padrões da mesma classe são vizinhos, não existe uma fronteira de decisão entre eles.
Com relação ao custo computacional desse classificador, para cada padrão de teste, é necessário realizar apenas comparações (O(c) cálculos para cada padrão), sendo o número de classes existentes, o que é o principal ponto positivo dessa abordagem. A desvantagem dessa abordagem é a qualidade dos resultados em casos práticos, pois os protótipos freqüentemente não contêm informações suficientes sobre a forma da distribuição das classes, já que os casos semelhantes ao descrito anteriormente não são freqüentes.
Next: Problemas de generalização
Up: Métodos de Classificação
Previous: distância de Mahalanobis
  Contents
  Index
Teofilo Emidio de Campos
2001-08-29