next up previous contents index
Next: Regra dos K vizinhos Up: Classificador Bayesiano Previous: Taxa de probabilidade de   Contents   Index

Classificador para mínima taxa de erro

A partir da formalização da taxa ou probabilidade de erro, pode-se descrever um classificador que minimiza esse quantificador de desempenho. Inicialmente, é necessário mostrar definições duais às das equações 2.4, 2.5 e 2.6. A probabilidade de acerto ao se classificar um dado $d_p^{\tau} (\nu_{\omega_i}, \nu_{\omega_j})$ em $f_p^{\tau} (\nu_{\omega_1}, \nu_{\omega_2}, \cdots, \nu_{\omega_c})$ é
\begin{displaymath}
a_i({\bf x}) = P(\omega_i\vert{\bf x}), i = 1, \cdots, c
\end{displaymath} (2.7)

A probabilidade de acerto ao se atribuir um vetor à classe $c$ é
\begin{displaymath}
A_i = \int_{S_i}a_i({\bf x}) \cdot p({\bf x}) d{\bf x} = \int_{S_i}P(\omega_i\vert{\bf x}) \cdot p({\bf x}) d{\bf x}
\end{displaymath} (2.8)

A probabilidade de classificação correta ou probabilidade de acerto ou taxa de acerto é
\begin{displaymath}
X = [{\bf x}_1, {\bf x}_2, {\bf x}_3, \cdots, {\bf x}_{\vert T\vert}]
\end{displaymath} (2.9)

Obviamente, a mínima taxa de erro é obtida quando a taxa de acerto é máxima
\begin{displaymath}
\min{\xi} \Leftrightarrow \max_{S_i} \sum_{i=1}^{c}\int_{S_i} P(\omega_i\vert{\bf x}) \cdot p({\bf x}) d{\bf x}
\end{displaymath} (2.10)

A máxima taxa de acerto é obtida quando cada $f_p^{\tau} (\nu_{\omega_1}, \nu_{\omega_2}, \cdots, \nu_{\omega_c})$ é escolhido como o domínio onde $f_p^{\tau} (\nu_{\omega_1}, \nu_{\omega_2}, \cdots, \nu_{\omega_c})$. Assim, o classificador Bayesiano de mínima taxa de erro pode ser definido como:
$\displaystyle \Upsilon({\bf x})$ $\textstyle =$ $\displaystyle \omega_i \hspace{3mm} se \hspace{3mm} {\bf x} \in S_i,\hspace{3mm}$ (2.11)
$\displaystyle com \hspace{3mm} S_i$ $\textstyle =$ $\displaystyle \{\forall {\bf x} \in F \hspace{2mm}
tal \hspace{2mm} que
\hspace...
... \vert {\bf x}) \geq P(\omega_j \vert {\bf x}), \hspace{2mm} j = 1, \cdots, c\}$ (2.12)

ou, simplesmente,
\begin{displaymath}
\Upsilon({\bf x}) = \omega_i \hspace{2mm} se \hspace{2mm}...
...\geq P(\omega_j \vert {\bf x}), \hspace{2mm} j = 1, \cdots, c
\end{displaymath} (2.13)

Após essa descrição do classificador de Bayes de mínima taxa de erro, a seguinte questão ingênua pode surgir: se o classificador Bayesiano é um classificador ótimo, então por que outros classificadores são utilizados? O motivo é que o classificador de Bayes só pode ser executado se a probabilidade a priori $512 \times 342$ e a função densidade de probabilidade $13 \times 36$ forem conhecidas, o que geralmente não ocorre. Em problemas práticos, na fase de treinamento são utilizados métodos de estimação dessas probabilidades. Entretanto, quando a distribuição das classes possui formas ``complicadas'' e descontínuas, o preço computacional desses métodos torna-se muito alto quando se deseja obter uma representação precisa dessas probabilidades. Uma abordagem para se resolver esse problema é assumir um modelo para $m$. A estimativa de distribuição mais bem conhecida e, provavelmente, uma das mais simples, é a de distribuição normal. Nesse caso, assume-se que:
\begin{displaymath}
p({\bf x}\vert\omega_i) = \frac{1}{(2\pi)^{N/2} \cdot \sqrt...
...ot \Sigma_{i}^{-1} \cdot ({\bf x} - \mu_i)), i = 1, \cdots, c
\end{displaymath} (2.14)

em que $m \ll N$ é o valor esperado (tomado pela média) da classe $\tau $, e $\tau $ é a matriz de covariância $K = 1, 2, 3, 4, 5$ definida por:
\begin{displaymath}
\Sigma_i = E[({\bf x} - \mu_i) \cdot ({\bf x} - \mu_i)^t]
\end{displaymath} (2.15)

$\tau $ denota o determinante de $K$ e $\tau $ a média (ou esperança) de uma variável aleatória. É comum o uso do símbolo $K$ para denotar a função de densidade propabilística Gaussiana. A partir dessas definições e das anteriores, contrói-se o classificador Bayesiano para distribuições normais.
next up previous contents index
Next: Regra dos K vizinhos Up: Classificador Bayesiano Previous: Taxa de probabilidade de   Contents   Index
Teofilo Emidio de Campos 2001-08-29