Métodos de identificação de pessoas sempre foram muito importantes para toda a sociedade. No mundo moderno, as pessoas normalmente precisam carregar documentos para quaisquer lugares que forem, pois essa é a única forma de provarem suas identidades. Assumindo-se que não existem pessoas completamente idênticas, a necessidade da utilização de tais documentos extingue-se quando se dispõe de métodos capazes de diferenciar cada indivíduo sem confundi-lo com seus semelhantes. Provavelmente esse é o principal objetivo da pesquisa em Biometria. Um sistema biométrico é um sistema de reconhecimento de padrões que estabelece a autenticidade de uma característica fisiológica ou comportamental possuída por um usuário [Pankanti et al., 2000,Ratha et al., 2001].
Dentre as técnicas de reconhecimento biométrico de pessoas que são utilizadas
atualmente, as mais precisas são aquelas baseadas em imagens do fundo da
retina e as baseadas em imagens de íris [Pankanti et al., 2000,Ratha et al., 2001]. A
confiabilidade de sistemas de reconhecimento de íris é tão grande que já existem bancos os adotando
para identificar seus usuários. Porém, essas abordagens têm o problema de
serem um tanto invasivas, pois, para o funcionamento dos sistemas atuais, é
necessário impor certas condições ao usuário. No caso dos sistemas de
reconhecimento por imagem de íris, o usuário deve permanecer parado em uma
posição definida e com os olhos abertos enquanto uma fonte de luz ilumina os
olhos e um scanner de íris ou uma câmera captura a imagem. O caráter
invasivo acentua-se em sistemas que utilizam imagens de fundo de retina, uma
vez que atualmente é preciso utilizar um colírio para dilatar a pupila do
usuário antes de efetuar a aquisição da imagem. Nesse ponto está a mais sobressalente vantagem de um sistema de reconhecimento baseado em imagens de faces.
A pesquisa em reconhecimento de faces vem se desenvolvendo no sentido da
criação de sistemas capazes de identificar pessoas mesmo quando essas não percebam que estão sendo observadas. Dessa forma, é possível que, no futuro, uma criança desaparecida seja localizada através de imagens de câmeras localizadas em pontos estratégicos de uma cidade, como estações de metrô e cruzamentos de avenidas.
Além dessas, várias outras aplicações motivantes para a pesquisa nessa área foram analisadas em [Chellappa et al., 1995], como:
identificação pessoal para banco, passaporte, fichas criminais;
sistemas de segurança e controle de acesso;
monitoramento de multidões em estações, shopping centers etc.;
criação de retrato falado;
busca em fichas criminais;
envelhecimento computadorizado para auxiliar a busca por desaparecidos, e
interfaces perceptuais homem-máquina com reconhecimento de expressões faciais.
Devido à sua importância prática e aos interesses dos cientistas cognitivos, a
pesquisa em reconhecimento de faces é tão antiga quanto a própria visão
computacional [Pentland, 2000]. Em [Chellappa et al., 1995], há uma análise de trinta
anos de pesquisa em reconhecimento de faces humano e por máquina o qual cita
221 trabalhos. Outra evidência do crescimento dessa área de pesquisa é a
existência de conferências específicas de reconhecimento de face e gestos
[Bichsel, 1995,Essa, 1996,Yachida, 1998,Crowley, 2000], bem como a existência de revistas
com seções temáticas nessa área (por exemplo [Kasturi, 1997]). Além disso, recentemente foi lançado um livro sobre visão dinâmica voltado ao problema de reconhecimento de faces [Gong et al., 2000].
O reconhecimento óptico automático (computacional) de faces é uma sub-área de
pesquisa da visão computacional. A área de visão computacional é altamente multidisciplinar. Seu principal objetivo é a investigação de métodos automáticos de extração de informações contidas em imagens [Gong et al., 2000]. Em geral, são utilizados elementos de processamento de imagens e de reconhecimento de padrões para extrair e interpretar tais informações. Em reconhecimento de faces, o objetivo é identificar pessoas que aparecem em imagens.
Para melhorar a possibilidade de êxito em um sistema de reconhecimento de
faces, primeiramente é preciso segmentá-las para que somente essas sejam
tratadas. Isso permite que não sejam considerados os objetos que estiverem
atrás do sujeito a ser reconhecido (background), os quais podem
influenciar na tomada de decisão do classificador. Para isso, é utilizado um
método de detecção de faces, o qual tenta determinar a localização de faces em uma imagem para que essas sejam posteriormente segmentadas.
No caso de seqüências de vídeo, a segmentação deve ser feita em todas as imagens da seqüência. O problema é que geralmente imagens de cenas dinâmicas (cenas apresentando variações com o tempo, ou seja, movimento) apresentam menor qualidade devido a borramentos proporcionados pelo próprio movimento dos objetos e do observador (câmera). Além disso, imagens em movimento atualmente são representadas por seqüências de imagens capturadas em pequenos intervalos de tempo (usualmente até 30 quadros por segundo). Como resultado, tais representações ocupam muito espaço na memória de um computador.
Geralmente esse problema é amenizado adotando-se imagens com menor resolução em seqüências de vídeo, o que compromete ainda mais a qualidade das imagens [Chellappa et al., 1995].
Várias aplicações associadas a reconhecimento de faces a partir de seqüências
de vídeo requerem que os processos sejam muito eficientes, principalmente
aquelas em tempo real. Por isso, em geral adota-se um método de detecção de
faces somente no primeiro quadro da seqüência em que a pessoa aparece, sendo
subseqüentemente aplicado um procedimento de perseguição (ou rastreamento -
tracking), que, por sua vez, é mais rápido, pois considera informações obtidas no quadro anterior para segmentar faces, de forma a evitar a realização de buscas por toda a imagem.
Como exemplos de métodos rápidos de detecção e perseguição de faces em
seqüências de imagens, podem-se citar: [Campos et al., 2000c], [Feris and Cesar-Jr, 2001],
[Feris et al., 2000], [Krüger and Sommer, 2000],
[Kondo and Yan, 1999], [Rowley et al., 1998],
[Wu et al., 1999], [Sung and Poggio, 1998], [Silva et al., 1995], [Cascia and Sclaroff, 1999],
[Yang et al., 1997] e
[Krüger and Sommer, 1999].
Após a segmentação da face, é necessário normalizá-la em relação a translação, a rotação e a intensidade dos tons de cinza. Essas normalizações são necessárias para reduzir as variações existentes em diferentes imagens de uma mesma pessoa. Tais variações dificultam o processo de reconhecimento.
Para que o processo de reconhecimento seja rápido, devem-se
utilizar bons algoritmos de redução da dimensionalidade dos dados. Esses algoritmos têm por objetivo extrair somente as informações essenciais das imagens para possibilitar que seja efetuado reconhecimento (classificação) de forma eficiente. O estudo desses métodos é o principal objetivo deste trabalho.
A figura 1.1 mostra a organização desses elementos básicos que compõem um sistema de reconhecimento de faces a partir de seqüências de vídeo.
.7face_rec.eps
Esquema básico de um sistema de reconhecimento de faces a partir de seqüências de vídeo.