CVNLP PPI: Residência em TIC 13 - Heterogeneous Computing for Computational Vision and Natural Language Processing - Programas e Projetos Prioritários (PPI)

2024

1.	2024-Atual. Cortex: IA Generativa aplicada à base de operações diárias de Poços Descrição: Respostas a perguntas no domínio de petróleo utilizando grandes modelos de línguas. Este projeto visa o ajuste de grandes modelos de língua para a língua portuguesa no domínio de petróleo e gás. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Coordenador. Financiador(es): Centro de Pesquisa e Desenvolvimento Leopoldo Américo Miguêz de Mello - Cooperação. Membro: Arnaldo Candido Junior.
2.	2024-Atual. Declínio cognitivo no diabetes mellitus tipo 2 atendido na atenção primária à saúde: associação com outras complicações e busca por biomarcadores para construção de algoritmo de predição Descrição: A alta prevalência de diabetes mellitus (DM), especialmente o DM tipo 2 (DM2) e as consequências do mau controle metabólico no longo prazo têm um grande impacto nos gastos com saúde e são responsáveis por alta morbi- mortalidade nesta população. Em 2021, a Vigilância de Fatores de Risco ou Proteção para Doenças Crônicas por Inquérito Telefônico no Estado de São Paulo (Vigitel ESP) estimou em 3.178.067 o número de indivíduos adultos com DM neste estado.A história do DM é marcada pelas complicações que atingem as grandes e as pequenas artérias (microangiopatia) naqueles que não conseguem manter um bom controle glicêmico, que são a maioria. A microangiopatia é responsável pelas seguintes complicações: doença renal diabética (segunda causa de ingresso em programas de diálise no Brasil), retinopatia (importante causa de cegueira), neuropatia distal (causa de amputações) e neuropatia autonômica cardiovascular (que aumenta a mortalidade). O DM2 aumenta, ainda, o risco de doença de Alzheimer e de demência vascular. Além de afetar a qualidade de vida do indivíduo e de sua família, o declínio cognitivo (DC) compromete a capacidade de entendimento, necessária para o tratamento do DM, o que resulta em pior adesão, perpetuando o mau controle metabólico.De 2018 a 2020, avaliamos a prevalência das microangiopatias em indivíduos com DM2 seguidos na UBS Ilza Weltman Hutzler (São Paulo) e mostramos uma prevalência de 23,5 de doença renal crônica secundária à doença renal diabética, 15 de retinopatia diabética com necessidade de encaminhamento para o oftalmologista pela gravidade (esses indivíduos poderiam ter perdido a visão não tivessem sido encaminhados), 14,3 de neuropatia distal e 10 de neuropatia autonômica cardiovascular instalada (esses indivíduos, por seu alto risco cardiovascular, já não deveriam estar sendo acompanhados na atenção primária). Uma análise preliminar de 79 indivíduos revelou que 51,9 apresentavam DC mostrado pelo teste Mini-Mental, um número alarmante que evidencia a necessidade de otimização do tratamento do DM2 e de outras comorbidades, bem como da adoção de medidas que retardem a evolução para a demência, tais como programas de atividade física e adequações dietéticas.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Coordenador / Suely Kazue Nagahashi Marie - Integrante. Membro: Nina Sumiko Tomita Hirata.
3.	2024-Atual. Desenvolvimento de Grandes Modelos de Língua para Aplicações no Domínio Jurídico Descrição: O projeto proposto no âmbito do Programa de Pesquisa em Políticas Públicas (PPPP FAPESP) visa melhorar a gestão pública da Procuradoria-Geral da Fazenda Nacional (PGFN) por meio de inteligência artificial (IA) em suas atividades jurídicas, em particular, com uso de grandes modelos de língua para análise de processos. A PGFN é responsável por representar a União em questões fiscais, realizar cobranças judiciais e administrativas de créditos tributários e fornecer assessoria ao Ministério da Fazenda. Uma das principais dificuldades atuais é a classificação manual das matérias presentes nas petições iniciais dos processos, um processo demorado e propenso a erros. Outro desafio é a medição do êxito dos processos em diferentes instâncias judiciais. Atualmente, os procuradores da PGFN enfrentam dificuldades em identificar de forma sistemática as chances de sucesso em cada etapa do processo, o que dificulta o planejamento estratégico e a alocação adequada de recursos. Além disso, o projeto busca criar um identificador automatizado de processos com matérias novas ainda não listadas. A PGFN enfrenta o desafio de acompanhar e reagir de forma ágil a estratégias coordenadas por grandes escritórios de advocacia, que testam novas teses tributárias em diferentes estados do Brasil. A detecção manual dessas teses é extremamente difícil devido ao volume de processos ingressantes. A criação de um identificador automatizado permitiria uma atuação proativa da PGFN, possibilitando a elaboração centralizada e urgente de modelos de contra-argumentos para combater eficazmente essas teses desde o seu surgimento, evitando perdas financeiras significativas para a União. Para alcançar esses objetivos, é realizada uma parceria com o Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP) em São Carlos. A ideia geral é avançar no desenvolvimento de grandes modelos de língua (LLM, do inglês Large Language Models), que sejam abertos e permissivos. A colaboração com a academia permite utilizar conhecimento técnico-científico para estender as LLMs abertas e personalizar os modelos conforme as necessidades da PGFN no cenário jurídico, impulsionando significativamente a eficácia e eficiência do sistema, além de possibilitar a colaboração contínua e o desenvolvimento de inovações no domínio jurídico. Os resultados esperados do projeto são divididos em curto, médio e longo prazo. A curto prazo, já se prevê uma avaliação comparativa dos grandes modelos de língua pré-treinados em relação à classificação de matérias tributárias, previsão do êxito de processos judiciais e desenvolvimento de um peticionador automatizado de contestações e recursos. Isso será viabilizado através do desenvolvimento de um módulo de engenharia de prompt, permitindo que os modelos pré-treinados sejam rapidamente condicionados para realizar tarefas específicas da PGFN com poucos exemplos rotulados. A médio prazo, será desenvolvido o ajuste de vocabulário de uma LLM usando córpus textuais históricos da PGFN, visando aumentar o desempenho de tarefas de classificação de processos e apoio à medição de êxito e identificação precoce de novas teses tributárias. A longo prazo, o projeto visa o desenvolvimento de uma LLM própria para PGFN, a partir de ajuste fino de uma LLM pré-treinada, tornando-a mais robusta para o domínio jurídico. Esta LLM será capaz de lidar com tarefas por meio de zero-shot prompt learning, que permitem seu uso em novas tarefas na ausência de dados de treinamento. Para realizar tal ajuste fino de uma LLM, está prevista a criação de uma base de dados treinamento com instruções de alta qualidade, com acompanhamento da área técnica da PGFN, sendo este também um resultado científico relevante, possibilitando a continuidade e a expansão das pesquisas na área jurídica e auxiliando a PGFN em suas atividades futuras.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Thiago de Paula Faleiros - Integrante / MARCACINI, RICARDO MARCONDES - Coordenador / Diego Furtado Silva - Integrante / Fábio Manoel França Lobato - Integrante / Diego Raphael Amâncio - Integrante / Silvio Levcovitz - Integrante / Nils Ever Murrugarra Llerena - Integrante / Osvaldo Novais de Oliveira Junior - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende.
4.	2024-Atual. Detecção de posicionamentos em redes sociais a partir de publicações de contatos próximos Descrição: Desenvolvimento de modelos de aprendizado de máquina supervisionado para detecção de posicionamentos de usuários da rede social Twitter/X com base nas publicações de seus contatos próximos, e comparar seus resultados aos obtidos por abordagens tradicionais baseadas nas publicações do próprio usuário.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Pedro Semcovici - Integrante / Ivandré Paraboni - Coordenador. Membro: Pedro Semcovici.
5.	2024-2024. Google Latin America Research Awards (LARA) Descrição: Desenvolvimento das atividades relativas ao subprojeto intitulado: "Responsible and Explainable Fact-Checking through Fine-Grained Factual Reasoning". Tais atividades envolvem coleta de dados, experimentação e escrita de artigos científicos para apresentação de resultados.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Francielle Alves Vargas - Integrante / Fabrício Benevenuto - Coordenador. Membro: Francielle Alves Vargas.
6.	2024-Atual. Identificação temporal de desinformação online por meio de aprendizado de máquina Descrição: O avanço das tecnologias de comunicação transformou o consumo de informações, com portais de notícias e mídias sociais se tornando fontes primárias para aquisição e compartilhamento de conteúdo. No entanto, essa facilidade de acesso também facilita a disseminação de desinformação, que pode causar impactos sociais, econômicos e de saúde pública. Diversas técnicas, especialmente de processamento de linguagem natural e aprendizado de máquina, têm sido desenvolvidas para identificar desinformação. Embora a maioria dos estudos foque em textos, há uma crescente exploração do uso de aprendizado de máquina multimodal, como a incorporação de imagens aos modelos, para melhorar a identificação de desinformação. Além disso, muitos estudos falham ao não considerar a natureza dinâmica da desinformação e suas mudanças ao longo do tempo, o que pode levar à degradação dos modelos empregados. Este projeto investigará a identificação de desinformação de forma multimodal e temporal, considerando-se a adaptação dos modelos a mudanças nos dados, permitindo a análise de diferentes narrativas ao longo do tempo.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Renato M. Silva - Integrante / Carolina Scarton - Integrante / Ricardo Marcondes Marcacini - Integrante / Diego Furtado Silva - Coordenador / Leo Sampaio Ferraz Ribeiro - Integrante / Jefersson A. dos Santos - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.
7.	2024-Atual. Investigação de sinalizadores RST para o processamento do Português em um corpus multigênero de User Generated Content Descrição: Neste projeto interinstitucional e com apoio das agências FAPESB (2 anos) e UFBA (1 ano), pretendemos explorar as relações retóricas do português brasileiro (PB), a partir da anotação Rhetorical Structure Theory (RST); uma teoria discursiva muito difundida na Linguística Computacional, que tem sido utilizada em várias pesquisas de Processamento de Língua Natural (PLN), tais como: sumarização automática (SA), resolução de anáfora, tradução automática, classificação da polaridade de sentenças, por exemplo. Sendo assim, este projeto se organiza em dois momentos principais: (i) retomada e análise da anotação em RST do corpus CSTNews, assim como a verificação de trabalhos já realizados na área sobre o PB; e (ii) realização de um estudo piloto de anotação em RST que busca novos sinalizadores linguísticos na demarcação de relações retóricas discursivas, como propuseram Das e Taboada (2019) para a língua inglesa. A partir dessas ações, acreditamos que será possível ampliar o projeto com investigações que visem a ampliação de recursos linguísticos em RST para a língua portuguesa, além de propostas de aplicações computacionais e estudos comparados entre as relações retóricas do PB e de outras línguas naturais. O projeto conta com financiamento da FAPESB (2 anos) e da UFBA (1 ano) em editais específicos para apoio de propostas feitas por jovens doutores.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (2) . Integrantes: Jackson Wilke da Cruz Souza - Coordenador / Roana Rodrigues - Integrante / Paula Christina Figueira Cardoso - Integrante. Financiador(es): Universidade Federal da Bahia - Auxílio financeiro / Fundação de Amparo à Pesquisa do Estado da Bahia - Auxílio financeiro. Número de produções C, T & A: 4 / Número de orientações: 4 Membro: Jackson Wilke da Cruz Souza.
8.	2024-Atual. LexiCom: estudos comparados entre variantes do espanhol e do português Descrição: Neste projeto de pesquisa, propõe-se analisar e descrever fenômenos linguísticos, em nível lexical e/ou sintático-semântico, de variantes da língua espanhola e determinar seus aspectos comuns e divergentes com o português brasileiro. Para tanto, haverá a análise crítica de gramáticas e dicionários, além da construção e/ou utilização de corpora já existentes contemplando diferentes gêneros textuais. Espera-se contribuir com o avanço das reflexões dos estudos descritivos e comparados atuais, além de estabelecer diálogos com a Linguística Computacional (a partir do uso e criação de recursos tecnológicos) e com a Linguística Aplicada (com diagnósticos e propostas didáticas para o ensino de espanhol como língua estrangeira para brasileiros).. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Roana Rodrigues - Coordenador / Maria Caroline dos Santos Fonseca - Integrante / Sônia de Ávila Santos - Integrante. Membro: Roana Rodrigues.
9.	2024-Atual. O processamento da estrutura do discurso em contexto multimodal Descrição: O objetivo da presente proposta é investigar o papel da prosódia acústica e visual no processamento da estrutura do discurso. Para isso, serão realizados estudos experimentais de percepção, mediante a utilização de testes comportamentais e de técnica online que obtêm respostas eletrofisiológicas de participantes expostos a estímulos multimodais. Os resultados desses estudos podem revelar de que maneira exatamente informações prosódicas acústicas e visuais são processadas em contextos naturalísticos e têm aplicações diversas: permitem, por exemplo, modelar a organização informacional na fala, com evidentes possibilidades de implementação na análise semântica para o reconhecimento automático de fala.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (1) / Doutorado: (3) . Integrantes: Miguel Oliveira Jr - Coordenador / Ebson Wilkerson da Rocha Silva - Integrante / Remildo Barbosa da Silva - Integrante / Crislaini da Silva Dias - Integrante / Arthur Ronald Brasil Terto - Integrante / Kyvia Fernanda Tenório da Silva - Integrante. Membro: Miguel Oliveira Jr.

2023

1.	2023-Atual. (FAPESP Temático) Aprendizado de Representações Ricas em Contexto para Visão Computacional Descrição: Métodos de Visão Computacional são empregados para extração de informações de imagens e vídeos, mas nem sempre os elementos contextuais presentes neles são suficientes para a extração de informações corretas e precisas. Nesses casos, conteúdos de outras fontes e modalidades de dados como áudio e texto, ou ainda outras informações externas aos dados, como conhecimentos a priori, podem ser utilizados para complementar e enriquecer o contexto da informação de interesse. Adicionalmente, o contexto de aplicação pode impor restrições diversas tais como limitações de hardware, necessidade de garantia de privacidade, entre outros. Portanto, métodos de Visão Computacional modernos precisam ser capazes de integrar automaticamente os elementos contextuais da informação de interesse e também aqueles relacionados à aplicação em questão. O objetivo deste projeto é o desenvolvimento de modelos e métodos de visão computacional que sejam capazes de gerar representações ricas em contexto. O projeto será organizado em três eixos principais integrados: (i) Uso ótimo de dados não-supervisionados; (ii) Alinhamento de domínios multi-modais; (iii) Propriedades de representações. De especial interesse são aplicações de visão computacional envolvendo dispositivos de borda (edge computing) e dispositivos móveis (como smartphones e mini-computadores). Para desenvolver, testar e validar os métodos, pretendemos construir um setup experimental consistindo de múltiplas câmeras e sensores que permitirão a construção de conjuntos de dados supervisionados a serem explorados pelo grupo... Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (20) / Especialização: (2) / Mestrado acadêmico: (20) / Doutorado: (10) . Integrantes: Roberto Hirata Junior - Integrante / Nina Sumiko Tomita Hirata - Coordenador / Roberto Marcondes César Junior - Integrante / Luciano da Fontoura Costa - Integrante. Membro: Roberto Hirata Junior. Descrição: Métodos de Visão Computacional são empregados para extração de informações de imagens e vídeos, mas nem sempre os elementos contextuais presentes neles são suficientes para a extração de informações corretas e precisas. Nesses casos, conteúdos de outras fontes e modalidades de dados como áudio e texto, ou ainda outras informações externas aos dados, como conhecimentos a priori, podem ser utilizados para complementar e enriquecer o contexto da informação de interesse. Adicionalmente, o contexto de aplicação pode impor restrições diversas tais como limitações de hardware, necessidade de garantia de privacidade, entre outros. Portanto, métodos de Visão Computacional modernos precisam ser capazes de integrar automaticamente os elementos contextuais da informação de interesse e também aqueles relacionados à aplicação em questão. O objetivo deste projeto é o desenvolvimento de modelos e métodos de visão computacional que sejam capazes de gerar representações ricas em contexto. O projeto será organizado em três eixos principais integrados: (i) Uso ótimo de dados não-supervisionados; (ii) Alinhamento de domínios multi-modais; (iii) Propriedades de representações. De especial interesse são aplicações de visão computacional envolvendo dispositivos de borda (edge computing) e dispositivos móveis (como smartphones e mini-computadores). Para desenvolver, testar e validar os métodos, pretendemos construir um setup experimental consistindo de múltiplas câmeras e sensores que permitirão a construção de conjuntos de dados supervisionados a serem explorados pelo grupo.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Coordenador / Roberto Marcondes Cesar Junior - Integrante / Luciano da Fontoura Costa - Integrante / Roberto Hirata Junior - Integrante. Membro: Nina Sumiko Tomita Hirata.
2.	2023-Atual. AINDA - Análise Inteligente de Debates Descrição: O objetivo do projeto é o desenvolvimento de métodos baseados em Inteligência Artificial para prover análise automática de debates por voz e texto.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (3) . Integrantes: Bryan Khelven da Silva Barbosa - Integrante / Cláudio Elízio Calazans Campelo - Coordenador / Larissa Lucena Vasconcelos - Integrante / David Eduardo Pereira - Integrante / Klaywert Danillo Ferreira de Souza - Integrante / Helen Bento Cavalcanti - Integrante / Daniela Thuaslar Simão Gomes - Integrante / Pedro Lucas Siqueira de Lima - Integrante. Financiador(es): CAPES - Centro Anhanguera de Promoção e Educação Social - Bolsa. Membro: Bryan Khelven da Silva Barbosa.
3.	2023-Atual. Análise de Sentimentos e Posicionamento em Tweets de Elites Políticas sobre Vacinas de COVID-19 utilizando Aprendizado de Máquina Descrição: Projeto de Pesquisa PUB-USP de nome "Análise de Sentimentos e Posicionamento em Tweets de Elites Políticas sobre Vacinas de COVID-19 utilizando Aprendizado de Máquina".. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Pedro Henrique De Santana Schmalz - Integrante / Lorena G. Barberia - Coordenador / Dara Vilela - Integrante. Membro: Pedro Henrique De Santana Schmalz.
4.	2023-2024. Atribuição de autoria de comentários em português extraídos de fóruns de discussão online Descrição: A atribuição de autoria é a tarefa de se identificar o autor de um item. Tipicamente aborda-se a autoria de um texto, mas o problema se aplica também a códigos-fonte, pinturas, composições etc. Ao longo das décadas, a atribuição de autoria foi utilizada para resolver diferentes problemas, desde verificar que um dado documento provavelmente não pertencia ao autor atribuído a ele, identificar os autores de textos dentro de um conjunto de pessoas que reivindicaram a autoria e até para identificação de potenciais criminosos no contexto da linguística forense. No contexto das redes sociais online, a identificação de autorias costumam ser utilizada com dois objetivos principais: identificar se uma postagem provavelmente foi escrita pelo autor do comentário, ajudando, por exemplo, na detecção de notícias falsas ou para identificar se uma pessoa que teve a conta banida está tentando reingressar na rede social com uma nova conta, tentando, assim, burlar o banimento. O objetivo do presente trabalho é utilizar técnicas de estilometria para a identificação da autoria em postagens em português textuais realizadas no fórum de discussão online Reddit.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Pedro Semcovici - Integrante / Luciano Antonio Digiampietri - Coordenador. Membro: Pedro Semcovici.
5.	2023-Atual. Centro de Excelência em Pesquisa Aplicada em Inteligência Artificial para a Indústria Descrição: O objetivo desta proposta é apresentar a estratégia para a criação do Centro de Excelência em Pesquisa Aplicada em Inteligência Artificial (IA) para a Indústria (CPA-IA), reconhecido a nível nacional e internacional por meio da pesquisa, desenvolvimento e implementação de uma plataforma digital aberta multiusuário de ciência de dados e IA para a Indústria 4.0, a fim de alavancar a modernização, a competitividade, e o desenvolvimento científico e tecnológico da indústria nacional por meio da aceleração e popularização da aplicação da IA para os diversos setores da indústria, para micro, pequenas, médias e grandes indústrias. Isto permitirá, enquanto ferramenta, que o Governo Brasileiro disponibilize um ambiente digital de Inteligência Artificial Industrial (I-AI), dando base à modernização dos processos produtivos e à geração de novos negócios intensivos em conhecimento. O desenvolvimento desta plataforma se dará por uma rede de pesquisadores que compartilhará seu conhecimento em projetos de pesquisa integrados e interdisciplinares. A integração de competências e experiências em IA da rede habilitará um plano nacional de educação e difusão do conhecimento, com a formação de recursos humanos qualificados. Todas estas atividades levarão à geração de produtos inovadores e de propriedade intelectual, gerando patentes e registros de software, fomentando a transferência das tecnologias criadas para os setores público e privado, ao mesmo tempo em que busca a criação de oportunidades inovadoras para o desenvolvimento sustentável e ético da indústria.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Coordenador / Davidson Martins Moreira - Integrante / Claudio Fabiano Motta Toledo - Integrante / fernando luiz pellegrini pessoa - Integrante / Herman Augusto Lepikson - Integrante / Hernane Borges de Barros Pereira - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende.
6.	2023-Atual. Computação Heterogênea para Visão Computacional e Processamento de Linguagem Natural Descrição: Trata-se de um projeto de pesquisa no âmbito das Ciências da Computação, em subáreas inter-relacionadas de grande destaque atual e de interesse acadêmico e industrial, a saber: Processamento de Imagens e Processamento de Linguagem Natural. Com a análise, a modelagem e o tratamento computacional de dados de imagens e de língua, prevê-se o avanço da fronteira de conhecimento nessas frentes e, consequentemente, das aplicações relacionadas a essas duas modalidades complementares de dados.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Ariani Di Felippo - Integrante / Fabio Gagliardi Cozman - Integrante / Arnaldo Candido Junior - Integrante / Solange Oliveira Rezende - Integrante / Sandra Maria Aluísio - Integrante / Roberto Marcondes Cesar Junior - Coordenador / Miguel Oliveira Junior - Integrante / Norton T. Roman - Integrante / Moacir Antonelli Ponti - Integrante / Ricardo Marcondes Marcacini - Integrante / Marcelo Finger - Integrante / Roberto Hirata Junior - Integrante / Nina Sumiko Tomita Hirata - Integrante. Financiador(es): Sociedade para Promoção da Excelência do Software Brasileiro - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo. Descrição: Trata-se de um projeto de pesquisa no âmbito das Ciências da Computação, em subáreas inter-relacionadas de grande destaque atual e de interesse acadêmico e industrial, a saber: Processamento de Imagens e Processamento de Linguagem Natural. Com a análise, a modelagem e o tratamento computacional de dados de imagens e de língua, prevê-se o avanço da fronteira de conhecimento nessas frentes e, consequentemente, das aplicações relacionadas a essas duas modalidades complementares de dados... Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Doutorado: (1) . Integrantes: Solange Oliveira Rezende - Coordenador / Marcelo Finger - Integrante / Sandra Maria Aluísio - Integrante / Ricardo Marcondes Marcacini - Integrante / Roberto Marcondes Cesar Junior - Integrante / Thiago Alexandre Salgueiro Pardo - Integrante / Ariani Di Felippo - Integrante / Moacir Antonelli Ponti - Integrante / Fabio Gagliardi Cozman - Integrante / Arnaldo Candido Junior - Integrante / Miguel Oliveira Junior - Integrante / Norton T. Roman - Integrante / Roberto Hirata Junior - Integrante / Nina Sumiko Tomita Hirata - Integrante. Financiador(es): Sociedade para Promoção da Excelência do Software Brasileiro - Auxílio financeiro. Membro: Solange Oliveira Rezende. Descrição: Trata-se de um projeto de pesquisa no âmbito das Ciências da Computação, em subáreas inter-relacionadas de grande destaque atual e de interesse acadêmico e industrial, a saber: Processamento de Imagens e Processamento de Linguagem Natural. Com a análise, a modelagem e o tratamento computacional de dados de imagens e de língua, prevê-se o avanço da fronteira de conhecimento nessas frentes e, consequentemente, das aplicações relacionadas a essas duas modalidades complementares de dados. Financiador(es): Sociedade para Promoção da Excelência do Software Brasileiro - Auxílio financeiro.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Sandra Maria Aluísio - Coordenador / Marcelo Finger - Integrante / Solange Oliveira Rezende - Integrante / Thiago Alexandre Salgueiro Pardo - Integrante / Arnaldo Candido Junior - Integrante / Ariani Di Felippo - Integrante / Moacir Antonelli Ponti - Integrante / Ricardo Marcondes Marcacini - Integrante / Fabio Gagliardi Cozman - Integrante / Roberto Marcondes Cesar Junior - Integrante / Miguel Oliveira Junior - Integrante / Norton T. Roman - Integrante / Roberto Hirata Junior - Integrante / Nina Sumiko Tomita Hirata - Integrante. Membro: Sandra Maria Aluísio. Descrição: Projeto de Pesquisa Desenvolvimento e Inovação (PD\&I) em Tecnologia de Informática e Comunicação (TIC), no âmbito dos programas e projetos de interesse nacional na área de informática e automação considerados prioritários (PPI) pelo Comitê da Área de Tecnologia da Informação -- CATI, do Ministério da Ciência, Tecnologia e Inovações, com recursos da Lei nº 8.248/91. Trata-se assim de um projeto de pesquisa no âmbito das Ciências da Computação (Convênio USP 1014984, Processo 22.1.13242.01.0), em Processamento de Imagens e Processamento de Língua Natural.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Norton Trevisan Roman - Integrante / Thiago Alexandre Salgueiro Pardo - Coordenador / Ariani Di Felippo - Integrante. Membro: Norton Trevisan Roman. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Integrante / Roberto Marcondes Cesar Junior - Coordenador / Roberto Hirata Junior - Integrante / Thiago Salgueiro Pardo - Integrante. Financiador(es): Sociedade para Promoção da Excelência do Software Brasileiro - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata. Descrição: Trata-se de um projeto de pesquisa no âmbito das Ciências da Computação, em subáreas inter-relacionadas de grande destaque atual e de interesse acadêmico e industrial, a saber: Processamento de Imagens e Processamento de Língua Natural. Com a análise, a modelagem e o tratamento computacional de dados de imagens e de língua, prevê-se o avanço da fronteira de conhecimento nessas frentes e, consequentemente, das aplicações relacionadas a essas duas modalidades complementares de dados.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Ariani Di Felippo - Coordenador / Thiago Alexandre Salgueiro Pardo - Integrante / Sandra Maria Aluísio - Integrante / Arnaldo Cândido Jr. - Integrante / Solange Oliveira Rezende - Integrante / Ricardo Marcondes Marcacini - Integrante / Norton Trevisan Roman - Integrante / Fabio Gagliardi Cozman - Integrante / Roberto Marcondes Cesar Junior - Integrante / Miguel Oliveira Junior - Integrante / Moacir Antonelli Ponti - Integrante / Marcelo Finger - Integrante / Roberto Hirata Junior - Integrante / Nina Sumiko Tomita Hirata - Integrante. Financiador(es): Sociedade para Promoção da Excelência do Software Brasileiro - Auxílio financeiro. Membro: Ariani Di Felippo.
7.	2023-Atual. Investigação linguística de gêneros CGU (conteúdo gerado por usuário) e criação de recursos para processamento automático Descrição: Tendo em vista a relevância dos diferentes tipos ou gêneros de "conteúdo gerado pelos usuários" (CGU), como os que circulam no X (antigo Twitter), chats, fóruns de discussão e outras plataformas de mídia social, sobretudo do que tange às opiniões que neles circulam, este trabalho tem por objetivo produzir descrições sobre os mais variados aspectos linguísticos desses gêneros, tais como aspectos lexicais, morfossintáticos, sintáticos e semântico-discursivos ,com vistas à construção de recursos linguístico-computacionais (os lingwares) para o processamento automático desses tipos de CGU em português. Entre esses recursos, estão os chamados "treebanks" (ou corpora anotados com informações linguísticas), léxicos e gramáticas.... Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (3) . Integrantes: Bryan Khelven da Silva Barbosa - Integrante / Ariani Di Felippo - Coordenador / Thiago Alexandre Salgueiro Pardo - Integrante / Magali Sanches Duran - Integrante / Gabriel Ceregatto - Integrante / Norton Trevisan Roman - Integrante / Clarissa Lenina Scandarolli - Integrante / Laís Piai - Integrante / Breno da Costa Caricchio Aguiar - Integrante / Isabela Santos de Freitas - Integrante. Financiador(es): Softex/InovaUSP/MCTI - Bolsa. Membro: Bryan Khelven da Silva Barbosa. Descrição: Tendo em vista a relevância dos diferentes tipos ou gêneros de "conteúdo gerado pelos usuários" (CGU), como os que circulam no X (antigo Twitter), chats, fóruns de discussão e outras plataformas de mídia social, sobretudo do que tange às opiniões que neles circulam, este trabalho tem por objetivo produzir descrições sobre os mais variados aspectos linguísticos desses gêneros, tais como aspectos lexicais, morfossintáticos, sintáticos e semântico-discursivos ,com vistas à construção de recursos linguístico-computacionais (os lingwares) para o processamento automático desses tipos de CGU em português. Entre esses recursos, estão os chamados "treebanks" (ou corpora anotados com informações linguísticas), léxicos e gramáticas.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (3) . Integrantes: Ariani Di Felippo - Coordenador / Thiago Alexandre Salgueiro Pardo - Integrante / Magali Sanchez Duran - Integrante / Gabriel Ceregatto - Integrante / Norton Trevisan Roman - Integrante / Bryan Khelven da Silva Barbosa - Integrante / Clarissa Lenina Scandarolli - Integrante / Laís Piai - Integrante / Breno da Costa Caricchio Aguiar - Integrante / Isabela Santos de Freitas - Integrante. Financiador(es): Softex/InovaUSP/MCTI - Bolsa. Número de produções C, T & A: 2 / Número de orientações: 2 Membro: Ariani Di Felippo.
8.	2023-Atual. PROINDL: Tecnologias de Inteligência Artificial no Fortalecimento das Línguas Indígenas do Brasil Descrição: Este projeto visa usar a Inteligência Artificial em parceria com comunidades indígenas para o desenvolvimento de ferramentas que auxiliem a preservação, revitalização e disseminação de línguas indígenas do Brasil.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Claudio Santos Pinhanez - Coordenador. Membro: Arnaldo Candido Junior.
9.	2023-Atual. SPIRA-BM: Biomarcadores para Condições Respiratórias em Dispositivos Móveis por Análise de Áudio via Inteligência Artificial Descrição: O objetivo deste estudo é investigar biomarcadores de áudio para condições respiratórias como insuficiência respiratória, asma tabagismo, e desenvolver detectores baratos para estes biomarcadores, utilizando de coleta e processamento de áudio em dispositivos de computação móvel e lançando mão de técnicas de aprendizado automático, inteligência artificial e análise de sinais.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (6) / Mestrado acadêmico: (6) / Doutorado: (6) . Integrantes: Marcelo Finger - Coordenador / Alfredo Goldman - Integrante / Larissa C. Berti - Integrante / Flaviane Fernandes-Svartman - Integrante / Elisa Yumi Nakagawa - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Marcelo Finger.

2022

1.	2022-Atual. AgroFábrica Vertical Urbana 5.0 de Alimentos e Bioativos Seguros para o Cenário Covid-19 Descrição: Validar tecnológica e comercialmente a primeira AgroFábrica Vertical Urbana 5.0 de matéria prima vegetal segura e sustentável para alimentos e fitoterápicos adaptada ao cenário Covid-19 com benefícios a sociedade, empreendedores urbanos, agricultores e empresas de abrangência mundial a partir de tecnologias 4.0 pelos sistemas de inteligência artificial e tecnologia de produção em ambiente controlado com iluminação artificial.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Coordenador / Glauco Vieira Miranda - Integrante. Membro: Arnaldo Candido Junior.
2.	2022-2024. Análise da linguagem em redes sociais para detecção precoce de transtornos de saúde mental Descrição: O projeto objetiva a investigação de modelos computacionais para detecção de sinais precoces de transtornos de depressão e ansiedade a partir de publicações em redes sociais. A investigação contempla a construção de uma base textual de grandes proporções rotulada com informações relacionadas à saúde mental de usuários Twitter em português, e o uso de métodos de aprendizado supervisionado (como redes neurais artificiais profundas, transformadores etc.) para detectar usuários com maior probabilidade de vir a desenvolver futuros transtornos deste tipo com antecipação suficiente para sinalizar estas situações antes de seu possível agravamento. Questões de pesquisa a serem investigadas incluem a detecção de transtornos de saúde mental a partir de dados textuais e a partir de características estruturais e comportamentais da rede social, e a interpretação e explicação destes modelos.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Ivandré Paraboni - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.
3.	2022-Atual. AvIoT: Avicultura Conectada, Inteligente e Otimizada Descrição: endo como premissa a produção sustentável, nos aspectos econômico, social, ambiental e bem-estar animal, a Lar Cooperativa Agroindustrial busca alcançar com a implantação do piloto AvIoT uma forma mais especializada e otimizada de produção de aves de corte, tendo em vista o aumento da qualidade dos frangos produzidos, maior lucratividade, maior controle sanitário dos ambientes de produção e atendimento aos preceitos do bem-estar animal. Com o armazenamento de dados em ambientes de BigData, será possível aplicar técnicas de Inteligência Artificial (IA) e aprendizagem de máquina para que se obtenha os melhores parâmetros para produção de aves de corte e que deverão proporcionar melhorias constantes na qualidade e rentabilidade do produtor e da cooperativa, com identificação de correlação de eventuais doenças nas aves-ambiência homogeneidade de peso e qualidade.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Glauco Vieira Miranda - Coordenador. Financiador(es): Agência Brasileira de Desenvolvimento Industrial - Auxílio financeiro. Membro: Arnaldo Candido Junior.
4.	2022-2023. Comparando distribuições de PoS tags em domínios diferentes Descrição: Comparação da distribuição de etiquetas morfossintáticas em domínios diferentes.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Pedro Semcovici - Integrante / Norton Trevisan Roman - Coordenador. Membro: Pedro Semcovici.
5.	2022-Atual. Computação Heterogênea para Visão Computacional e Processamento de Linguagem Natural Descrição: Trata-se de um projeto de pesquisa no âmbito das Ciências da Computação, em subáreas inter-relacionadas de grande destaque atual e de interesse acadêmico e industrial, a saber: Processamento de Imagens e Processamento de Linguagem Natural. Com a análise, a modelagem e o tratamento computacional de dados de imagens e de língua, prevê-se o avanço da fronteira de conhecimento nessas frentes e, consequentemente, das aplicações relacionadas a essas duas modalidades complementares de dados.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (10) / Mestrado acadêmico: (4) / Doutorado: (4) . Integrantes: Miguel Oliveira Jr - Coordenador / Sandra Maria Aluisio - Integrante / Arnaldo Candido Junior - Integrante / Flaviane R. Fernandes Svartman - Integrante / Thiago Alexandre Salgueiro Pardo - Integrante. Membro: Miguel Oliveira Jr.
6.	2022-Atual. Melhoramento de plantas para nutracêuticos. bioativos e fragrâncias com tecnologias 4.0 para ambientes controlados e iluminados artificialmente Descrição: Obtenção de cultivares especiais pela associação do estado-da-arte do melhoramento genético com a inteligência artificial e internet das coisas para produzir bioativos para ambiente controlado gerando inovação disruptiva pela abrangência, a novidade e o valor da inovação de amplitude global para novos produtos. Todo o desenvolvimento e manejo de plantas e ambiente, aprendizagem profunda de máquinas e protótipos daqui serão aplicados para desenvolver ferramentas de fenômica e speed breeding para acelerar o melhoramento de plantas e estabelecer uma plataforma disruptiva de produção de bioativos.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Glauco Vieira Miranda - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Arnaldo Candido Junior.
7.	2022-2023. MultiCrowsPairs: Measuring Social Biases in Mutilingual Masked Language Models (Sorbonne Université - LORIA) Descrição: Pretrained language models, especially masked language models (MLMs) have seen success across many NLP tasks. However, there is ample evidence that they use the cultural biases that are undoubtedly present in the corpora they are trained on, implicitly creating harm with biased representations. To measure some forms of social bias in language models against minority groups. To fill this relevant research gap, in this project we are creating the MultiCrowsPairs Stereotype Pairs benchmark (MultiCrows) multilingual dataset. MultiCrows has 1508 examples (short texts) that cover stereotypes dealing with nine types of bias, like race, religion, and age. We intend to build a model based on: (i) a pair of text that is more stereotyping and another pair of text that is less stereotyping. The data focuses on stereotypes about historically disadvantaged groups and contrasts them with advantaged groups.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Francielle Alves Vargas - Integrante / Karen Fort - Coordenador / aurelie neveo - Integrante / yoa dupont - Integrante / julien bezancon - Integrante / Laura Alonso Alemany - Integrante / wolfgang schmeisser - Integrante / sergio zanotto - Integrante / claudia borg - Integrante / margot mieskes - Integrante / Luciana Benotti - Integrante. Membro: Francielle Alves Vargas.
8.	2022-2022. Plataforma de Histologia Virtual Descrição: Desenvolvimento de uma plataforma (site) de histologia virtual a partir do acervo de lâminas histológicas da Disciplina de Histologia da FOB/USP/BAURU.Desenvolvimento. Situação: Concluído; Natureza: Pesquisa. Integrantes: Pedro Semcovici - Integrante / Bella Luna Colombini Ishikiriama - Coordenador. Membro: Pedro Semcovici.
9.	2022-Atual. POrtuguese processing - Towards Syntactic Analysis and parsing (POeTiSA) in the Center for Artificial Intelligence (C4AI) Descrição: POeTiSA is a long term project that aims at growing syntax-based resources and developing related tools and applications for Brazilian Portuguese language, looking to achieve world state-of-the-art results in this area. On the resource side, we focus on the production of a large and comprehensive multi-genre corpus of Universal Dependencies-based part of speech and syntactically annotated texts, including mainly news texts and user-generated content (tweets and online comments). Regarding the tools, we aim to investigate recent neural and distributional-based methods for training robust parsing models for Portuguese. The project also envisions the production of applications on opinion mining and sentiment analysis tasks that may benefit from syntactic knowledge, as opinion summarization, helpfulness prediction, aspect idetification, deception detection and emotion classification. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (18) / Mestrado acadêmico: (11) / Doutorado: (9) . Integrantes: Roana Rodrigues - Integrante / Oto Araújo Vale - Integrante / Jackson Wilke da Cruz Souza - Integrante / Ariani Di Felippo - Integrante / Magali Duran - Integrante / Maria das Graças Volpe Nunes - Integrante / Ivandre Paraboni - Integrante / Norton Trevisan Roman - Integrante / Evandro Eduardo Seron Ruiz - Integrante / Lucelene Lopes - Integrante / Thiago Alexandre Salgueiro Pardo - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa / IBM Research Brazil - Bolsa. Número de produções C, T & A: 4 Membro: Roana Rodrigues.
10.	2022-Atual. Processamento de linguagem natural e fraseamento prosódico em português brasileiro Descrição: O projeto "Processamento de linguagem natural e fraseamento prosódico em português brasileiro", vinculado ao Projeto TaRSila (Tarefa de Anotação para o Reconhecimento e Síntese de fala da Língua Portuguesa) do Núcleo de Processamento de Linguagem Natural do Centro de Inteligência Artificial - C4AI 2 da Universidade de São Paulo, colaboração IBM/FAPESP/USP (processo FAPESP 2019/07665-4) (COZMAN, 2019-atual), visa ao estudo do fraseamento prosódico em dados de fala não lida do dialeto paulista do português brasileiro (doravante, PB). Para o alcance desse objetivo, valer-nos-emos da análise de dados de fala anotados do corpus CORAA (Corpus de Áudios Anotados) do Projeto TaRSila do C4AI. Tal corpus, em construção por membros da equipe de processa- mento de fala do C4AI da qual a proponente deste projeto faz parte, será composto de arquivos de áudio transcritos e segmentados em unidades entoacionais, com vistas também a prover recursos para o desenvolvimento de tarefas como reconhecimento automático de fala, síntese multifalantes, identificação do falante e clonagem de voz.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Rian Pereira Fernandes - Integrante / Flaviane Romani Fernandes Svartman - Coordenador. Membro: Rian Pereira Fernandes.
11.	2022-Atual. ProtoRADIAR: Métodos de Captura e Disseminação do Conhecimento, através de Processamento de Linguagem Natural na Área de Poços Descrição: Repositórios de dados de perfuração de poços representam uma relevante e diversificada fonte de informações. Se adequadamente exploradas, podem permitir extração de conhecimento de grande valor para a comunidade de perfuração e construção de poços petróleo em diversos cenários. Em consonância com profundas alterações que o fenômeno de Transformação Digital está causando na indústria e sociedade, este projeto de pesquisa visa a investigação e desenvolvimento de métodos e ferramentas baseados em tecnologias computacionais para análise de dados estruturados e não estruturados, visando a extração, representação e a visualização do conhecimento. A pesquisa terá como foco a classificação e extração de dados textuais de operações de poços. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Ivan Rizzo Guilherme - Coordenador. Membro: Arnaldo Candido Junior.
12.	2022-Atual. SISNE19 - Sistema aeropônico, autônomo e inteligente da produção de novas olerícolas para o cenário pandemia covid-19 Descrição: Desenvolver o SISNE19, sistema aeropònico, autônomo e inteligente da produção de novas olerícolas e integrado a comercialização que: opera com precisão o manejo da produção aeropónica, sustentável e orgânica; otimiza a produtividade pela automação; gera produtos seguros e saudáveis; produz sem perdas e desperdícios de alimentos pela mínima manipulação e transporte; reduz custos pela otimização da produção; maximiza receitas pela diversificação de novos produtos olerícolas e realiza lucros com a demanda projetada; oferta inteligentemente produtos com alto valor agregado e liquidez.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Glauco Vieira Miranda - Coordenador. Financiador(es): Universidade Tecnológica Federal do Paraná - Auxílio financeiro. Membro: Arnaldo Candido Junior.
13.	2022-Atual. The Role of Chemistry in Holobiont Adaptation Descrição: Um holobionte é constituído por um hospedeiro e toda a sua comunidade ecológica de microorganismos associados. É uma unidade evolutiva e a seleção de holobiontes é uma importante força evolucionária. Uma característica que ainda é pouco abordada é o papel dos metabólitos secundários nas relações microorganismos-hospedeiro, bem como nas interações quimicamente mediadas entre holobiontes (o conjunto micróbio-hospedeiro) e o ambiente. Nesta proposta, pretendemos investigar: aspectos selecionados da Química de esponjas marinhas holobiontes e como a Química influencia no sucesso evolutivo de esponjas marinhas; como microorganismos participam na transferência química de presas para predadores no ambiente marinho; a Química de grupos selecionados de invertebrados marinhos e de microorganismos associados a invertebrados e plantas, visando a obtenção de novas substâncias químicas bioativas; para explorar ainda mais a Química e a Biologia de "lead compounds" já obtidos, a fim de elaborar estruturas bioativas mais ativas e estruturalmente menos complexas, com o objetivo de explorar ainda mais a Farmacologia desses compostos; investigar a biossíntese de dois grupos selecionados de metabólitos microbianos, a fim de revelar aglomerados de genes e enzimas envolvidas em etapas biossintéticas e prever modificações estruturais de Bioengenharia para melhorar sua atividade biológica; desenvolver uma abordagem inédita para a seleção automatizada de microorganismos. O objetivo final é responder a perguntas desafiadoras, a fim de avançar o conhecimento da adaptação holobiontes, e explorar produtos químicos úteis que influenciam a adaptação dos holobiontes e que resultam no sucesso dos holobiontes na natureza.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Rafael Guido - Integrante / Severino M. Alencar - Integrante / Taicia Fill - Integrante / Antônio G. Ferreira - Integrante / Camila M. Crnkovic - Integrante / Danilo C. Miguel - Integrante / Eduardo Hajdu - Integrante / Fernanda F. Cavalcanti - Integrante / Fernanda Gadelha - Integrante / Leandro M. Vieira - Integrante / Marcelo Brocchi - Integrante / Igor D. Jurberg - Integrante / Raquel A. dos Santos - Integrante / Ricardo M. Marcacini - Integrante / Ronaldo A. Pilli - Integrante / Rosana M. Rocha - Integrante / Simone P. Lira - Integrante / Tiago Venâncio - Integrante / Vinicius Padula - Integrante / Roberto G.S. Berlinck - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende.
14.	2022-Atual. Transcrição Automática de Áudios anotada com Tópicos: uma aplicação nas Histórias de Vida do Museu da Pessoa Descrição: Formalização de uma parceria com o Instituto Museu da Pessoa (Museu da Pessoa) - https://museudapessoa.org/) para receber a cessão de um banco de vozes de 300 horas de histórias de vida que serão usadas para desenvolver e avaliar três métodos computacionais sendo explorados no C4AI: (i) segmentação de áudios em elocuções de natureza prosódica, (ii) transcrição automática via Reconhecimento Automático de Fala, e (iii) anotação automática de tópicos para trechos transcritos. Os métodos serão usados em diversos aplicativos que serão desenvolvidos futuramente pelo Museu da Pessoa, além de serem usados nas versões do aplicativo de demonstração, resultante do convênio.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (1) . Integrantes: Sandra Maria Aluísio - Coordenador / Edresson Casanova - Integrante / Ricardo Marcacini - Integrante / Odilon Gonçalves - Integrante / Marcos Terra - Integrante / Anderson Soares - Integrante / Arnaldo Cândido Jr. - Integrante / Lucas Gris - Integrante / Solange Rezende - Integrante. Membro: Sandra Maria Aluísio.
15.	2022-Atual. Utfarm: Urban Tech Farm Descrição: O objetivo é montar a plataforma autônoma e inteligente de produção de plantas de alto valor agregado sem solo (aeropônico), com iluminação artificial e genética de plantas específica a tais ambientes. Esta plataforma utilizará tecnologias disruptivas como inteligência artificial (IA), data science e internet das coisas e será a PFAL.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Glauco Vieira Miranda - Coordenador. Financiador(es): Fundação Araucária de Apoio ao Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Arnaldo Candido Junior.

2021

1.	2021-Atual. [Serrapilheira] WildPixels: Dense Labeling of Remote Sensing Images in the Wild Descrição: Automatic geographic mapping using Remote Sensing Images (RSIs) as a data source is usually modeled as a supervised classification problem. In this context, dense pixel labeling also called semantic segmentation or pixel-wise classification is a computer vision task that has made great strides in recent years mainly due to the emergence of new approaches based on deep convolutional networks. Remote sensing applications have also benefited from these advances. Several studies have been noted for the high level of quality obtained in the creation of geographic maps in an automated way through the use of semantic segmentation techniques. An important issue, however, is that the advances shown are generally evaluated in relatively well-controlled environments. A number of challenges emerge when these approaches are employed on more specific applications, such as class imbalance, underrepresentation of some classes, and presence of pixels of unknown classes during the prediction phase. In the case of geographic mapping by means of remote sensing images, there are also problems of geographic and temporal domain shift. In addition, sample annotation depends on expert users, imposing restrictions on the volume of annotated data available. In this project, we will address the challenges for the effective use of supervised learning in dense pixel labeling through the study and development of new approaches to increase the robustness of the models to these restrictions. We will focus on critical machine learning problems at the pixel level: (1) class imbalance; (2) underrepresented classes (few-shot learning); and (3) identify classes and objects not seen in the training data (open-set recognition). The effectiveness and suitability of the proposed methods will be evaluated in two main applications: detection of rural roads in the Amazon rainforest and Cerrado savanna; and monitoring of urban housing conditions and their relationship with outbreaks of Dengue disease.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (3) / Doutorado: (3) . Integrantes: Hugo Neves de Oliveira - Integrante / Keiller Nogueira - Integrante / Jefersson A. dos Santos - Coordenador / MARCATO, JOSE - Integrante / Heitor Ramos - Integrante / Fabrício Murai - Integrante / Hugo Oliveira - Integrante / Renato Assunção - Integrante. Financiador(es): Instituto Serrapilheira - Auxílio financeiro. Membro: Hugo Neves de Oliveira.
2.	2021-Atual. Aprendizado de máquina para otimizar sistema de gestão de relacionamento com os clientes nas mídias sociais Descrição: O crescente uso de redes sociais impactou significativamente na forma com a qual as empresas se relacionam com os seus clientes. Tais mídias tornaram-se um novo meio de comunicação entre estes atores, mas também representam um repositório valioso sobre a reputação de marcas, produtos e serviços. Este fenômeno fez surgir o conceito de gestão de relacionamento com os clientes por intermédio de redes sociais, conhecido pelo acrônimo Social CRM. O Social CRM inclui estratégias, processos e tecnologias para integrar as redes sociais aos sistemas tradicionais de gestão de relacionamento com os clientes. O Social CRM vem cada vez mais sendo utilizado para o entendimento das empresas em relação à percepção dos consumidores quanto aos seus produtos, serviços e propagandas. Entretanto, a área de Social CRM envolve diversos desafios, principalmente pelo fato das opiniões expressas pelos consumidores em portais e redes sociais estarem em formato textual, o qual é um tipo de dado não estruturado. Nesses textos, além de etapas de limpeza, padronização e estruturação necessária para algoritmos de aprendizado de máquina, os quais serão utilizados neste projeto para automação de tarefas e extração de conhecimento, é necessário identificar algumas partes importantes no texto, como os aspectos de um produto ou serviço. Além disso, há a necessidade de em determinadas aplicações ter que informar a categoria dos textos, por exemplo, sentimento positivo ou sentimento negativo, ou se um texto é sobre vendas, divulgação, ou feedback de um consumidor. Por fim, os textos dessas mídias geralmente são curtos, o que impõe desafios adicionais ao aprendizado de máquinas em dados textuais. Com isso, esse projeto visa investigar, propor e implementar técnicas de aprendizado de máquina para a extração de conhecimento e automação de tarefas na gestão de relacionamento com clientes, além da disponibilização de um serviço contendo os principais métodos resultantes da pesquisa. A saber, serão investigados e desenvolvidos (i) métodos de extração de aspectos a partir de textos de consumidores extraídos em plataformas de reclamação, com o objetivo de obter qual o produto ou serviço se trata uma determinada reclamação; (ii) métodos de classificação semi supervisionada de categorias de marketing para textos de consumidores provenientes de redes sociais, com o objetivo de diminuir a quantidade de exemplos rotulados necessária para obter a automação de maneira satisfatória; (iii) métodos de predição para o score de engajamento de consumidores em relação a postagens em mídias sociais, para definir prioridades de atendimento e de marketing (pré-venda e pós-venda); por fim, os métodos supramencionados serão integrados em um (iv) sistema de informação inteligente voltado para Social CRM. Além dos potenciais de inovação técnico-científico nas áreas de análise de redes sociais, inteligência artificial e business, setores estratégicos para o desenvolvimento econômico nacional, o presente projeto também viabiliza a construção de uma rede de pesquisa multidisciplinar e o desenvolvimento de produtos que atendam as necessidades mercadológicas de empresas que usam as redes sociais para a gestão de relacionamento com os clientes. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (10) / Mestrado profissional: (3) . Integrantes: Solange Oliveira Rezende - Integrante / Rafael Geraldeli Rossi - Integrante / Ricardo Marcondes Marcacini - Integrante / Fábio Manoel França Lobato - Coordenador / Marcelino S. da Silva - Integrante / Olaf Reinhold - Integrante / Jacob Antonio Fernando Lavareda - Integrante / Éfren Lopes de Souza - Integrante / JULIO AUGUSTO NOGUEIRA VIANA - Integrante / Diego de Azevedo Gomes - Integrante / Michel Marialva Yvano - Integrante / Danielle Costa Carrara Couto - Integrante. Financiador(es): Fundação Amazônia Paraense de Amparo à Pesquisa - Auxílio financeiro / Conselho Nacional de Desenvolvimento Científico e Tecnológico - Outra. Membro: Solange Oliveira Rezende.
3.	2021-Atual. Computação Heterogênea para Visão Computacional e Processamento de Linguagem Natural Descrição: POeTiSA is a long term project that aims at growing syntax-based resources and developing related tools and applications for Brazilian Portuguese language, looking to achieve world state-of-the-art results in this area. On the resource side, we focus on the production of a large and comprehensive multi-genre corpus of Universal Dependencies-based part of speech and syntactically annotated texts, including mainly news texts and user-generated content (tweets and online comments). Regarding the tools, we aim to investigate recent neural and distributional-based methods for training robust parsing models for Portuguese. The project also envisions the production of applications on opinion mining and sentiment analysis tasks that may benefit from syntactic knowledge, as opinion summarization, helpfulness prediction, aspect idetification, deception detection and emotion classification. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research..Situação: Em andamento; Natureza: Pesquisa.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Marcella Monteiro Lemos Couto - Coordenador / THIAGO A. S. PARDO - Integrante. Membro: Marcella Monteiro Lemos Couto.
4.	2021-Atual. DANTE - Dependency-ANalised corpora of TwEets Descrição: Anotação e análise, conforme o modelo de Universal Dependencies, de corpora obtidos do Twitter. Projeto criado dentro do projeto POeTiSA (POrtuguese processing - Towards Syntactic Analysis and parsing), executado pelo grupo de Processamento de Língua Natural (NLP2) do Centro de Inteligência Artificial (C4AI) da USP.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) . Integrantes: Norton Trevisan Roman - Coordenador / Thiago Alexandre Salgueiro Pardo - Integrante / Ariani Di Felippo - Integrante. Número de produções C, T & A: 1 Membro: Norton Trevisan Roman.
5.	2021-Atual. DANTEStocks - Dependency-ANalised corpus of stock market TwEets Descrição: Primeiro corpus a compor o projeto DANTE, o projeto DANTEStocks trata da anotação morfossintática e sintática, conforme o modelo de Universal Dependencies, além de semântica, de um corpus de tweets do mercado financeiro pré-existente, já anotado como emoções conforme a roda de Plutchik. Assim como seu projeto anfitrião, também o DANTEStocks faz parte do projeto POeTiSA (POrtuguese processing - Towards Syntactic Analysis and parsing), executado pelo grupo de Processamento de Língua Natural (NLP2) do Centro de Inteligência Artificial (C4AI) da USP.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Norton Trevisan Roman - Coordenador / Thiago Alexandre Salgueiro Pardo - Integrante / Ariani Di Felippo - Integrante. Membro: Norton Trevisan Roman.
6.	2021-2022. Investigação sobre Produção, circulação e recepção multimodal de Divulgação Científica no Brasil Descrição: A Divulgação Científica (DC) pode ser definida como uma prática que objetiva atividades a serem desenvolvidas em diferentes esferas de criação ideológica. Essa prática pode ser materializada em textos orais e/ou escritos, sendo produzidos por especialistas ou pesquisadores para a comunidade um grupo genérico ou específico, mas que, de maneira geral, são leigos nos assuntos abordados. Entretanto, a produção de textos de DC nem sempre é incentivada nos espaços acadêmico-científicos, sendo comprovado pela baixa popularidade de produção de textos dessa natureza por pesquisadores, ou mesmo pela imensa dificuldade em transpor o discurso científico em uma linguagem que seja acessível por um público não especializado. Assim, neste projeto de pesquisa, objetivamos investigar as esferas discursivas, enunciativas e multimodais a partir da construção e análise de um corpus de DC. A partir da análise e descrição desses textos, apresentaremos e construiremos manuais específicos de produção de textos de DC, aumentando a visibilidade, a comunicação e a criação de instrumentos inovadores da comunidade universitária pela e com a comunidade externa.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) . Integrantes: Jackson Wilke da Cruz Souza - Coordenador. Número de produções C, T & A: 12 Membro: Jackson Wilke da Cruz Souza.
7.	2021-Atual. POrtuguese processing - Towards Syntactic Analysis and parsing (POeTiSA) in the Center for Artificial Intelligence (C4AI) Descrição: POeTiSA is a long term project that aims at growing syntax-based resources and developing related tools and applications for Brazilian Portuguese language, looking to achieve world state-of-the-art results in this area. On the resource side, we focus on the production of a large and comprehensive multi-genre corpus of Universal Dependencies-based part of speech and syntactically annotated texts, including mainly news texts and user-generated content (tweets and online comments). Regarding the tools, we aim to investigate recent neural and distributional-based methods for training robust parsing models for Portuguese. The project also envisions the production of applications on opinion mining and sentiment analysis tasks that may benefit from syntactic knowledge, as opinion summarization, helpfulness prediction, aspect idetification, deception detection and emotion classification. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (5) / Doutorado: (5) . Integrantes: Lucelene Lopes - Integrante / Thiago Alexandre Salgueiro Pardo - Coordenador / Ariani Di Felippo - Integrante / Ivandré Paraboni - Integrante / Norton Trevisan Roman - Integrante / Magali Duran - Integrante / Evandro Eduardo Seron Ruiz - Integrante. Financiador(es): IBM - Bolsa / Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Membro: Lucelene Lopes.
8.	2021-Atual. Relações retóricas para além de marcadores discursivos: Revisitando a anotação RST para o Português Brasileiro Descrição: Neste projeto interinstitucional, pretendemos explorar as relações retóricas do português brasileiro (PB), a partir da anotação Rhetorical Structure Theory (RST); uma teoria discursiva muito difundida na Linguística Computacional, que tem sido utilizada em várias pesquisas de Processamento de Língua Natural (PLN), tais como: sumarização automática (SA), resolução de anáfora, tradução automática, classificação da polaridade de sentenças, por exemplo. Sendo assim, este projeto se organiza em dois momentos principais: (i) retomada e análise da anotação em RST do corpus CSTNews, assim como a verificação de trabalhos já realizados na área sobre o PB; e (ii) realização de um estudo piloto de anotação em RST que busca novos sinalizadores linguísticos na demarcação de relações retóricas discursivas, como propuseram Das e Taboada (2019) para a língua inglesa. A partir dessas ações, acreditamos que será possível ampliar o projeto com investigações que visem a ampliação de recursos linguísticos em RST para a língua portuguesa, além de propostas de aplicações computacionais e estudos comparados entre as relações retóricas do PB e de outras línguas naturais. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (2) . Integrantes: Roana Rodrigues - Integrante / Jackson Wilke da Cruz Souza - Coordenador / Marquize Silva dos Santos - Integrante / Paula Christina Figueira Cardoso - Integrante / Ewerson Dantas - Integrante / Larissa de Jesus Santa Bárbara - Integrante / Ligianne Barbosa Rosa de Oliveira - Integrante. Número de produções C, T & A: 7 / Número de orientações: 3 Membro: Roana Rodrigues. Descrição: Neste projeto interinstitucional, pretendemos explorar as relações retóricas do português brasileiro (PB), a partir da anotação Rhetorical Structure Theory (RST); uma teoria discursiva muito difundida na Linguística Computacional, que tem sido utilizada em várias pesquisas de Processamento de Língua Natural (PLN), tais como: sumarização automática (SA), resolução de anáfora, tradução automática, classificação da polaridade de sentenças, por exemplo. Sendo assim, este projeto se organiza em dois momentos principais: (i) retomada e análise da anotação em RST do corpus CSTNews, assim como a verificação de trabalhos já realizados na área sobre o PB; e (ii) realização de um estudo piloto de anotação em RST que busca novos sinalizadores linguísticos na demarcação de relações retóricas discursivas, como propuseram Das e Taboada (2019) para a língua inglesa. A partir dessas ações, acreditamos que será possível ampliar o projeto com investigações que visem a ampliação de recursos linguísticos em RST para a língua portuguesa, além de propostas de aplicações computacionais e estudos comparados entre as relações retóricas do PB e de outras línguas naturais.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) . Integrantes: Jackson Wilke da Cruz Souza - Coordenador / Roana Rodrigues - Integrante / Paula Christina Figueira Cardoso - Integrante. Número de produções C, T & A: 6 Membro: Jackson Wilke da Cruz Souza.

2020

1.	2020-Atual. [FAPEMIG] CAD-COVID-19: Monitoramento e Auxílio ao Diagnóstico de Pacientes com COVID-19 Usando Radiografias Torácicas e Deep Learning Descrição: O mundo está vivendo uma pandemia histórica que em menos de 4 meses já atingiu quase 2 milhões de pessoas. Dada a velocidade de disseminação do novo coronavírus e com a iminência do colapso de sistema de saúde no Brasil e no mundo, é urgente a necessidade de um sistema de auxílio a diagnóstico (Computer-Aided Diagnosis, CAD) que permita aprimorar este que é um dos principais gargalos da pandemia. Casos mais severos da doença impactam diretamente a capacidade pulmonar do paciente. Os sintomas nesses casos podem ser detectados principalmente através de radiografias torácicas e tomografias computadorizadas. Assim, este projeto visa o desenvolvimento de uma abordagem para auxílio a diagnóstico de doenças pulmonares a partir de imagens, com foco em casos relacionados ao surto de COVID-19. Um dos principais objetivos da proposta é oferecer um sistema online para centralização dos dados de raio-x e tomografias de pacientes diagnosticados com o COVID-19 ou casos suspeitos. O sistema deve permitir que pesquisadores e profissionais de saúde façam upload de imagens médicas que serão integradas ao repositório centralizado, e recebam em retorno um relatório com propriedades extraídas das imagens para o auxílio ao diagnóstico de doenças pulmonares.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (3) / Doutorado: (3) . Integrantes: Hugo Neves de Oliveira - Integrante / Jefersson Alex dos Santos - Coordenador / Edemir Ferreira de Andrade Junior - Integrante / Camila Laranjeira da Silva - Integrante / Virgínia Fernandes Mota - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de Minas Gerais - Bolsa. Membro: Hugo Neves de Oliveira.
2.	2020-Atual. [FAPESP/ANR] Spatio-temporal analysis of pediatric magnetic resonance images Descrição: The advances in medical imaging require to develop quantitative or semi-quantitative methods to improve accuracy in the image analysis results. Advances in medical image analysis provide such tools, but there is still an important gap regarding pediatric brain imaging, even though there is an increasing medical demand. This project aims at contributing to fill this gap, focusing on brain magnetic resonance imaging (MRI) of infants, newborns and premature babies, which raise specific issues due to the particular grey/white matter contrast related to the physiological myelination process, the very fast but not continuously observed evolution of the brain structures and possible pathologies, and the high intra-and inter-subjects variability. One of these issues is that the data at hand are noisy, ambiguous, scarce in nature and sparse in time. In turn, expert medical knowledge is available, but is prone to change and evolution. From this point of view the project tackles one of the very cutting edge questions in data analysis, that is how to extract and understand meaningful patterns where the data are scarce but expert knowledge, continuously enriched, is available. We propose to develop structural representations of knowledge and image information in the form of graphs and hypergraphs, which will be exploited to guide spatio-temporal image understanding (segmentation, recognition, quantification, comparison over time, description of image content and evolution). The aim is to aid diagnosis, pathology analysis and patients? follow-up. Applications will include the analysis of hyperintensities on the white matter, the volumetry of corpus callosum and its evolution, and neuro-oncology with the study of the influence of tumors on surrounding structures over time. The project involves specialists in medical image analysis, structural knowledge representation and pediatric neuro-imaging.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (1) . Integrantes: Hugo Neves de Oliveira - Integrante / Roberto Marcondes Cesar Junior - Coordenador / Isabelle Bloch - Integrante. Financiador(es): Agence Nationale de la Recherche - Auxílio financeiro / Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Hugo Neves de Oliveira.
3.	2020-Atual. [FAPESP] Deep learning e representações intermediárias para análise de imagens pediátricas Descrição: Nos últimos anos, as pesquisas sobre reconhecimento de estruturas 3D (imagens médicas) e de ações (vídeo) vem se desenvolvendo rapidamente, especialmente para ambientes dinâmicos ou sequências de vídeo. A detecçãoo e reconhecimento de elementos salientes pode cumprir um papel importante em tais sistemas. O conceito de "saliente" pode ser aplicado a diferentes atores ou objetos envolvidos em cenas dinâmicas, no que diz respeito tanto à informação estrutural como temporal. Os elementos salientes representam um dos principais focos do presente projeto. A idéia básica é a de extrair os elementos visuais com base em uma estrutura hierárquica de três camadas: 1 - extração de elementos salientes, 2 - aprendizagem de características marcantes e 3 - detecção de elementos salientes para o reconhecimento de ações, respectivamente. A integração de relações estruturais para detectar, rastrear e reconhecer os elementos salientes será explorada para o reconhecimento de ações, visto que esse tipo de pista pode ser considerado mais estável do que as propriedades de aparência do objeto, especialmente para a melhoria global do desempenho.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (1) . Integrantes: Hugo Neves de Oliveira - Integrante / Roberto Marcondes Cesar Junior - Coordenador / Isabelle Bloch - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Membro: Hugo Neves de Oliveira.
4.	2020-2021. Aprendizado de Representações para Mineração de Eventos Descrição: Um dos principais desafios da Minerac ̧ao de Eventos é obter uma representação estruturada da base de eventos; um processo complexo devido as múltiplas componentes e diferentes tipos de dados. O Aprendizado de Representações é inspirado em metodos de aprendizado profundo que se mostraram promissores na analise de imagem, texto, vídeo e audio. Neste projeto de pesquisa, o objetivo e investigar Aprendizado de Representações para eventos, como parte do processo de Mineração de Eventos. Algumas iniciativas existentes na literatura foram propostas sem considerar restrições espaço-temporais dos eventos. As várias componentes dos eventos apresentam informações valiosas que são úteis para guiar o aprendizado da nova representação do espaço dimensional, sendo importante estender tais iniciativas para incorporar requisitos específicos do problema de Mineração de Eventos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (2) / Doutorado: (3) . Integrantes: Ricardo Marcondes Marcacini - Coordenador. Financiador(es): Universidade de São Paulo - Auxílio financeiro. Membro: Ricardo Marcondes Marcacini.
5.	2020-Atual. BrazSpeechData: plataforma de anotação de recursos de áudio Descrição: O projeto BrazSpeechData visa a criação de uma plataforma de anotação para criação de recursos de áudio para a língua portuguesa. O sistema desenvolvido conta com um módulo para anotação de áudios e outro para a transcrição de áudios. Além disso, o sistema também tem recursos para exportar os dados criados e relatórios com estatísticas. O sistema está sendo utilizado dentro do projeto maior, Tarsila, para criação de recursos e é fruto de uma parceria entre UFG, USP e UTFPR, com financiamento pelo Centro de Excelência em Inteligência Artificial (CEIA). A plataforma foi utilizada para anotador o CORAA ASR, e está em adaptação para anotar outras bases de dados.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) . Integrantes: Arnaldo Candido Junior - Coordenador / Sandra Maria Aluísio - Integrante. Membro: Arnaldo Candido Junior.
6.	2020-Atual. C4AI -- Centro de Inteligência Artificial/Center for Artificial Intelligence Descrição: Centro de Engenharia IBM-Fapesp proc 2019/07665-4 (Pesquisador Principal e coordenador da área de processamento de linguagem natural). Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (10) / Mestrado acadêmico: (10) / Doutorado: (20) . Integrantes: Marcelo Finger - Integrante / Fabio Gagliardi Cozman - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Marcelo Finger.
7.	2020-Atual. Center for Artificial Intelligence (C4AI) Descrição: Descrição: O Center for Artificial Intelligence congrega cerca de 120 pesquisadores de várias instituições, com suporte da FAPESP e IBM. O Centro é sediado na USP, nas dependências do InovaUSP, e conduz pesquisas em temas básicos e aplicados da área de inteligência artificial, bem como se preocupa com transferência de tecnologia e difusão.. .. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Fabio Gagiardi Cozman - Coordenador. Membro: Solange Oliveira Rezende. Descrição: Centro de pesquisa com a missão de produzir pesquisa avançada em Inteligência Artificial no Brasil, disseminando e debatendo os principais resultados, treinando estudantes e profissionais, e transferindo a tecnologia para a sociedade.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Norton Trevisan Roman - Coordenador / Thiago Alexandre Salgueiro Pardo - Integrante / Ivandré Paraboni - Integrante / Sarajane Marques Peres - Integrante / Valdinei Freire da Silva - Integrante / Sandra Maria Aluísio - Integrante / Fabio Gagliardi Cozman - Integrante / Marcelo Finger - Integrante. Membro: Norton Trevisan Roman. Descrição: O Center for Artificial Intelligence congrega cerca de 120 pesquisadores de várias instituições, com suporte da FAPESP e IBM. O Centro é sediado na USP, nas dependências do InovaUSP, e conduz pesquisas em temas básicos e aplicados da área de inteligência artificial, bem como se preocupa com transferência de tecnologia e difusão.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (80) / Especialização: (0) / Mestrado acadêmico: (35) / Mestrado profissional: (0) / Doutorado: (25) . Integrantes: Fabio Gagliardi Cozman - Coordenador. Financiador(es): (FAPESP) Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Fabio Gagliardi Cozman.
8.	2020-Atual. Centro de Inteligência Artificial (Center for Artificial Intelligence) - C4AI Descrição: Esta proposta descreve um Centro de Pesquisa de Engenharia em Inteligência Artificial (IA) empenhado em conduzir pesquisas em tópicos centrais de IA e em aplicar técnicas de IA em áreas de aplicação selecionadas --- a saber, indústria de óleo e gás, agronegócios e saúde. O Centro também dará suporte a estudos sobre o impacto social e econômico da IA e conduzirá atividades de transferência de tecnologia e difusão do conhecimento. O Centro será construído com a convicção de que os próximos dez anos trarão avanços sem precedentes em IA, os quais dependerão da colaboração tanto entre áreas centrais da IA como destas áreas com as aplicações. O "Center for Artificial Intelligence" consistirá de dois grupos interligados de pesquisadores, ambos distribuídos na instituição anfitriã e em instituições associadas. Um grupo de pesquisadores, com significativa projeção internacional na comunidade de IA, cobrirá tópicos centrais de IA, de representação de conhecimento a aprendizado de máquina, com ênfase em processamento de texto e linguagem natural, particularmente em Português. Tendências da pesquisa internacional corrente sugerem que a próxima década testemunhará uma interação crescente entre representação de conhecimento, tomada de decisão e aprendizado de máquina; o "Center for Artificial Intelligence" focará sua atenção na combinação destas áreas da IA, já que elas não são tão intimamente conectadas quanto deveriam ser --- o Centro se posicionará como um participante fundamental na colaboração entre os principais tópicos da IA. Um segundo grupo de pesquisadores do Centro focará em três áreas de aplicação onde existe significativa experiência na instituição anfitriã: óleo e gás, agronegócio, e saúde. A conexão entre pesquisa em tópicos centrais da IA e áreas de aplicação ocorrerá em dupla direção: pesquisa em IA básica abordará problemas de grande escala nas áreas de aplicação selecionadas, e será direcionada pelos desafios nestas áreas de aplicação. Um pequeno grupo de pesquisadores da área de humanas está incluído no "Center for Artificial Intelligence" para conduzir pesquisa sobre o impacto social da IA e para identificar caminhos que garantam o uso da IA para o bem. O Coordenador de Educação e Difusão do Conhecimento organizará produção de vídeos contendo resultados de pesquisa e trabalhará através de feiras e escolas para educar o público em sentido amplo. O Coordenador de Transferência de Tecnologia trabalhará com órgãos bem estabelecidos na instituição anfitriã para fomentar iniciativas que transferirão resultados para as entidades financiadoras e para esforços de empreendedorismo.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Rian Pereira Fernandes - Integrante / Flaviane Romani Fernandes Svartman - Integrante / Fabio Gagliardi Cozman - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de SP - Auxílio financeiro. Membro: Rian Pereira Fernandes.
9.	2020-2021. CORAA ASR: Corpus of Annotated Audios for Automatic Speech Recognition Descrição: Automatic Speech recognition (ASR) is a complex and challenging task. For the Portuguse Language, the existing resources are limitted, composed of audios containing only read and prepared speech. There is a lack of datasets including spontaneous speech, and prepared speech. There is a lack of datasets including spontaneous speech, which are essential in different ASR applications. CORAA (Corpus of Annotated Audios) ASR v1. is a publicly available dataset with 291 hours for ASR in BP containing validated pairs (audio-transcription). CORAA ASR also contains European Portuguese audios (4.69 hours). Subcorpora were assembled to both improve ASR models in BP with phenomena from spontaneous speech and motivate young researches to start their studies on ASR for Portuguese. All the corpora are publicly available at https://github.com/nilc-nlp/CORAA under the CC BY-NC-ND 4.0 license.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (50) / Mestrado acadêmico: (3) / Doutorado: (1) . Integrantes: Arnaldo Candido Junior - Coordenador / Sandra Maria Aluísio - Integrante / Anderson da Silva Soares - Integrante. Membro: Arnaldo Candido Junior.
10.	2020-Atual. Corpus Carolina - Laboratório Virtual de Humanidades Digitais (LaViHD), Centro de Inteligência Artificial (C4AI) Descrição: Projeto apoiado pela empresa IBM Research Brazil em 18/05/2022. Descrição: Tem como objetivo geral desenvolver sistemas que avancem o estado da arte do Processamento de Linguagem Natural para o português brasileiro, atingindo um novo patamar em qualidade de geração e desempenho em relação ao que existe hoje. Para isso, a primeira etapa da pesquisa prevê a construção de um corpus multigênero com um volume de textos robusto e inédito na língua portuguesa. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (6) / Mestrado acadêmico: (3) / Doutorado: (2) .. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (6) / Mestrado acadêmico: (3) / Doutorado: (2) . Integrantes: Marcelo Finger - Coordenador / Maria Clara Paixão de Sousa - Integrante / Vanessa Martins do Monte - Integrante / Cristiane Namiuti - Integrante. Financiador(es): Universidade de São Paulo - Bolsa. Membro: Marcelo Finger.
11.	2020-Atual. Inteligência Artificial para Auxílio de Ações que Visam à Redução da Evasão no Ensino Superior - MEC Descrição: Soluções que fazem uso de tecnologias estão sendo adotadas para mitigar o problema da evasão escolar. O advento da digitalização dos processos escolares internos por meio de software tem provocado um aumento exponencial na disponibilidade de dados que podem ser utilizados para o problema da evasão. Nesse contexto, técnicas de Inteligência Artificial, em particular aquelas que aprendem a partir de dados, possuem um cenário favorável de desenvolvimento. Nesse contexto, este projeto visa a pesquisa e o desenvolvimento de uma solução computacional preditiva que implementa algoritmos de inteligência artificial, que de forma customizada por aluno, possa estabelecer as bases tecnológicas para a realização de intervenção pedagógica. O projeto inclui ainda a realização de um projeto piloto a nível nacional com diferentes instituições que visa avaliar a efetividade de ações de intervenção pedagógicas. Por fim, o projeto prevê ainda o desenvolvido de um assistente virtual inteligente com interface de texto, voz e vídeo que tem por objetivo avaliar a capacidade e efetividade de ações automatizadas e seu equilíbrio com as ações pedagógicas convencionais.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Anderson da Silva Soares - Coordenador. Membro: Arnaldo Candido Junior.
12.	2020-Atual. POrtuguese processing - Towards Syntactic Analysis and parsing (POeTiSA) in the Center for Artificial Intelligence (C4AI) Descrição: POeTiSA is a long term project that aims at growing syntax-based resources and developing related tools and applications for Brazilian Portuguese language, looking to achieve world state-of-the-art results in this area. On the resource side, we focus on the production of a large and comprehensive multi-genre corpus of Universal Dependencies-based part of speech and syntactically annotated texts, including mainly news texts and user-generated content (tweets and online comments). Regarding the tools, we aim to investigate recent neural and distributional-based methods for training robust parsing models for Portuguese. The project also envisions the production of applications on opinion mining and sentiment analysis tasks that may benefit from syntactic knowledge, as opinion summarization, helpfulness prediction, aspect idetification, deception detection and emotion classification. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (5) / Doutorado: (5) . Integrantes: Bryan Khelven da Silva Barbosa - Integrante / Ariani Di Felippo - Integrante / Thiago Alexandre Salgueiro Pardo - Coordenador / Magali Sanches Duran - Integrante / Gabriel Ceregatto - Integrante / Norton Trevisan Roman - Integrante / Clarissa Lenina Scandarolli - Integrante / Laís Piai - Integrante / Maria das Graças Volpe Nunes - Integrante / Oto Araújo Vale - Integrante / Ivandré Paraboni - Integrante / Evandro Eduardo Seron Ruiz - Integrante / Lucelene Lopes - Integrante. Financiador(es): IBM - Bolsa / Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Membro: Bryan Khelven da Silva Barbosa. Descrição: POeTiSA is a long term project that aims at growing syntax-based resources and developing related tools and applications for Brazilian Portuguese language, looking to achieve world state-of-the-art results in this area. On the resource side, we focus on the production of a large and comprehensive multi-genre corpus of Universal Dependencies-based part of speech and syntactically annotated texts, including mainly news texts and user-generated content (tweets and online comments). Regarding the tools, we aim to investigate recent neural and distributional-based methods for training robust parsing models for Portuguese. The project also envisions the production of applications on opinion mining and sentiment analysis tasks that may benefit from syntactic knowledge, as opinion summarization, helpfulness prediction, aspect idetification, deception detection and emotion classification. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (18) / Mestrado acadêmico: (11) / Doutorado: (9) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Maria das Graças Volpe Nunes - Integrante / Ariani Di Felippo - Integrante / Ivandré Paraboni - Integrante / Oto Araújo Vale - Integrante / Norton Trevisan Roman - Integrante / Magali Duran - Integrante / Evandro Eduardo Seron Ruiz - Integrante / Lucelene Lopes - Integrante. Financiador(es): IBM - Bolsa / Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Membro: Thiago Alexandre Salgueiro Pardo. Descrição: POeTiSA is a long term project that aims at growing syntax-based resources and developing related tools and applications for Brazilian Portuguese language, looking to achieve world state-of-the-art results in this area. On the resource side, we focus on the production of a large and comprehensive multi-genre corpus of Universal Dependencies-based part of speech and syntactically annotated texts, including mainly news texts and user-generated content (tweets and online comments). Regarding the tools, we aim to investigate recent neural and distributional-based methods for training robust parsing models for Portuguese. The project also envisions the production of applications on opinion mining and sentiment analysis tasks that may benefit from syntactic knowledge, as opinion summarization, helpfulness prediction, aspect idetification, deception detection and emotion classification. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Maria das Graças Volpe Nunes - Integrante / Ariani di Felippo - Integrante / Ivandre Paraboni - Integrante / Thiago A S Pardo - Coordenador / Magali S Duran - Integrante / Norton Trevisan Roman - Integrante / Lucelene Lopes - Integrante. Membro: Maria das Graças Volpe Nunes. Descrição: POeTiSA is a long term project that aims at growing syntax-based resources and developing related tools and applications for Brazilian Portuguese language, looking to achieve world state-of-the-art results in this area. On the resource side, we focus on the production of a large and comprehensive multi-genre corpus of Universal Dependencies-based part of speech and syntactically annotated texts, including mainly news texts and user-generated content (tweets and online comments). Regarding the tools, we aim to investigate recent neural and distributional-based methods for training robust parsing models for Portuguese. The project also envisions the production of applications on opinion mining and sentiment analysis tasks that may benefit from syntactic knowledge, as opinion summarization, helpfulness prediction, aspect idetification, deception detection and emotion classification. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (5) / Doutorado: (5) . Integrantes: Ariani Di Felippo - Integrante / Maria das Graças Volpe Nunes - Integrante / Thiago A S Pardo - Coordenador / Oto Araújo Vale - Integrante / Magali Sanchez Duran - Integrante / Ivandré Paraboni - Integrante / Evandro Eduardo Seron Ruiz - Integrante / Gabriel Ceregatto - Integrante / Norton Trevisan Roman - Integrante / Bryan Khelven da Silva Barbosa - Integrante / Clarissa Lenina Scandarolli - Integrante / Lucelene Lopes - Integrante / Laís Piai - Integrante. Financiador(es): IBM - Bolsa / Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Membro: Ariani Di Felippo.
13.	2020-2023. Representações semanticamente enriquecidas para mineração de textos em português: Modelos e Aplicações Descrição: Com a crescente geração e disponibilização de textos, seja internamente nas organizações ou na Web, técnicas de Mineração de Textos têm se tornado essenciais no apoio à análise e extração de conhecimento desses dados. Independentemente da aplicação ou técnica utilizada, o tratamento semântico dos textos é um grande desafio do processo de mineração. Esse desafio é ainda maior quando se considera textos escritos no idioma português, visto as particularidades do idioma e o limitado volume de recursos e pesquisas desenvolvidas. Nesse contexto, este projeto visa avançar as pesquisas da área de Mineração de Textos, com foco no idioma português, e disseminar o conhecimento da área por meio da aplicação em diferentes problemas do mundo real. Assim, serão investigados e propostos modelos de representação de textos semanticamente enriquecidos, abordando tanto representações no modelo espaço-vetorial quanto representações em rede, bem como sua aplicação no aprendizado baseado em uma única classe. Para viabilizar a pesquisa, coleções de textos escritos em português serão coletadas, preparadas e caracterizadas, disponibilizando à comunidade informações consolidadas sobre coleções rotuladas e disponibilizadas para pesquisa. Por fim, as representações semanticamente enriquecidas serão avaliadas e aplicadas em diferentes problemas práticos de Mineração de Textos, como análise de sentimentos, sistemas de recomendação, detecção de notícias falsas, descoberta baseada em literatura e mineração de eventos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (1) Doutorado: (5) . Integrantes: Solange Oliveira Rezende - Coordenador / Roberta Akemi Sinoara - Integrante / Marcos Aurélio Domingues - Integrante / Veronica Oliveira de Carvalho - Integrante / Alipio Mario Guedes Jorge - Integrante / Bruno Magalhães Nogueira - Integrante / Camila Vaccari Sundermann - Integrante / MARCACINI, RICARDO M. - Integrante / ROSSI, RAFAEL G. - Integrante / Dildre Georgiana Vasques - Integrante / SCHEICHER, RICARDO B. - Integrante / Vitor Rodrigues Tonon - Integrante / Brucce Neves dos Santos - Integrante / Mariana Caravanti de Souza - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende. Descrição: Com a crescente geração e disponibilização de textos, seja internamente nas organizações ou na Web, técnicas de Mineração de Textos têm se tornado essenciais no apoio à análise e extração de conhecimento desses dados. Independentemente da aplicação ou técnica utilizada, o tratamento semântico dos textos é um grande desafio do processo de mineração. Esse desafio é ainda maior quando se considera textos escritos no idioma português, visto as particularidades do idioma e o limitado volume de recursos e pesquisas desenvolvidas. Nesse contexto, este projeto visa avançar as pesquisas da área de Mineração de Textos, com foco no idioma português, e disseminar o conhecimento da área por meio da aplicação em diferentes problemas do mundo real. Assim, serão investigados e propostos modelos de representação de textos semanticamente enriquecidos, abordando tanto representações no modelo espaço-vetorial quanto representações em rede, bem como sua aplicação no aprendizado baseado em uma única classe. Para viabilizar a pesquisa, coleções de textos escritos em português serão coletadas, preparadas e caracterizadas, disponibilizando à comunidade informações consolidadas sobre coleções rotuladas e disponibilizadas para pesquisa. Por fim, as representações semanticamente enriquecidas serão avaliadas e aplicadas em diferentes problemas práticos de Mineração de Textos, como análise de sentimentos, sistemas de recomendação, detecção de notícias falsas, descoberta baseada em literatura e mineração de eventos. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (3) / Doutorado: (4) . Integrantes: Ricardo Marcondes Marcacini - Integrante / SOLANGE REZENDE - Coordenador / Roberta Akemi Sinoara - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Ricardo Marcondes Marcacini.
14.	2020-Atual. ReSGaT - Representação do Significado e Gramática Transformacional Descrição: Neste projeto pretende-se explorar e desenvolver um método de representação do significado baseado na perspectiva da gramática transformacional de operadores, estabelecendo a ponte entre a análise sintática linear expressa por relações de dependência (dependency parsing) e a determinação das formas de frase da base da gramática (as frases elementares, expressão de predicados semânticos) e dos processos que presidem à sua concatenação num discurso, incluindo os processos de transformação e redução. Um dos objetivos do projeto é a constituição de um corpus de textos anotados com essa informação linguística sob a forma de semilattices (grafos acíclicos), a partir da representação da análise sintática automática (dependency parse tree), na forma de dependências sintático-semânticas (sujeito, complemento, modificador, determinante, etc.). Tal recurso pretende abrir caminho a: (i) uma perspectiva sistemática dos principais fenómenos de concatenação das formas de base do léxico-gramática da língua nas formas efetivamente observadas nas frases dos discursos (ii) a aplicação de métodos de aprendizagem automática a partir dos grafos de dependências produzidos pelos analisadores sintáticos (parse tree) à construção destas representações em lattice; (iii) o cálculo semântico do significado das expressões linguísticas (frases) e sua exploração em diversas aplicações de processamento de língua natural. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (2) / Doutorado: (4) . Integrantes: Roana Rodrigues - Integrante / Jorge Baptista - Integrante / Oto Araújo Vale - Coordenador / Nathalia Perussi Calcia - Integrante / Nuno Mamede - Integrante / Gabriela Wilk Pedro - Integrante / Isaac Souza de Miranda Junior - Integrante / Marcella Monteiro Lemos Couto - Integrante / Ryan Marçal Saldanha Magaña Martinez - Integrante / Larissa Picoli - Integrante. Número de produções C, T & A: 3 Membro: Roana Rodrigues.
15.	2020-2022. SPIRA: Sistema de detecção Precoce de Insuficiência Respiratória por meio de análise de Áudio Descrição: O objetivo deste estudo é desenvolver uma ferramenta que possa detectar precocemente as pessoas com insuficiência respiratória devido a COVID-19 usando dados de fala. Para tanto iremos coletar registros em áudio de pessoas infectadas bem como de pessoas normais, a fim de explorar diferenças associadas à saturação de O2 e à frequência respiratória que permitam distinguir os dois grupos. A ferramenta de classificação automática proposta será baseada em técnicas de inteligência artificial, processamento de sinais e aprendizado de máquina, e servirá inicialmente para facilitar a triagem de pacientes que precisam procurar auxílio médico-hospitalar. Numa segunda etapa, a ferramenta poderá ajudar sistemas de telemedicina a monitorar pacientes de forma contínua, permitindo o acompanhamento da evolução de pacientes internados. Website: https://spira.ime.usp.br/coleta/. Suporte: FAPESP.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (3) / Doutorado: (4) . Integrantes: Sandra Maria Aluísio - Integrante / Marcelo Finger - Coordenador / Arnaldo Candido Junior - Integrante / Anna Sara Levin Shafferman - Integrante / Ester Cerdeira Sabino - Integrante / Alfredo Goldman - Integrante / Flaviane R. Fernandes Svartma - Integrante / Marcelo Gomes de Queiróz - Integrante. Membro: Sandra Maria Aluísio. Descrição: O objetivo deste estudo é desenvolver uma ferramenta que possa detectar precocemente as pessoas com insuficiência respiratória devido a COVID-19 usando dados de fala. Para tanto iremos coletar registros em áudio de pessoas infectadas bem como de pessoas normais, a fim de explorar diferenças associadas à saturação de O$_2$ e à frequência respiratória que permitam distinguir os dois grupos.A ferramenta de classificação automática proposta será baseada em técnicas de inteligência artificial, processamento de sinais e aprendizado de máquina, e servirá inicialmente para facilitar a triagem de pacientes que precisam procurar auxílio médico-hospitalar. Numa segunda etapa, a ferramenta poderá ajudar sistemas de telemedicina a monitorar pacientes de forma contínua, permitindo o acompanhamento da evolução de pacientes internados.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (3) / Doutorado: (4) . Integrantes: Marcelo Finger - Coordenador / Alfredo Goldman - Integrante / Sandra Maria Aluísio - Integrante / Marcelo Gomes de Queiroz - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Marcelo Finger. Descrição: O objetivo deste estudo é desenvolver uma ferramenta que possa detectar precocemente as pessoas com insuficiência respiratória devido a COVID-19 usando dados de fala. Para tanto iremos coletar registros em áudio de pessoas infectadas bem como de pessoas normais, a fim de explorar diferenças associadas à saturação e à frequência respiratória que permitam distinguir os dois grupos. A ferramenta de classificação automática proposta será baseada em técnicas de inteligência artificial, processamento de sinais e aprendizado de máquina, e servirá inicialmente para facilitar a triagem de pacientes que precisam procurar auxílio médico-hospitalar. Numa segunda etapa, a ferramenta poderá ajudar sistemas de telemedicina a monitorar pacientes de forma contínua, permitindo o acompanhamento da evolução de pacientes internados. Processo FAPESP 2020/06443-5.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Marcelo Finger - Coordenador. Membro: Arnaldo Candido Junior.
16.	2020-Atual. TaRSila -- Reconhecimento Automático de Fala e Síntese de Fala no Centro de ia (C4AI) Descrição: The project TaRSila aims at growing speech datasets for Brazilian Portuguese language, looking to achieve state-of-the-art results for the following tasks: (a) automatic speech recognition (ASR) that automatically transcribes speech; (b) multi-speaker synthesis (TTS) that generates several voices from different speakers; (c) speaker identification/verification that selects a speaker from a set of predefined members (speakers seen during the training of the models --- called closed-set scenario --- or in open-set scenario in which the verification occurs with speakers not seen during the training of the models); and (d) voice cloning that uses a few minute/second voice dataset to train a voice model with synthesis methods, which can read any text in the target voice. In TaRSila, we are manually validating speech datasets of academic projects such as: (i) Nurc-Recife (OLIVEIRA JR, 2016); (ii) SP 2010 (MENDES, 2013); (iii) ALIP (GONÇALVES, 2019); and (iv) C-ORAL Brasil (RASO & MELLO, 2012). A collection of life-stories of the Museu da Pessoa (MuPe) is currently being negotiated to be part of our large corpus CORAA (COrpus de Aúdios Anotados) and NURC-SP is under preprocessing (audio-transcription alignment and automatic transcription) to start the human annotation and validation for the purpose of training ASR models. Regarding the tools, we aim to investigate recent deep learning methods for training robust ASR and TTS models for Portuguese. The project also foresees applications in semantic search from speech transcriptions, as well as sentiment analysis and automatic organization of speech datasets into topics. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research. This project was also funded by CEIA with support by the Goiás State Foundation (FAPEG grant \#201910267000527) (http://centrodeia.org/), Department of Higher Education of the Ministry of Education (SESU/MEC), Copel Holding S.A. (www.copel.com), and Cyberlabs Group (https://cyberlabs.ai/). CEIA was responsible for paying the annotation team composed of 63 students from October 2020 to November 2021. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (13) / Mestrado acadêmico: (1) / Doutorado: (2) . Integrantes: Sandra Maria Aluísio - Coordenador / Arnaldo Candido Junior - Integrante / Edresson Casanova - Integrante / Moacir Antonelli Ponti - Integrante / Alessandra Alaniz Macedo - Integrante / Flaviane Romani Fernandes Svartman - Integrante / Heliana Mello - Integrante / José Augusto Baranauskas - Integrante / Livia Oushiro - Integrante / Marli Quadros Leite - Integrante / Miguel Oliveira Jr. - Integrante / Ricardo Marcondes Marcacini - Integrante / Ronald Beline Mendes - Integrante / Sebastião Carlos Leite Gonçalves - Integrante / Solange Oliveira Rezende - Integrante / Tommaso Raso - Integrante. Membro: Sandra Maria Aluísio.
17.	2020-Atual. TaRSila: Reconhecimento Automático de Fala e Síntese de Fala no Centro de Inteligência Artificial (C4AI) Descrição: The project TaRSila aims at growing speech datasets for Brazilian Portuguese language, looking to achieve state-of-the-art results for the following tasks: (a) automatic speech recognition (ASR) that automatically transcribes speech; (b) multi-speaker synthesis (TTS) that generates several voices from different speakers; (c) speaker identification/verification that selects a speaker from a set of predefined members (speakers seen during the training of the models - called closed-set scenario --- or in open-set scenario in which the verification occurs with speakers not seen during the training of the models); and (d) voice cloning that uses a few minute/second voice dataset to train a voice model with synthesis methods, which can read any text in the target voice. In TaRSila, we are manually validating speech datasets of academic projects such as: (i) Nurc-Recife (OLIVEIRA JR, 2016); (ii) SP 2010 (MENDES, 2013); (iii) ALIP (GONÇALVES, 2019); and (iv) C-ORAL Brasil (RASO MELLO, 2012). A collection of life-stories of the Museu da Pessoa (MuPe) is currently being negotiated to be part of our large corpus CORAA (COrpus de Aúdios Anotados) and NURC-SP is under preprocessing (audio-transcription alignment and automatic transcription) to start the human annotation and validation for the purpose of training ASR models. Regarding the tools, we aim to investigate recent deep learning methods for training robust ASR and TTS models for Portuguese. The project also foresees applications in semantic search from speech transcriptions, as well as sentiment analysis and automatic organization of speech datasets into topics. This project is part of the Natural Language Processing initiative (NLP2) of the Center for Artificial Intelligence (C4AI) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). The center is part of the FAPESP Engineering Research Centers Program and is committed to state-of-the-art research in Artificial Intelligence, exploring both foundational issues and applied research. This project was also funded by CEIA with support by the Goiás State Foundation (FAPEG grant \#201910267000527) (http://centrodeia.org/), Department of Higher Education of the Ministry of Education (SESU/MEC), Copel Holding S.A. (www.copel.com), and Cyberlabs Group (https://cyberlabs.ai/). CEIA was responsible for paying the annotation team composed of 63 students from October 2020 to November 2021.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (13) / Mestrado acadêmico: (1) / Doutorado: (2) . Integrantes: Arnaldo Candido Junior - Coordenador / Sandra Maria Aluísio - Integrante. Membro: Arnaldo Candido Junior.
18.	2020-2024. Towards Socially Responsible and Explainable Hate Speech Detection (University of São Paulo) Descrição: Hate speech have a surely negative impact on society especially in conflict-affected areas and politically polarized countries. In essence, there are longstanding and ingrained social, cultural, political, ethnic, religious or other divisions and rivalries fueling hate speech, boosted often by misinformation through a sophisticated unbelief system, including propaganda and conspiracy theories. In regard to this, a wide range of hate speech detection models have been proposed. Nevertheless, although Natural Language Processing (NLP), traditionally, have been mostly based on techniques that are inherently explainable (also known as white box techniques, such as rules-based algorithms, decision trees, hidden Markov models, logistic regressions, and others), after the advent and popularity of Large-Scale Language Models (LLMs) (also known as black box techniques), and the use of language embeddings as features, theses recent models becoming less interpretable. As a result, most existing hate speech detection models are not able to explain their decisions by providing relevant rationales (explanations) for their predictions. It highlights a lack of transparency posing unwanted risks as the prevalence of unintended biases, which has been recently identified as a major concern for the field. For example, social bias in hate speech technologies may reinforce discrimination against groups based on their social identity when propagated at scale. To fill these relevant gaps, this project introduces a study on hate speech detection language technologies and their potential ethical implications. Specifically, we aim propose methods for hate speech detection to ensure that the data, and models are explainable and socially responsible. Finally, we hope that our study, data resources and methods may boost hate speech research, mainly contributing to the ongoing discussion on responsible AI, explainability and interpretability, and fairness in natural language processing and machine learning.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Francielle Alves Vargas - Coordenador / Thiago Alexandre Salgueiro Pardo - Integrante / Ali Hürriyetoğlu - Integrante / Fabiana Góes - Integrante / Isabelle Carvalho - Integrante / Fabrício Benevenuto - Integrante / Kokil Jaidka - Integrante / wolfgang schmeisser - Integrante / diego alves - Integrante / Isadora Alves Salles - Integrante / Ameeta Agrawal - Integrante. Membro: Francielle Alves Vargas.

2019

1.	2019-2023. ( FAPESP Regular ) World Wide Web of Plankton Image Curation Descrição: Scientific research is generating an increasing number of digital images, from micrographs of cells to pictures of galaxies. Automated instruments can capture many images, which are then processed automatically to extract data from them. For this data to be useful to the scientific community and benefit the general public, it needs to be fast to generate (even for millions of images), consistent, and easy to share. In environmental sciences, common questions are: how many organisms are present in a given environment? How diverse are they? Does that change in time? Digital imaging can help answer these questions, particularly underwater, where direct observation by humans is difficult. For example, images of billions of planktonic organisms (i.e., the organisms that drift with ocean currents) have been taken and need to be analysed. Plankton largely contributes to the regulation Earth's climate, the production of the oxygen we breathe, the feeding of the fish we eat, etc. Estimating its abundance and diversity is therefore critical. Yet, efforts to process and classify images for such ecological studies have been scattered and not interoperable. The main goal of this project is to build a World Wide Web of Plankton Image Curation applications (WWW.PIC) that collect images of plankton, allow scientists to name them consistently, store associated ecological information (such as time, location, etc.), and make all data easily accessible to the community. It will leverage cutting edge advances in database design and machine learning to process billions of images, will be hosted on public web servers to be easily accessible, and will foster an atmosphere of collaboration and sharing that the Belmont Forum values and, we think, is essential for the progress of science. Then, we will use this network of applications to tackle studies that have proved challenging without it, such as fast plankton monitoring to assess ecosystem health, or global estimations of the distribution of planktonic diversity and its contribution to carbon storage or ecosystem productivity.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Coordenador / Roberto Hirata Jr. - Integrante / Rubens Mendes Lopes - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata.
2.	2019-2021. Aprendendo características de conteúdo visual sob condições de supervisão limitada utilizando múltiplos domínios Descrição: Métodos de aprendizado de características alcançaram o estado da arte em diversas aplicações, em particular em dados de um único domínio, mas também com resultados relevantes em bases de dados de domínios cruzados. Como coletar e rotular dados pode ser custo e, em alguns cenários, impossível, é fundamental investigar métodos que possam trabalhar com supervisão limitada ou sem supervisão. Nesse projeto trataremos o problema do aprendizado de caracter[iticas a partir de sinais, imagens e vídeos, sob supervisão limitada. Serão abordados ambos os problemas de encontrar uma imersão para um conjunto de dados, mas também entre domínios, o que significa encontrar estratégias para casar conteúdo de uma dada tarefa ao longo de diferentes dados ou domínios. Pretende-se contribuir investigando novos modelos e arquiteturas alternativas aos métodos correntes, incluindo modelos geradores, auto-encoders e outros, que permitam vencer os atuais desafios.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (2) / Doutorado: (2) . Integrantes: Moacir Antonelli Ponti - Coordenador / John Collomosse - Integrante / Leonardo Sampaio Ferraz Ribeiro - Integrante / Patrícia Bet - Integrante / Fernando Pereira dos Santos - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Número de produções C, T & A: 1 Membro: Moacir Antonelli Ponti.
3.	2019-2022. Aprendizado de Websensors para Agronegócios Descrição: O agronegócio é uma das principais atividades econômicas do Brasil, representando anualmente (desde 2006) uma média de 21 do PIB brasileiro, acumulando um crescimento de 4,4 em 2016, mesmo em período de recessão econômica. Por outro lado, a cadeia produtiva do agronegócio é considerada complexa devido aos muitos fatores envolvidos, como efeitos climáticos, controle de pragas e doenças, controle de insumos (e.g. fertilizantes, sementes, defensivos, vacinas e máquinas), serviços de crédito (e.g. câmbio e taxas de juros), as atividades de produção de agricultura e pecuária propriamente ditas; e as etapas pós-produção, como embalagem, armazenagem, industrialização, transporte e distribuição. Esta diversidade de fatores é responsável pelo conceito de riscos e incertezas da cadeia produtiva do agronegócio, com a principal consequência de que o preço de venda durante a etapa de comercialização foge ao controle do produtor. Assim, uma gestão moderna do agronegócio incorpora instrumentos para gerenciamento de riscos com o objetivo de amenizar tais incertezas e conferir uma estabilidade mínima ao produtor. Nesse contexto, o gerenciamento de riscos com uso de mercado de futuros, como a Bolsa de Mercadorias e Futuros da BOVESPA (BMF-BOVESPA) tem se tornado cada vez mais popular, atingindo 1.860.877 contratos de derivativos relacionados ao agronegócio em 2016. Neste mercado, o produtor (avesso ao risco) transfere o risco de oscilação do preço para empresas e/ou indivíduos que operam no mercado de futuros e que esperam receber um prêmio para assumir tal risco. Definir boas estratégias de gerenciamento de riscos depende de um conjunto adequado de informações sobre problema para determinar intervalos de variação de preços no futuro. Neste projeto é proposto um produto denominado Websensors Analytics para inovar o gerenciamento de riscos em agronegócios. Websensors é um framework de aprendizado de máquina com o diferencial de coletar e combinar grandes bases de informações disponíveis em diversas fontes sobre agronegócios, como notícias e boletins especializados, e utilizar tais bases de dados em conjunto com indicadores oficiais (como cotações de preços) para melhorar tarefas de análise preditiva de preços. Esta proposta de inovação tecnológica é baseada em 4 anos de pesquisa na área, com resultados promissores para apoiar o desenvolvimento deste produto. Além da ausência de produtos nacionais similares nesta área específica, o agronegócios está em acentuada expensão e exigirá cada vez mais de soluções inovadoras para aumentar a eficiência deste setor... Situação: Concluído; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Maria Fernanda Moura - Integrante / Bruno Nogueira - Integrante / Rafael Geraldeli Rossi - Integrante / Ricardo Marcondes Marcacini - Coordenador / Edson Takashi Matsubara - Integrante / Eraldo Luiz Rezende Fernandes - Integrante / Rafael Giusti - Integrante. Membro: Solange Oliveira Rezende. Descrição: Período: 01/03/2019 até 01/03/2021 Coordenador: Ricardo M. Marcacini Processo: 426663/2018-7 Financiador: CNPq. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (3) / Doutorado: (2) . Integrantes: Ricardo Marcondes Marcacini - Coordenador / Rafael Geraldeli Rossi - Integrante / BRUNO MAGALHÃES NOGUEIRA - Integrante / Edson Takashi Matsubara - Integrante / Solange O. Rezende - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Ricardo Marcondes Marcacini.
4.	2019-2023. Big Oil - NLP Descrição: O projeto BigOil-NLP é o resultado de uma parceria de pesquisa e desenvolvimento, entre a Petrobras, o Laboratório ICA (Inteligência Computacional Aplicada - Departamento de Engenharia da PUC-Rio), e o Departamento de Letras da PUC-Rio, que teve início em 2019. O projeto consiste na criação de um corpus anotado, multicamadas, cuja intenção é se tornar um material de referência para o PLN de língua portuguesa, tendo vista especialmente, mas não exclusivamente, aplicações vinculadas à extração de informação na área de óleo gás.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (1) . Integrantes: Maria Cláudia de Freitas - Coordenador / SOUZA, MARCO AURÉLIO SILVA - Integrante / Leonardo Alfredo Forero Mendoza - Integrante. Número de produções C, T & A: 6 Membro: Maria Cláudia de Freitas.
5.	2019-2020. Contexto Político e Clareza de Responsabilização dos Governadores Descrição: Este projeto de iniciação científica tem por objetivo contribuir para a construção do banco de dados e de estudos sobre a "clareza de responsabilidade" dos governadores dos estados brasileiros. Estudos anteriores sobre os resultados das políticas fiscais e eleições estaduais examinaram apenas a disputa para o cargo de governador, sem referência ao controle partidário da legislatura.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Pedro Henrique De Santana Schmalz - Coordenador / George Avelino Filho - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Membro: Pedro Henrique De Santana Schmalz.
6.	2019-2024. Descrição e análise de construções verbais da língua espanhola Descrição: Os fenômenos linguísticos que têm como elemento nuclear o verbo são abundantes e diversos nas línguas naturais. Neste projeto de pesquisa, propõe-se a descrição e análise linguística de fenômenos em nível sintático-semântico da língua espanhola. O projeto se organiza em três eixos principais: (i) construções verbais locativas: argumentos e preposições; (ii) tipologia dos verbos multifuncionais do espanhol; (iii) expressões cristalizadas verbais da língua espanhola. Os resultados contribuem com o avanço do estado da arte, além de estabelecerem interfaces com a Linguística Computacional e a Linguística Aplicada, no desenvolvimento de recursos descritivos sistemáticos e na sua utilização para a elaboração de materiais didáticos de espanhol como língua estrangeira (ELE) para brasileiros. Além de trabalhos de conclusão de curso, estão relacionadas a este projeto as seguintes pesquisas de iniciação científica (PIBIC) cadastradas na UFS: (i) Aprimoramento da base de dados LGLE: Léxico-Gramática dos verbos Locativos do Espanhol; e (ii) Estudo, construção e análise de corpora paralelos do par Espanhol-Português. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (8) / Mestrado acadêmico: (3) . Integrantes: Roana Rodrigues - Coordenador / João Paulo Santos Andrade - Integrante / Maria Caroline dos Santos Fonseca - Integrante / Livia Maria Leite Nunes - Integrante / Leonardo Matias Gomes - Integrante / Marquize Silva dos Santos - Integrante / Sônia de Ávila Santos - Integrante / Lavinia Karolayne dos Santos - Integrante / Ana Caroline dos Santos Vieira - Integrante / Vitória Cavalcante Silva - Integrante / Ana Beatriz Nunes Silva - Integrante / Bruna Gabriele Moraes Silva - Integrante / Juliana Cardoso dos Santos - Integrante / Mirielly Costa da Silva - Integrante. Número de produções C, T & A: 26 Membro: Roana Rodrigues.
7.	2019-2019. Ferramenta de visão computacional para alerta de rompimento de barragens de rejeito de minério Descrição: Criar um software de visão computacional em tempo real crítico capaz de identificar se há desmoronamento de uma barragem. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Especialização: (0) / Mestrado acadêmico: (1) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Jose Luiz Maciel Pimenta - Integrante / Fernando Paim Lima - Coordenador / Paloma Maira de Oliveira Lima - Integrante / Bruna Mendes - Integrante. Membro: Jose Luiz Maciel Pimenta.
8.	2019-Atual. Gestão da Informação de do conhecimento no âmbito do Portfólio de pastagens da Embrapa Descrição: Descrição: O projeto tem como objetivo mapear o conhecimento, as informações e os dados gerados sobre o domínio "pastagens", com ênfase no subtema "recuperação de pastagens" - incluindo um diagnóstico do ambiente externo -, para subsidiar a gestão estratégica da informação no âmbito do Portfólio de Pastagens. Para isso, aplicará técnicas e ferramentas da Gestão do Conhecimento e da Informação, bem como da Socioeconomia, para oferecer ao Portfólio estudos que norteiem as tomadas de decisão do comitê gestor, no sentido de acelerar o processo de inovação neste tema... Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (1) . Integrantes: Solange Oliveira Rezende - Integrante / Maria Feranda Moura - Integrante / Leandro Henrique Mendonça de Oliveira - Integrante / Milena Ambrosio Telles - Coordenador. Membro: Solange Oliveira Rezende.
9.	2019-2021. Letramentos acadêmicos: Geração de subsídio linguístico-computacional para ferramentas automáticas de auxílio à escrita acadêmica Descrição: No Ensino Superior, admite-se que os alunos já são/estão alfabetizados em suas línguas maternas (neste caso, o português), porém, não-letrados em Gêneros Textuais (GT) específicos que circulam nessa esfera social, especialmente os recém-ingressantes. Em paralelo a isso, percebe-se um aumento no uso de ferramentas e/ou dispositivos eletrônicos que podem ser utilizados como mecanismos de elaboração de textos, sobretudo com conectividade à Web, resultante de processos de democratização do conhecimento. Isso evidencia que os usuários dessas ferramentas são letrados nestas práticas sociais eletrônicas, porém deparam-se com diversas limitações cognitivas (como organização do discurso) e processuais de elaboração de textos formais (como a identificação de categorias formais) que pertencem aos GTs acadêmicos. Nesse sentido, é necessário elaborar ferramentas computacionais que auxiliem o aluno ingresso no Ensino Superior a dominar as práticas sociais inerentes à elaboração de textos científicos. Entretanto, essas ferramentas devem ser concebidas dentro de uma perspectiva de ensino-aprendizagem, como característica dos Letramentos Acadêmicos, em que se percebe a escrita como processo entre interlocutores (produtor e receptor), não apenas na composição estilística do texto. Para tanto, é imprescindível que haja pesquisas na área de Processamento Automático de Línguas Naturais (PLN) para a geração de subsídios linguístico-computacionais, como corpora, léxico e gramáticas específicas, os quais serão necessários à geração dessas ferramentas. Como resultado final, além dos próprios avanços teórico-metodológicos da área de PLN, fornecendo ferramentas e repositórios com informações linguísticas estruturadas computacionalmente, espera-se contribuir com a área de Letramentos Acadêmicos, especificamente com a criação de uma ferramenta linguístico-computacional que reflita com os pressupostos teóricos da área em questão.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) . Integrantes: Jackson Wilke da Cruz Souza - Coordenador. Número de produções C, T & A: 4 Membro: Jackson Wilke da Cruz Souza.
10.	2019-2020. LexPorBr Infantil Descrição: LexPorBr Infantil: Compilação de um corpus tripartido (textos didáticos para serem lidos por crianças, textos ouvidos por crianças em filmes e series infantis e textos escritos por crianças em competições de redações) e disponibilização pública via interface online com métricas para pesquisas da área de psicolinguística, linguística computacional, dentre outras. Joint Project involving researchers of ICMC/USP, UFABC, UFPB.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Doutorado: (1) . Integrantes: Sandra Maria Aluísio - Coordenador / Nathan Siegle Hartmann - Integrante / Katerina Lukasova - Integrante / Maria Teresa Carthery-Goulart - Integrante / Gustavo Estivalet - Integrante / Vanessa Marquiafável SERRANI - Integrante. Membro: Sandra Maria Aluísio.
11.	2019-Atual. Plataforma de Gerenciamento de Provas Virtuais Descrição: Uma plataforma web completa para gerenciamento de provas virtuais com o diferencial de incorporar provas adaptativas, inteligência artificial para apoiar correção de questões discursivas e detecção de plágio, bem como integração com ferramentas de acessibilidade para deficiência auditiva e visual.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Ricardo Marcondes Marcacini - Coordenador / Rafael Geraldeli Rossi - Integrante / Cristiano Costa Argemon Vieira - Integrante. Financiador(es): CAPES - Centro Anhanguera de Promoção e Educação Social - Auxílio financeiro. Membro: Ricardo Marcondes Marcacini.
12.	2019-2021. RASTROS: Um grande corpus com medidas de RASTReamento Ocular e normas de previsibilidade durante a leitura de estudantes do ensino Superior no Brasil Descrição: Currently, eye tracking corpora are often used in studies of language structure processing costs to, for example, (i) evaluate models and metrics of syntactic difficulty, (ii) improve or evaluate computational models of simplification via sentential compression, and (iii) evaluate the quality of machine translation with objective metrics. However, there are only few of these corpora for a small number of languages, for example: English (Luke and Christianson, 2018; Cop et al., 2017), English and French (Kennedy et al., 2013), German (Kliegl et al.., 2004), Russian (Laurinavichyute et al., 2018), Hindi (Husain et al., 2015) and Chinese (Yan et al., 2010). For Portuguese, there is no large eye tracking corpus with predictability norms like those mentioned above. This is a gap that hinders the advance of research in the areas of Cognitive Psychology, Psycholinguistics and Natural Language Processing (NLP) in Portuguese. In this project, we have two objectives: (i) to create and make publicly available a large corpus with eye tracking movements of short paragraphs during silent reading in Portuguese, by undergraduate students in Brazil, together with predictability norms that estimate the predictability of orthographic form, morphosyntactic and semantic information for each word in the paragraph, via a Cloze test, and (ii) to contribute to the dissemination of research using the eye movement techniques in the Psycholinguistics and PLN research areas. The methodology for developing the RastrOS corpus follows the same steps of the Provo project (Luke and Christianson, 2018), which used: (i) short paragraphs of various genres; (ii) the reading of 55 paragraphs for the eye tracking test and 5 paragraphs for the Cloze test; and (iii) each word of the corpus being read by at least 40 students. For RastrOS, the 50 paragraphs of the corpus were taken from various sources in journalistic, literary and popular science genres, at a rate of 40% for newspaper articles, 20% for literary texts and 40% for popular science communication. The 50 paragraphs were selected from a corpus larger than 100 paragraphs to account for the greatest diversity of linguistic factors relevant for processing cost assessment, reflected in the reading process: structural complexity of the period (simple vs. compound periods); verbal transitivity; sentence types (active / passive / relative); mechanisms of construction of correlation relations, among others. RastrOS uses a highly accurate eye-tracker - the EyeLink 1000 Desktop. Stimulus presentations were done by Experiment Builder software, data processing has been done by Data Viewer. We are evaluating 4 semantic similarity methods: (i) LSA (Landauer e Dumais 1997) and (ii) BERT (Devlin et al., 2019) trained with the corpus brWaC (Wagner Filho et al., 2018), (iii) Word2vec (Mikolov et al., 2013) and (iv) FastText (Bojanowski, et al., 2017) trained with the corpus PUC-RS that includes brWaC, BlogSet-BR (Santos et al., 2018) and a Brazilian Portuguese Wikipedia dump from March 2019. The words are annotated with morphosyntactic categories of the PALAVRAS parser (https://visl.sdu.dk/) with human revision.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (1) Doutorado: (1) . Integrantes: Sandra Maria Aluísio - Coordenador / Maria da Graça Pimentel - Integrante / Gustavo Henrique Paetzold - Integrante / Elisângela Nogueira Teixeira - Integrante / Erica dos Santos Rodrigues - Integrante / Renê Alberto Moritz da Silva e Forster - Integrante / Katerina Lukasova - Integrante / Maria Teresa Carthery-Goulart - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Sandra Maria Aluísio.

2018

1.	2018-2022. ( FAPESP PITE Regular ) Interpretação de imagens e de modelos de aprendizado profundos Descrição: Um objetivo central na área de Visão Computacional é a interpretação de imagens. Em geral, aspectos de aparência são usados para detectar os componentes de interesse e então as relações espaciais e hierárquicas entre eles são usadas para "descrever" o conteúdo de uma imagem no nível semântico de interesse. Os modelos profundos atuais atingiram um estágio de evolução tal que são capazes de aprender e transferir características de baixo nível de um domínio para outro. No entanto, informações estruturais das imagens tais como as relações espaciais e hierárquicas entre os componentes são ainda modeladas explicitamente usando detalhes específicos de casos. Isto faz com que os modelos sejam mais difíceis de serem interpretados, útil apenas para poucas aplicações específicas, e as implicações sobre o esforço no preparo de dados de treinamento ainda não é claro. O objetivo deste projeto é o desenvolvimento de modelos profundos "structure-aware-semantics-unaware", com habilidade de aprender e codificar informações estruturais independentemente do nível semântico dos componentes. Isto impactaria o entendimento desses modelos (uma vez que as informações estruturais estariam mais explicitamente representadas) e os requisitos relativos aos dados de treinamento (uma vez que seria possível a transferência). Estão planejados estudos teóricos, o desenvolvimento de estratégias de visualização e de novos modelos profundos, e experimentação em relação a diversas tarefas de visão computacional.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (3) / Doutorado: (2) . Integrantes: Nina Sumiko Tomita Hirata - Coordenador / JULCA-AGUILAR, FRANK D. - Integrante / MOUCHERE, HAROLD - Integrante / Roberto Hirata Junior - Integrante / Alexandru Cristian Telea - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata.
2.	2018-Atual. [CNPq Universal - Faixa B] MultiMaps: Aprendizado de Representações Profundas para Mapeamento Geográfico em Larga Escala Descrição: A criação de mapas temáticos utilizando Imagens de Sensoriamento Remoto (ISRs) como fonte de dados geralmente é modelada como um problema de classificação supervisionada. Muitos desafios computacionais estão associados à natureza das ISRs em que pode-se ressaltar: (1) são imagens georreferenciadas, ou seja cada pixel possui uma coordenada geográfica associada; (2) geralmente codificam muito mais que informação no espectro visível (R,G,B), o que exige o desenvolvimento de abordagens específicas para descrever padrões; (3) os dados podem variar quanto à resolução espacial alterando o nível de detalhe dos padrões e; (4) muitas aplicações tendem a exigir análise de dados espaço-temporais, com várias imagens do local de estudo ao longo do tempo. Assim, é muito frequente ter imagens obtidas a partir de diferentes sensores, o que pode melhorar a qualidade dos mapas temáticos gerados, mas exige a criação de técnicas capazes de codificar e combinar adequadamente as diferentes propriedades das imagens. Nesse contexto, o desenvolvimento de técnicas baseadas em aprendizado profundo têm sido revolucionário mas tem uma limitação: geralmente requerem muitas amostras para treinamento. A anotação de pixels na maioria das aplicações de ISRs depende de usuários especialistas, é custosa e inviável em algumas situações. Assim, a dificuldade de criação de grandes conjuntos de dados anotados para classificação supervisionada limita o uso da maioria das abordagens do estado da arte em reconhecimento de padrões por meio de aprendizado supervisionado. Desse modo, este projeto visa tratar o problema de reconhecimento de padrões para criação de mapas temáticos via aprendizado supervisionado em grandes conjuntos de imagens a partir de pequenos conjuntos de dados anotados. A pesquisa focará esforços em três frentes principais: (1) novos métodos para aprendizado de características com foco em propriedades de imagens de sensoriamento remoto; (2) algoritmos para transferência de conhecimento para explorar bases de imagens existentes como ponto de partida para reconhecimento de padrões e reduzir a necessidade de novas amostras anotadas por usuários especialistas; e (3) novas abordagens para aprendizado e fusão de representações a partir de múltiplas resoluções no espaço, tempo e espectro eletromagnético.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Hugo Neves de Oliveira - Integrante / Jefersson Alex dos Santos - Coordenador / William Robson Schwartz - Integrante / Ricardo da Silva Torres - Integrante / Rodrigo Affonso de Albuquerque Nobrega - Integrante / Britaldo Silveira Soares Filho - Integrante / Renato Martins Assunção - Integrante. Membro: Hugo Neves de Oliveira.
3.	2018-Atual. [FAPEMIG Universal] LittleBigData: Reconhecimento de padrões em grandes bases de imagens utilizando pequenos conjuntos de dados anotados Descrição: A área de reconhecimento de padrões em imagens vêm obtendo diversos avanços nos últimos anos. O desenvolvimento de tecnologias como as abordagens baseadas em aprendizado profundo (deep learning) têm estabelecido o estado da arte em diversas aplicações de Visão Computacional. No entanto, essas abordagens necessitam de grandes conjuntos de amostras para treinamento e isso impossibilita seu uso direto para resolver problemas em áreas mais específicas como medicina, forense digital, agricultura ou biodiversidade. A anotação de amostras nas principais aplicações dessas áreas deve ser feita por usuários especialistas (médicos, peritos, pesquisadores, etc). Esse processo geralmente é custoso e até mesmo inviável em diversas ocasiões. Detecção de câncer, por exemplo, depende do diagnóstico e do registro preciso de diversos pacientes ao longo dos anos para a obtenção de um conjunto de amostras representativo. Em aplicações agrícolas e de biodiversidade é comum a necessidade de deslocar equipes de especialistas em áreas de difícil acesso para anotar adequadamente uma determinada espécie de planta. Desse modo, esse projeto propõe o desenvolvimento de novas abordagens para lidar com o reconhecimento de padrões em aplicações que requerem o processamento de grande conjuntos de imagens mas que possuem restrição com relação à quantidade de amostras disponíveis. A pesquisa focará esforços nas seguintes frentes visando mitigar os problemas do aprendizado supervisionado à partir de poucas amostras em grandes bases de imagens: (1) estudo e desenvolvimento de técnicas para transferência de conhecimento de bases préexistentes como forma de enriquecer o conjunto de amostras inicial; (2) estudo de algoritmos e estruturas de indexação de imagens para garantir escalabilidade das abordagens desenvolvidas; e (3) desenvolvimento de abordagens baseadas em aprendizado ativo para auxiliar usuários especialistas na anotação de amostras relevantes.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Hugo Neves de Oliveira - Integrante / Jefersson Alex dos Santos - Coordenador / Alexei Manso Corrêa Machado - Integrante / Arnaldo de Albuquerque Araujo - Integrante / William Robson Schwartz - Integrante / Silvio Jamil Ferzoli Guimarães - Integrante / Mário Sérgio Ferreira Alvim Jr - Integrante. Membro: Hugo Neves de Oliveira.
4.	2018-2019. A variação diatópica léxico-semântica mexicana: tratamento em dicionários monolíngues e de regionalismos de língua espanhola Descrição: Ainda que a Lexicografia seja uma área de inestimável relevância, historicamente, seu estudo não recebeu suficiente atenção na formação de professores de espanhol como língua estrangeira no Brasil. Por outro lado, é inegável a importância que as obras lexicográficas têm no ensino-aprendizagem de uma língua estrangeira. Na expectativa de aumentar o conhecimento de nossos graduandos sobre esta área muitas vezes marginada da linguística e que tem um grande papel no ensino da língua espanhola, propomos este projeto. Nele, pretendemos também investigar outro aspecto muitas vezes marginado ou tratado superficialmente nos cursos de formação de professores de espanhol: os regionalismos. Dada a rica e extensa variedade dessa língua, é frequente que os alunos passem pela graduação sem conhecer mais a fundo aspectos mais específicos de determinada região. Assim, nesta proposta, visamos adentrar os alunos de graduação em dois eixos que possibilitarão, por um lado, a formação na Lexicografia, de fundamental importância para os futuros docentes, e, por outro, na análise léxico-semântica de uma parte significativa da variedade espanhola: os mexicanismos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) . Integrantes: Roana Rodrigues - Integrante / Sabrina Lafuente Gimenez - Coordenador / João Paulo Santos Andrade - Integrante / Maria Caroline dos Santos Fonseca - Integrante / Marcia Gabrielle de Santana - Integrante. Número de produções C, T & A: 5 Membro: Roana Rodrigues.
5.	2018-2019. Carro verde: uma arcabouço de coleta e descoberta de informações na Web Descrição: Projeto certificado pela empresa IDEALIZE PESQUISA E DESENVOLVIMENTO LTDA em 29/08/2018.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) / Doutorado: (1) . Integrantes: Jose Luiz Maciel Pimenta - Integrante / Bruno Ferreira - Coordenador / Raí Caetano de Jesus - Integrante / Luciana Lourdes Silva - Integrante / João Paulo Fernandes de Cerqueira César - Integrante / Renan Airton Batista Ribeiro - Integrante / Igor Antônio Pedroso - Integrante / Washington Santos da Silva - Integrante. Membro: Jose Luiz Maciel Pimenta.
6.	2018-2019. Desenvolvimento de Algortimo de Interpretação de Escrita no Contexto de Avaliação, alinhada à Base Nacional Comum Curricular Descrição: O objetivo do projeto é desenvolver anotação e análise de corpus, regras e modelos de linguagem que subsidiem a construção de uma ferramenta de devolutiva pedagógica em tempo real e um algoritmo de avaliação alinhado aos critérios da matriz de avaliação da Base Nacional Comum Curricular. O produto do projeto será incorporado a um serviço pedagógico de escrita e letramento a ser oferecido a alunos e professores de escolas públicas e privadas como um componente-chave para a avaliação e melhoria do letramento no Brasil.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (1) . Integrantes: Ariani Di Felippo - Coordenador / Dayse Simon Landim Kamikawachi - Integrante / Alessandro Y. Bokan Garay - Integrante / Luis Henrique Martins Junqueira - Integrante / Erick Rocha Fonseca - Integrante / Milena Cardoso França - Integrante / Renata Ramisch - Integrante / Pedro Ferreira Martins - Integrante / Verônica Gomes Lima - Integrante. Financiador(es): Instituto Euvaldo Lodi - DF - Bolsa / Instituto Euvaldo Lodi - DF - Auxílio financeiro. Número de produções C, T & A: 6 Membro: Ariani Di Felippo.
7.	2018-Atual. Inteligência Computacional Aplicada à Agroindústria Descrição: Vinculado ao Grupo de Pesquisa GIC (Grupo de Inteligência Computacional), cujo o principal objetivo é a investigação de métodos e técnicas no escopo da inteligência computacional aplicado à agroindústria, para auxiliar a resolução de problemas reais e no processo de tomada de decisão, focalizando principalmente os temas: Integração software e hardware (coleta de dados), Análise Inteligente de Dados, Processamento de Imagens, Descoberta de Conhecimento em Grandes Bases de Dados (Mineração de Dados) e bases de documentos textuais (Mineração de Textos), Aprendizagem de Máquina e Reconhecimento de Padrões.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Pedro Luiz de Paula Filho - Coordenador / Hamilton Pereira da Silva - Integrante. Membro: Arnaldo Candido Junior.
8.	2018-2023. Interfaces Prosódias - PROFACES Descrição: A difusão dos conhecimentos dos aspectos prosódicos das línguas em si tem implicações positivas em diversos domínios dos estudos da fala em áreas de humanas, biomédicas e tecnológicas (letras, linguística, fonoaudiologia, música, engenharia elétrica, processamento de sinais, segurança nacional e segurança pública, reconhecimento de voz, criminologia, tecnologia para não videntes). O projeto "Prosódia e Interfaces", abrigado na Associação de Linguística e Filologia da América Latina (ALFAL), tem por objetivo promover debates que abordem temas no campo de investigação da prosódia, abrigando subprojetos com perspectiva interdisciplinar.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Miguel Oliveira Jr - Coordenador / Regina Celia Fernandes Cruz - Integrante / Plínio Barbosa - Integrante / Sandra Madureira - Integrante / Philippe Boqula de Mareüil - Integrante / Albert Rilliard - Integrante / Hansjörg Mixdorff - Integrante / Heliana Melo - Integrante / João Moraes - Integrante / Letícia Rebollo Couto - Integrante / Oliver Niebuhr - Integrante / Takakki Shochi - Integrante / Tommaso Raso - Integrante / Zuleica Camargo - Integrante. Número de produções C, T & A: 32 / Número de orientações: 1 Membro: Miguel Oliveira Jr.
9.	2018-2023. Linguística Computacional para as Humanidades - CAPES/PRINT Descrição: O projeto Linguística Computacional para as Humanidades é o desdobramento de uma bem sucedidacolaboração com a Linguateca (centro distribuído responsável por alavancar o estado da arte daLinguística Computacional no que se refere à língua portuguesa, financiado pelo MCT de Portugal) que já dura mais de 10 anos; com a Universidade de Oslo, tendo em vista o igualmente longo trabalho deparceria com a professora Diana Santos, que incluem projetos conjuntos e co-orientações, com aSouthern Denmark University, e com a iniciativa européia COST Action: Distant Reading for EuropeanLiterary History, à qual estou vinculada. O projeto se insere na área das Humanidades Digitais (HDs),tendo interdisciplinaridade e inovação como características principais. As HDs são uma nova abordagem para as Humanidades, baseada nos princípios de abertura de dados, compartilhamento einterdisciplinaridade, e que, ao fazer uso intensivo de recursos e ferramentas digitais, é capaz de abrirpossibilidades de investigação e análise. No âmbito do referido projeto, tomamos como objeto de análise grandes acervos textuais: se por um lado a linguagem é um rico repositório de informações sobre nossas práticas, por outro, sabemos que essas informações se distribuem pelos textos de maneira nãoestruturada (são dados não-estruturados) e por isso a relevância do processamento automático comoauxiliar da análise humana. Em termos gerais, o projeto prevê a exploração de grandes acervos detexto, cuja leitura convencional seria inviável e pouco confiável. O projeto tem como objetivo geral acriação de um cenário para a exploração e análise de acervos de especial relevância para asHumanidades. Como método, serão utilizadas, de maneira complementar, técnicas de distant-reading ede close-reading. Para tanto, o projeto se distribui em 2 linhas de atuação: curadoria e preparação doacervo, para que seja processado automaticamente; e desenvolvimento de recursos e ferramentas paraa exploração e análise do material. Reconhecendo a relevância dos princípios de compartilhamento edados abertos, o projeto prevê ainda que boa parte dos recursos e ferramentas desenvolvidosincorporará modelos multilíngues de análise linguística, como o projeto Universal Dependencies, do qual sou participante. Como resultados adicionais do projeto, temos como meta avançar na formação derecursos humanos em uma área promissora e interdisciplinar, que ainda avança no Brasil mas que jávem se consolidando internacionalmente.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (2) Doutorado: (1) . Integrantes: Maria Cláudia de Freitas - Coordenador / Diana Santos - Integrante / Helena Franco Martins - Integrante / Liana Biar - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Outra. Número de produções C, T & A: 8 Membro: Maria Cláudia de Freitas.
10.	2018-2023. O papel da prosódia no processamento da estrutura do discurso: Estudos com técnicas experimentais on-line Descrição: O objetivo geral da presente proposta é investigar o papel da prosódia no processamento da estrutura do discurso em língua portuguesa e libras, mediante a utilização de testes comportamentais e de técnicas on-line específicas: rastreamento ocular e eletroencefalografia.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (2) . Integrantes: Miguel Oliveira Jr - Coordenador / Ebson Wilkerson da Rocha Silva - Integrante / Oyedeji Musiliyu - Integrante / Fernanda Ferreira - Integrante / Ayane Nazarela Santos de Almeida - Integrante / Tamara Swaab - Integrante / Arthur Ronald Brasil Terto - Integrante / Humberto Meira de Araújo Neto - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Número de produções C, T & A: 22 Membro: Miguel Oliveira Jr.
11.	2018-2020. OPINANDO - Opinion Mining for Portuguese: Concept-based Approaches and Beyond Descrição: The OPINANDO project aimed at investigating issues of concept-level analysis for the Brazilian Portuguese language. We were particularly interested on three main research fronts, namely: (i) the identification of relevant texts to mine, which includes tackling text importance and filtering deceptive content; (ii) the analysis of the selected texts, performing the necessary semantic and discourse analysis and identifying subjective content and the corresponding aspects and polarities; and (iii) the synthesis of the relevant information, using text summarization and generation strategies and dealing with the related challenges in these tasks.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Especialização: (0) / Mestrado acadêmico: (3) / Mestrado profissional: (0) / Doutorado: (5) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Maria das Graças Volpe Nunes - Integrante / Oto Araújo Vale - Integrante / Evandro Eduardo Seron Ruiz - Integrante / Tiago Agostinho de Almeida - Integrante. Financiador(es): Universidade de São Paulo - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.
12.	2018-2020. Opinando- Mineração de Opinião em Nível Conceitual para o Português Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (3) / Doutorado: (5) . Integrantes: Maria das Graças Volpe Nunes - Integrante / Oto Araujo Vale - Integrante / Thiago A S Pardo - Coordenador / Evandro Seron Ruiz - Integrante / Tiago Almeida - Integrante. Membro: Maria das Graças Volpe Nunes.
13.	2018-2020. Opinion Mining for Portuguese: Concept-based Approaches and Beyond (University of São Paulo) Descrição: The OPINANDO project aims at investigating issues of concept-level analysis for the Brazilian Portuguese language. We are particularly interested on three main research fronts, namely: (i) the identification of relevant texts to mine, which includes tackling text importance and filtering deceptive content; (ii) the analysis of the selected texts, performing the necessary semantic and discourse analysis and identifying subjective content and the corresponding aspects and polarities; and (iii) the synthesis of the relevant information, using text summarization and generation strategies and dealing with the related challenges in these tasks.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Francielle Alves Vargas - Integrante / Thiago Alexandre Salgueiro Pardo - Coordenador. Membro: Francielle Alves Vargas.
14.	2018-2021. SUSTENTO2 - Geração de conhecimento linguístico para a Sumarização Automática Descrição: Dada a grande quantidade de informação disponível em várias línguas, sobretudo na web, a Sumarização Automática Multidocumento (SAM) tem ocupado lugar de centralidade no Processamento Automático das Línguas Naturais (PLN) na medida em que facilita o acesso à informação. Originada em meados de 1990, a SAM objetiva produzir automaticamente um único sumário (resumo) a partir de uma coleção de textos sobre um mesmo tópico. Para o português do Brasil (PB), as pesquisas começaram somente nos últimos anos. Apesar de incipientes, os sistemas/métodos que envolvem o PB igualam-se ao estado da arte e, em alguns casos, superam os resultados obtidos para outras línguas. Mesmo diante de cenário tão promissor, a SAM, de um modo geral, carece de subsídios linguísticos que permitam aproximar a tarefa automática à humana. Assim, neste projeto, objetiva-se gerar subsídios linguísticos para avançar o estado da arte em SAM, principalmente que envolve o PB. Para tanto, investigar-se-ão 3 frentes de pesquisa correlatas: (i) caracterização linguística de sumários multidocumento produzidos por humanos, (ii) investigação aprofundada dos fenômenos multidocumento (p.ex.: redundância), e (iii) descrição e formalização de conhecimento semântico-conceitual. As frentes (i) e (ii) justificam-se pelo fato de que a SAM, ao contrário da monodocumento, pauta-se apenas em indícios sobre a sumarização humana (multidocumento) e em estudos superficiais de seus fenômenos. A frente (iii) justifica-se pelo fato de que os métodos de SAM para o PB poderão ser enriquecidos ou totalmente baseados nesse tipo de conhecimento. Tendo em vista a geração de descrições e formalizações linguísticas nas três frentes, acredita-se que este projeto tem potencial para contribuir com a SAM e a Linguística Descritiva. Ademais, salienta-se a formação de recursos humanos no PLN, área ainda pequena no Brasil.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (2) / Doutorado: (2) . Integrantes: Ariani Di Felippo - Coordenador / Thiago A S Pardo - Integrante / Jackson Wilke da Cruz Souza - Integrante / Luana Fonseca Cristini - Integrante / Renata Ramisch - Integrante / Yasmin Vizeo Camargo - Integrante / Darlan Xavier Nascimento - Integrante / Débora Garcia Domiciano - Integrante. Número de produções C, T & A: 13 Membro: Ariani Di Felippo.
15.	2018-2019. Tractor Beam (Mestrado) Descrição: Projeto de Mestrado que consistem de um sistema que mantém a visada de um quadrotor por meio de uma câmera RGB filtrando as cores do LEDs piscantes indicadores instalados no quadrotor. Esse sistema tem como objetivo utilizar um laser óptico para direcionar o quadrotor até um robô terrestre (ROVER) em um ambiente com conexão GPS dificultada. Para detectar o quadrotor, um programa no python utilizando a biblioteca OpenCV recebe o feed da imagem da câmera, e para cada frame, converte a imagem para o modelo HSV, e filtra a imagem para as cores dos LEDs indicadores presentes no quadrotor. Então é feito o ?Closing? da imagem para filtrar ruído e então utilizando a função ?SimpleBlobDetector? o centro dos corpos da imagem é detectado. Para garantir que somente os corpos dos LEDs são detectados, o quadrotor faz o LEDs piscarem em um frequência conhecida, então o algoritmo só considera como corpos válidos, quando os mesmo estiverem piscando na frequência conhecida. Uma vez com os pontos corretor, sabe-se que o centro dos pontos coincide com o centro do quadrotor, então o sistema estima a rotação necessária para que o centro dos corpos coincidam com o centro da imagem e envia pelas portas GPIO da PI o comando de rotação para os motores, garantindo que a câmara mantenha a visada do quadrotor durante o funcionamento. Estes programas que exigem a ROS são feitos utilizando o Sublime. No quadrotor, foi projetado, em conjunto com a aluna Clara Louzada, uma matriz de fotodetectores que funciona com um sensor de laser. Este sensor detecta o movimento do laser e interpreta como um vetor velocidade para o quadrotor seguir.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (1) . Integrantes: Diego Pavan Soler - Integrante / Marcelo Becker - Coordenador / Clara Louzada - Integrante. Número de produções C, T & A: 1 Membro: Diego Pavan Soler.

2017

1.	2017-2023. ( FAPESP Temático) Intermediate representations in Computational Science for knowledge discovery Descrição: This project focuses on a unified strategy for knowledge and emerging dynamics discovery in Computational Science using intermediate representations. The intended applications are in areas characterized by large volumes of data in which knowledge discovery implies the transition from raw data bases for intermediate representations (usually feature vectors and graphs), thus allowing for the subsequent use of different analytical methods. In this context, integration and transformation methods to be used in the generation of intermediate data should also ensure the quality and reliability of data generated for the intermediate representation. The results of the analysis phase may influence both experiments and the integration methods for generating new data by feedback mechanisms. This project has two general goals: 1) to develop methodologies to solve Computational Science problems based on a common approach of intermediate mathematical-computational representations; 2) to apply the developed methodologies to different scientific problems, thus creating specific solutions to each problem. This methodological strategy will be used to address specific problems in areas which our group has been working in recent years: intermediate representations in computer vision and urban informatics; study of biological networks dynamics to characterize the mechanisms of the health-disease transition; development of computational tools for processing of MRI images high field and their integration with biological data; development of new techniques for characterization and visualization of intermediate representations in complex dynamic networks, with applications in Systems Biology.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Integrante / Roberto Marcondes Cesar Junior - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata.
2.	2017-2018. Applications of Cross-Domain Visual Matching Descrição: This project is a UGPN Research Collaboration Fund between ICMC/Universidade de São Paulo and CVSSP/University of Surey, regarding research collaboration for the problem of visual cross-domain matching, which is to find strategies to match images from a given application across different visual domains. This task is important for example when dealing with photographic images acquired over different conditions so that the images are very different at a pixel level; or also when trying to find images belonging conceptually from the same category, but that comes from different domains such as a photography and a hand-drawn sketch. This proposal is concerned in particular with two applications: sketch-based image retrieval and anomaly detection in video surveillance. During this project we will investigate how feature learning methods can be explored in both applications, and how to incorporate those methods into practical scenarios. The project involves visits from researchers, students and post-docs between both research groups in order to organize meetings and strenghten the collaboration.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (3) . Integrantes: Moacir Antonelli Ponti - Coordenador / KITTLER, JOSEF - Integrante / John Collomosse - Integrante / Leonardo Sampaio Ferraz Ribeiro - Integrante / Tu Bui - Integrante. Financiador(es): University Global Partnership Network - Auxílio financeiro. Membro: Moacir Antonelli Ponti.
3.	2017-Atual. Aprendizado de características em sinais, imagens e vídeos com aplicações Descrição: Métodos de aprendizado de características, em especial deep learning (aprendizado profundo), têm alcançado o estado da arte em diversas aplicações. Apesar da performance desses modelos, ainda há pouco entendimento sobre seu funcionamento, em particular considerando cenários mais complexos como domínios visuais diferentes e sob condições limitantes de exemplos de treinamento rotulados. Nesse projeto, propomos o uso de aprendizado de características a partir de aplicações ainda pouco exploradas envolvendo sinais, imagens e vídeos. Serão empregadas diversas técnicas de aprendizado de características, cujas representações serão avaliadas por métricas conhecidas e ainda por técnicas de visualização e projeção para a interpretação e análise dos espaços. Os resultados esperados incluem modelos obtidos com menor quantidade de rótulos disponíveis, e cenários multi-domínio que permitam obter avanços no estado da arte nas aplicações.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (5) / Doutorado: (5) . Integrantes: Moacir Antonelli Ponti - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Membro: Moacir Antonelli Ponti.
4.	2017-2019. Aprendizado de características na recuperação de imagens baseada em rascunhos e no sensoriamento remoto de baixa altitude Descrição: Métodos de aprendizado de características têm alcançado o estado da arte em diversas áreas. Apesar dos resultados excelentes obtidos em conjuntos de dados benchmark, ainda há pouco entendimento sobre seu funcionamento, e aplicações ainda a serem exploradas, em particular quando se considera arquiteturas que vão além das redes neurais convolucionais padrão. Nesse projeto, propomos o uso de aprendizado de características a partir de aplicações como a análise de imagens de sensoriamento remoto de baixa altitude para agricultura de precisão, e no mapeamento dos domínios rascunho e imagens, com foco na recuperação de imagens baseada em rascunhos. Cada uma dessas tarefas tem seus próprios desafios, mas em comum há o limite de dados rotulados disponível para treinamento. Esses desafios podem ser resolvidos utilizando aprendizado profundo desenvolvendo novas arquiteturas baseadas em auto-encoders, redes siamesas e modelos geradores. Propõe-se avaliar os modelos utilizando não apenas os dados benchmark, mas também avaliar a qualidade das representações por meio de técnicas de visualização e projeção como forma de análise dos espaços de características.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Doutorado: (3) . Integrantes: Moacir Antonelli Ponti - Coordenador / Gabriel de Barros Paranhos da Costa - Integrante / John Collomosse - Integrante / Leonardo Sampaio Ferraz Ribeiro - Integrante / Fernando Pereira dos Santos - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Moacir Antonelli Ponti.
5.	2017-2022. Distant Reading for European Literary History (COST Action CA16204) Descrição: This Actions challenge is to create a vibrant and diverse network of researchers jointly developing the resources and methods necessary to change the way European literary history is written. Grounded in the Distant Reading paradigm (i.e. using computational methods of analysis for large collections of literary texts), the Action will create a shared theoretical and practical framework to enable innovative, sophisticated, data-driven, computational methods of literary text analysis across at least 10 European languages. Fostering insight into cross-national, large-scale patterns and evolutions across European literary traditions, the Action will facilitate the creation of a broader, more inclusive and better-grounded account of European literary history and cultural identity.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (1) . Integrantes: Maria Cláudia de Freitas - Integrante / SANTOS, DIANA - Coordenador. Financiador(es): COST - European Cooperation in Science & Technology - Cooperação. Número de produções C, T & A: 5 Membro: Maria Cláudia de Freitas.
6.	2017-Atual. INCT of the Future Internet for Smart Cities Descrição: The Future Internet will integrate large-scale systems constructed from the composition of thousands of distributed services, while interacting directly with the physical world via sensors and actuators, which compose the Internet of Things. This Future Internet will enable the realization of the Smart Cities vision, in which the urban infrastructure will be used to its fullest extent to offer a better quality of life for its citizens. Key to the efficient and effective realization of Smart Cities is the scientific and technological research covering the multiple layers that make up the Internet. This project aims to address challenges and initiatives related to Future Internet and Smart Cities in the scope of the InterSCity project. The challenges and initiatives are organized in three fronts: (1) Networking and High-Performance Distributed Computing; (2) Software Engineering for the Future Internet; and (3) Analysis and Mathematical Modeling for the Future Internet and Smart Cities. InterSCity aims at developing an integrated open-source platform containing all the major building blocks for the development of robust, integrated, sophisticated applications for the smart cities of the future.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Roberto Hirata Junior - Integrante / Alfredo Goldman - Integrante / KON, FABIO - Coordenador / COSTA, FABIO M. - Integrante / ENDLER, MARKUS - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro / Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Roberto Hirata Junior.
7.	2017-2019. Inference and Learning Algorithms for Probabilistic Logic Programming Descrição: The goal of this project is to develop inference and learning techniques for probabilistic logic programs, with an eye on the scalable automatic induction of probabilistic rules from large datasets. Such techniques have applications in information search and retrieval, automated diagnosis, decision and recommendation systems ? applications that benefit from large and accurate knowledge bases.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) / Doutorado: (1) . Integrantes: Fabio Gagliardi Cozman - Coordenador / Denis Deratani Mauá - Integrante. Membro: Fabio Gagliardi Cozman.
8.	2017-2019. MINERAÇÃO DE DADOS E TEXTOS PARA AQUISIÇÃO DE INFORMAÇÃO CONTEXTUAL PARA SISTEMAS DE RECOMENDAÇÃO SENSÍVEIS AO CONTEXTO Descrição: As empresas que tratam seus negócios na Web oferecem uma vasta quantidade e variedade de conteúdos Web (isto é, produtos, serviços e informações). Estas empresas sentem a necessidade de descobrir informações sobre o comportamento e interesse de seus usuários para poder recomendar a estes os produtos, serviços e informações que lhes são relevantes. Porém, o comportamento e interesse de um usuário são constantemente influenciados pelo contexto no qual este se encontra. Por exemplo, um usuário pode desejar assistir um filme com a sua namorada no sábado à noite ou com os seus amigos durante um dia de semana, e uma locadora de filmes na Web pode recomendar diferentes tipos de filmes para este usuário dependendo do contexto no qual este se encontra. Um grande desafio para o uso de sistemas de recomendação sensíveis ao contexto por sítios Web é a falta de métodos para aquisição automática de informação contextual para estes sistemas. Diante desse cenário, o objetivo deste projeto é a pesquisa, proposta e avaliação de métodos de aquisição de informação contextual para sistemas de recomendação de contéudo Web sensíveis ao contexto.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Marcos Aurélio Domingues - Coordenador / Marcelo Garcia Manzato - Integrante / SUNDERMANN, CAMILA VACCARI - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Solange Oliveira Rezende.
9.	2017-2018. Mineração de Dados para Predição de Evasão em Ambientes de Ensino a Distância Descrição: Estratégias de combate à evasão no ensino superior têm recebido grande atenção nos últimos anos. As estratégias tradicionais são baseadas na revisão dos projetos pedagógicos dos cursos, além da implantação de políticas de assistência estudantil, como apoio financeiro e psicológico aos alunos. O uso destas estratégias tradicionais é mais desafiador quando o principal meio de interação com os alunos é pelo ambiente computacional EAD. No entanto, esses ambientes armazenam um rico conjunto de dados que refletem o comportamento dos alunos, desde o registro de acesso e tempo utilizado nos recursos didáticos, atividades de avaliação, até a interação do aluno em fóruns de discussão. Métodos para Mineração de Dados são promissores para extrair conhecimento útil desses dados e, assim, apoiar processos de tomada de decisão. Assim, o objetivo deste projeto é desenvolver uma plataforma de Mineração de Dados com foco na predição de evasão para o sistema UAB. Na etapa de extração de conhecimento da plataforma, serão desenvolvidos algoritmos de aprendizado de modelos preditivos, ou seja, que identificam padrões nos dados históricos dos perfis de alunos desistentes; sendo capaz de predizer se um novo perfil entrou no grupo de risco da evasão. Como resultado, a plataforma será distribuída livremente, permitindo integrar com qualquer ambiente EAD. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (1) / Doutorado: (1) . Integrantes: Solange Oliveira Rezende - Integrante / Rafael Geraldeli Rossi - Integrante / Renan de Padua - Integrante / Ricardo Marcondes Marcacini - Coordenador / Bruno Magalhães Nogueira - Integrante / Edson Takashi Matsubara - Integrante / Vitor Mesaque Alves de Lima - Integrante / Eraldo Luís Rezende Fernandes - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Auxílio financeiro. Membro: Solange Oliveira Rezende. Descrição: Estratégias de combate à evasão no ensino superior têm recebido grande atenção nos últimos anos. As estratégias tradicionais são baseadas na revisão dos projetos pedagógicos dos cursos, além da implantação de políticas de assistência estudantil, como apoio financeiro e psicológico aos alunos. O uso destas estratégias tradicionais é mais desafiador quando o principal meio de interação com os alunos é pelo ambiente computacional EAD. No entanto, esses ambientes armazenam um rico conjunto de dados que refletem o comportamento dos alunos, desde o registro de acesso e tempo utilizado nos recursos didáticos, atividades de avaliação, até a interação do aluno em fóruns de discussão. Métodos para Mineração de Dados são promissores para extrair conhecimento útil desses dados e, assim, apoiar processos de tomada de decisão. Assim, o objetivo deste projeto é desenvolver uma plataforma de Mineração de Dados com foco na predição de evasão para o sistema UAB. Na etapa de extração de conhecimento da plataforma, serão desenvolvidos algoritmos de aprendizado de modelos preditivos, ou seja, que identificam padrões nos dados históricos dos perfis de alunos desistentes; sendo capaz de predizer se um novo perfil entrou no grupo de risco da evasão. Como resultado, a plataforma será distribuída livremente, permitindo integrar com qualquer ambiente EAD.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (1) . Integrantes: Ricardo Marcondes Marcacini - Coordenador / Rafael Geraldeli Rossi - Integrante / BRUNO MAGALHÃES NOGUEIRA - Integrante / Solange Oliveira Rezende - Integrante / Edson Takashi Matsubara - Integrante / Vitor Mesaque Alves de Lima - Integrante / Renan de Padua - Integrante / Eraldo Luís Rezende Fernandes - Integrante / Nilton Cézar Carraro - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Auxílio financeiro. Membro: Ricardo Marcondes Marcacini.
10.	2017-2022. Mining, Indexing and Visualizing Big Data in Clinical Decision Support Systems (MIVisBD) Descrição: Projeto Temático envolvendo 3 instituições nacionais e 8 instituições internacionais.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (2) . Integrantes: Solange Oliveira Rezende - Integrante / Caetano Traina Júnior - Integrante / José Fernando Rodrigues Junior - Integrante / Agma Juci Machado Traina - Coordenador / Christos Faloutsos - Integrante / Renato Bueno - Integrante / Marco Antônio Gutierrez - Integrante / Robson L. F. Cordeiro - Integrante. Membro: Solange Oliveira Rezende.
11.	2017-2020. NURC Digital - Fase 2 Descrição: O presente projeto de pesquisa dá continuidade ao Projeto NURC Digital, que teve por objetivo central propor um modelo de informatização de um dos corpora mais influentes na pesquisa linguística do Brasil: o corpus do Projeto NURC. Nesta segunda fase, estamos ampliando todos o corpus diponibilizado no Portal NURC Digital (http://www.fale.ufal.br/projeto/nurcdigital/), de maneira a incluir todos os dados do Projeto NURC Recife, devidamente anotados e etiquetados. Em seguida, realizaremos uma série de estudos baseados nesses dados.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) . Integrantes: Miguel Oliveira Jr - Coordenador / Dóris Cunha - Integrante / Eckhard Bick - Integrante / Marcos Galindo Lima - Integrante / Maarten Janssen - Integrante. Número de produções C, T & A: 21 Membro: Miguel Oliveira Jr.
12.	2017-2019. Speech-to-Text: Processamento da Voz no Contexto de Atas Descrição: O projeto visa criar recursos, modelos computacionais (redes neurais artificiais profundas) e ferramentas voltadas ao processamento da fala para as línguas Portuguesa, Espanhola e Inglês, com foco na primeira. Quatro frentes de trabalho principais foram definidas. A primeira consiste na criação de recursos para as línguas estudas, principalmente bases de voz e sistemas. Os sistemas contemplam a gerência de bases, a integração dos modelos desenvolvidos nas outras frentes, uma interface integradora aplicada no contexto de criação automática de atas de reunião e também a criação de transcrições fonéticas de textos escritos com base no Alfabeto Fonético Internacional (IPA) a partir de dicionários e regras próprios. A segunda frente de trabalho consiste na criação de modelos capazes de identificar o idioma contido em um áudio considerando as três línguas de referência. A terceira é focada em modelos para identificação de locutores no decorrer do áudio. E por fim, a quarta frente de trabalho consiste na transcrição fonética para cada língua a partir de modelos neurais treinados em bases de áudio. Em um contexto de atas de reunião para ambiente corporativo, busca-se identificar o falante, a língua que está sendo falada e o que está sendo falado. O objetivo é automatizar o processo manual e trabalhoso de criação de atas de reunião. O projeto recebe financiamento da Fundação Parque Tecnológico Itaipu (FPTI) em parceria com o Centro Latino-americano de Tecnologias Abertas (CELTAB).. Situação: Concluído; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Coordenador / Hamilton Pereira da Silva - Integrante / Lucas Rafael Stefanel Gris - Integrante / Edresson Casanova - Integrante / Rafael Augusto Marques Secco - Integrante / Alexssandro Ferreira Cordeiro - Integrante / Márcio Angelo Matté - Integrante. Membro: Arnaldo Candido Junior.
13.	2017-Atual. Uso de jogos interativos como ferramenta para treinamento cognitivo do público senescente. Projeto n°: PI0340-2017 Descrição: A população idosa no Brasil, assim como em outros países, está em franco processo de crescimento. Dados do IBGE de 2010 mostraram que número de pessoas idosas deverá triplicar durante os próximos 20 anos. Pesquisas sobre o desenvolvimento cognitivo e motor dessa população têm recebido importante destaque, visto que transformações nesses aspectos são usualmente esperadas durante o processo de senescência que inclui as diferentes fases do envelhecimento. Estudos sugerem que jogos digitais têm demonstrado desdobramentos positivos no que se refere à cognição, ao convívio social e à qualidade de vida dos idosos. Porém, jogos digitais têm sido desenvolvidos especialmente para a população jovem, mais habituada com interações digitais e com mais habilidades para aprendizagem rápida das estratégias utilizadas em tais jogos. Assim, adequar as expectativas de idosos a fim de obter sua aceitação aos jogos digitais como instrumento de inclusão social permanece um desafio na área. Sendo assim, esse um campo para inovação, propício para inclusão de produtos no mercado, já que essa parcela da população tem uma reconhecida participação na economia. Por outro lado, pesquisas que buscam solucionar tal desafio possuem, além de ganhos econômicos, potencial para a melhoria da qualidade de vida de grande parte dos idosos no Brasil. Portanto, a proposta deste projeto é desenvolver uma plataforma de jogos digitais visando o público senescente, em especial para a população brasileira. O desenvolvimento do portal seguirá o processo de Desenvolvimento Centrado no Usuário (UCD - do inglês User Centered Design). A metodologia de desenvolvimento escolhida deverá fortalecer o desenvolvimento de jogos acessíveis e usáveis ao público senescente. Com isso, entende-se que a qualidade dos jogos propostos será impulsionada juntamente com a experiência do usuário.. Situação: Em andamento; Natureza: Pesquisa.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Gustavo Evangelista Araújo - Integrante / Luanna Lopes Lobato - Integrante / Thiago Jabur Bittar - Coordenador / Márcio Antônio Duarte - Integrante / Dimas Antônio Rosa Júnior - Integrante / Rafael Zeferino Rossi - Integrante / Gabriel Santos Resende - Integrante / Matheus Matos Machado - Integrante / Lucas Ávila Oliveira - Integrante / Márcio de Souza Dias - Integrante / Leandro Agostini do Amaral - Integrante. Membro: Gustavo Evangelista Araújo.

2016

1.	2016-2018. Aprendizado não Supervisionado de Websensors aplicado em Desafios de Big Data para Agronegócios Descrição: Motivada pela diversidade de aplicações que podem ser derivadas por meio de algoritmos para extração de conhecimento da web, uma nova direção de pesquisa denominada Websensors tem como objetivo converter padrões extraídos de várias fontes da web em um conjunto de sinais, representado por meio de séries temporais, que permitem observar, estudar e monitorar o comportamento de um fenômeno de interesse. Devido ao grande volume de dados, variedade de fontes de informação e requisitos de velocidade para análise desses dados, os websensors são modelos computacionais com grande potencial para lidar com os desafios atuais relacionados à temática de Big Data; que recentemente tem recebido muita atenção na literatura e indústria pelos resultados promissores obtidos na resolução de tarefas complexas de tomadas de decisão. Nesse contexto, entre as atividades recentes desenvolvidas pelos membros do GEPIC (Grupo de Estudo e Pesquisa em Inteligência Computacional - UFMS), há um particular interesse em explorar websensors aplicado em desafios de Big Data para o domínio de agronegócios. Atividades prévias, como a coleta e organização de uma base de 14 anos de notícias (composta por milhões de registros) e resultados preliminares tem demonstrado que este é um caminho promissor. Dessa forma, a proposta geral deste projeto é utilizar conhecimento implícito em uma base histórica de milhões notícias sobre agronegócios no Brasil para aprender padrões, ao longo do tempo, que possam ser explorados para explicar o comportamento passado e predizer comportamento futuro no domínio de agronegócios, com apoio de algoritmos de aprendizado não supervisionado de máquina.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Maria Feranda Moura - Integrante / Ricardo Marcondes Marcacini - Coordenador / Rafael Geraldeli Rossi - Integrante / Bruno Magalhães Nogueira - Integrante / Edson Takashi Matsubara - Integrante / Vitor Mesaque Alves de Lima - Integrante / Eraldo Luís Rezende Fernandes - Integrante / Valguima Victoria Viana Aguiar Odakura - Integrante / Andre Steffens Moraes - Integrante / Fabiana Villa Alves - Integrante / Ana Carolina Chiozi Zanetta - Integrante / Julio César Carnevali - Integrante / Luan Vinicius de Carvalho Martins - Integrante / João Domingos Ferreira Mundim - Integrante. Financiador(es): Fundação de Apoio e Desenvolvimento do Ensino, Ciência e Tecnologia do MS - Auxílio financeiro. Membro: Solange Oliveira Rezende. Descrição: Motivada pela diversidade de aplicações que podem ser derivadas por meio de algoritmos para extração de conhecimento da web, uma nova direção de pesquisa denominada Websensors tem como objetivo converter padrões extraídos de várias fontes da web em um conjunto de sinais, representado por meio de séries temporais, que permitem observar, estudar e monitorar o comportamento de um fenômeno de interesse. Devido ao grande volume de dados, variedade de fontes de informação e requisitos de velocidade para análise desses dados, os websensors são modelos computacionais com grande potencial para lidar com os desafios atuais relacionados à temática de Big Data; que recentemente tem recebido muita atenção na literatura e indústria pelos resultados promissores obtidos na resolução de tarefas complexas de tomadas de decisão. Nesse contexto, entre as atividades recentes desenvolvidas pelos membros do GEPIC (Grupo de Estudo e Pesquisa em Inteligência Computacional - UFMS), há um particular interesse em explorar websensors aplicado em desafios de Big Data para o domínio de agronegócios. Atividades prévias, como a coleta e organização de uma base de 14 anos de notícias (composta por milhões de registros) e resultados preliminares tem demonstrado que este é um caminho promissor. Dessa forma, a proposta geral deste projeto é utilizar conhecimento implícito em uma base histórica de milhões notícias sobre agronegócios no Brasil para aprender padrões, ao longo do tempo, que possam ser explorados para explicar o comportamento passado e predizer comportamento futuro no domínio de agronegócios, com apoio de algoritmos de aprendizado não supervisionado de máquina.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (2) / Doutorado: (1) . Integrantes: Ricardo Marcondes Marcacini - Coordenador / Maria Fernanda Moura - Integrante / BRUNO MAGALHÃES NOGUEIRA - Integrante / SOLANGE REZENDE - Integrante / Edson Takashi Matsubara - Integrante / Eraldo Luís Rezende Fernandes - Integrante / Valguima Victoria Viana Aguiar Odakura - Integrante / Andre Steffens Moraes - Integrante / Vitor Mesaque Alves de Lima - Integrante / Rafael Geraldeli Rossi - Integrante / Fabiana Villa Alves - Integrante / Ana Carolina Chiozi Zanetta - Integrante / Julio César Carnevali - Integrante / Luan Vinicius de Carvalho Martins - Integrante / João Domingos Ferreira Mundim - Integrante / Hugo Lopes da Luz - Integrante. Financiador(es): Fundação de Apoio e Desenvolvimento do Ensino, Ciência e Tecnologia do MS - Auxílio financeiro. Membro: Ricardo Marcondes Marcacini.
2.	2016-2020. Documentação e análise de árvores de genealogia acadêmica do Brasil (Projeto MCTI/CNPq/Universal 2014) Descrição: No decorrer do tempo a ciência evolui em diferentes ambientes e ritmos que podem ser dados por incrementos graduais ou por revoluções que permitiram responder os principais desafios de cada época. No ambiente acadêmico, esta evolução é facilitada pelos pesquisadores orientadores ou formadores de recursos humanos nos níveis de graduação, mestrado, doutorado ou pós-doutorado. Sob este aspecto, dada a dedicação à formação de cientistas, muitos pesquisadores acadêmicos tiveram um papel extremamente importante na ciência. Até hoje, com a finalidade de preservar a história acadêmica, poucos empreendimentos foram realizados para registrar e documentar a influência que cada pesquisador têm exercido sobre seus orientandos ao longo dos anos. Nesse contexto, a genealogia acadêmica é utilizada para documentar e organizar, através de uma árvore (ou conjuntos de árvores) de genealogia, pesquisadores por meio de suas relações (linhagem) de orientação ou supervisão acadêmica. No Brasil, a identificação dos pesquisadores ancestrais é uma tarefa desafiadora pois atualmente não existem repositórios que permitam o registro de informações da linhagem acadêmica de pesquisadores associados a diferentes áreas de atuação acadêmica. Este projeto concentra-se no desenvolvimento de uma metodologia computacional para a geração e análise de árvores de genealogia acadêmica para pesquisadores que formaram ou tiveram formação no Brasil. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (2) / Doutorado: (2) . Integrantes: Rafael Jeferson Pezzuto Damaceno - Integrante / Jesús Pascual Mena Chalco - Coordenador / Luciano Rossi - Integrante. Membro: Rafael Jeferson Pezzuto Damaceno.
3.	2016-2018. Ferramenta de monitoramento de níveis de fragilidade em idosos atendidos na atenção básica de saúde: avaliação da sua efetividade e eficiência Descrição: A Atenção Básica de Saúde (ABS) pode oferecer atendimento integral ao idoso a partir da identificação das necessidades especificas de idosos não frágeis, pré frágeis e frágeis. Entretanto, ferramentas que facilitem as ações efetivas dessas políticas são escassas no planejamento e monitoramento das condições de fragilidade dos idosos usuários no Sistema Único de Saúde (SUS). Um sistema de monitoramento computacional a ser utilizado pela equipe de saúde para identificar os níveis de fragilidade de idosos pode colaborar na tomada de decisões, na gestão do cuidado dos idosos, e ainda, pode servir como modelo para outras unidades de saúde brasileiras. Este estudo é uma continuação de um estudo anterior intitulado: "Ferramenta para monitoramento de níveis de fragilidade e fatores associados em idosos atendidos pelo núcleo de apoio a saúde da família (NASF) no município de São Carlos". A primeira fase do projeto foi finalizada com sucesso e avaliou 346 idosos cadastrados na ABS de uma região de alta vulnerabilidade do município. Foram avaliados diversos aspectos relacionados à fragilidade e realizados exames clínicos completos, inclusive com a medida de citocinas inflamatórias. Em seguida, a partir dos resultados encontrados, uma ferramenta foi criada a partir de um algoritmo com intuito de direcionar o atendimento dos idosos de acordo com os níveis de fragilidade (não frágeis, pré-frágeis e frágeis). Nesta nova fase, o objetivo é avaliar a usabilidade, efetividade e eficiência desta ferramenta computacional para monitoramento de níveis de fragilidade em idosos. Para isso, através de métodos quantitativos e qualitativos, a ferramenta será aprimorada e em seguida a equipe de saúde da ABS será treinada para o uso da mesma. Serão monitorados acessibilidade e usabilidade por meio de data loggers, uso dos serviços de saúde pelos idosos e um acompanhamento frequente da tomada de decisões desses profissionais a partir do diagnóstico de fragilidade será realizado. Além disso, os idosos serão reavaliados através da ferramenta e de questionários, realizando-se uma validade cruzada para identificação de eficiência da ferramenta. Espera-se que a ferramenta seja efetiva, eficiente e acessível na detecção de níveis de fragilidade em idosos da ABS.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Moacir Antonelli Ponti - Integrante / Renata Pontin de Mattos Fortes - Integrante / Marisa S Zazzetta - Coordenador / Grace A O Gomes - Integrante / Fabiana S Orlandi - Integrante / Aline C M Gratao - Integrante / Karina Gramani-Say - Integrante / Sofia C I Pavarini - Integrante / Carla M C Nascimento - Integrante / Marcia R. Cominetti - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Moacir Antonelli Ponti.
4.	2016-2017. O Papel da Prosódia no Processamento da Estrutura do Discurso em Língua Portuguesa: Um Estudo de Potenciais Relacionados a Eventos Descrição: Estudos recentes têm evidenciado o relevante papel da prosódia na percepção da estrutura do discurso oral. A maior parte desses estudos utilizam paradigmas experimentais que se apoiam em instruções e dependem das habilidades metalinguísticas dos participantes. O objetivo central da presente proposta é investigar o papel da prosódia no processamento da estrutura do discurso, mediante a utilização de testes comportamentais e de uma técnica não-invasiva de aferição da atividade cerebral: a eletroencefalografia. A vantagem desta técnica, em relação aos paradigmas experimentais convencionais, reside no fato de que ela é imune a habilidades metalinguísticas, uma vez que registra respostas automáticas e inconscientes dos participantes aos estímulos apresentados. Os dados obtidos por meio da eletroencefalografia serão analisados a partir da medida conhecida por potenciais relacionados a eventos. Estudos com este método têm apontado para a correspondência entre a ocorrência de uma fronteira de unidade prosódica e um sinal cerebral específico no nível da frase conhecido por Closure Positive Shift (ou CPS). O presente estudo objetiva investigar a ocorrência deste fenômeno na percepção do discurso espontâneo em português e em inglês, verificando se existe uma diferença de amplitude de CPS em fronteiras discursivas, tomando por base aquilo que foi encontrado no nível da frase. Pretende-se, com este estudo, contribuir para a investigação do processamento simultâneo da prosódia e do discurso.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Miguel Oliveira Jr - Coordenador / Stefanie Shattuck-Hufnagel - Integrante / Fernanda Ferreira - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Bolsa. Número de produções C, T & A: 5 Membro: Miguel Oliveira Jr.
5.	2016-2016. Simulador de Multidões: Estudo do Modelo de Forças Sociais Descrição: Através da simulação computacional foi explorado um sistema complexo que busca representar o comportamento e a dinâmica da multidão com recursos visuais gráficos, implementado com base no modelo de Forças Sociais desenvolvido por Helbing e Molnár. Por meio de equações analíticas é possível analisar os resultados com os dados empíricos do comportamento humano observados em alguns cenários específicos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Florence Alyssa Sakuma Shibata - Integrante / Flávio Soares Correa da Silva - Coordenador. Membro: Florence Alyssa Sakuma Shibata.
6.	2016-Atual. Storage, Modeling and Analysis of Dynamical Systems for e-Science Applications Descrição: The astonishing fast rate of technology evolution has given rise to a new era of scientific knowledge discovery. This new age of science, known as e-Science, is described as the new great computational and multidisciplinary team science requiring novel methodologies for data storage, modeling and analysis. In particular, the development of transactional and analytical software systems for e-Science applications when viewed from a dynamic systems perspective, presents a number of new computational challenges. Among them are the scientific knowledge discovery processes, which involve frequent changes of requirements for data storage, modeling and analysis. The need to address scientific dynamic systems in order to cope with complex applications of e-Science has woken up the scientific community for the development of robust and evolutionary software systems to meet these new challenges. Dynamical system is the classical mathematical formalism to represent phenomena that evolute with time, which are of great interest in science. In this project, our main goal is to develop computational models and methodologies to support e-Science applications viewed as dynamic systems. Our fundamental research covers three key research areas, namely storage, modeling, and analysis of dynamic systems. These research areas are significant and relevant to the FAPESP e-Science Program since many of the present e-Science challenges are related to the proper treatment of dynamic systems. Hence, we plan to develop and apply computational methodologies that will ease the development of e-Science applications, thereby contributing to the improvement of worldwide scientific knowledge, while respecting legal and ethical restrictions in data management.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Roberto Hirata Junior - Integrante / João Eduardo Ferreira - Coordenador / Ronaldo Fumio Hashimoto - Integrante / Marcel Parolin Jackowski - Integrante / Paulo Sergio Graziano Magalhães - Integrante. Membro: Roberto Hirata Junior.

2015

1.	2015-2018. ADEQUAÇÃO LINGUÍSTICA DE TEXTOS NÃO-FICCIONAIS EM NÍVEIS CRESCENTES DE DIFICULDADE Descrição: Os grandes focos de alcance do projeto são: (1) Definição das características linguísticas de textos não-ficcionais a serem lidos por crianças do 3º ao 7º ano escolar do Ensino Fundamental, que darão base aos níveis de dificuldade de leitura, e criação do córpus de estudo; (2) Classificação Automática de Complexidade de Textos não-ficcionais em níveis crescentes de dificuldades do Ensino Fundamental; e (3) Desenvolvimento de Métodos de Elaboração Lexical e Simplificação Léxica e Sintática embutidos em editores dedicados a níveis de dificuldade, visando à escrita de textos personalizados a alunos do Ensino Fundamental. Avaliação se os textos criados com ajuda das operações de simplificação e elaboração propostas melhoram as características de inteligibilidade dos textos para um dado nível de dificuldade e interferem positivamente nas habilidades de leitura, isto é, numa melhora da compreensão do texto, utilizando métodos da Teoria de Resposta ao Item unidimensional.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Doutorado: (2) . Integrantes: Sandra Maria Aluísio - Coordenador / Mariana Curi - Integrante. Financiador(es): GUTEN EDUCAÇÃO E TECNOLOGIA LTDA - Auxílio financeiro. Número de produções C, T & A: 1 Membro: Sandra Maria Aluísio.
2.	2015-2020. Aging@Brazil Novos paradigmas, escalabilidade e aplicações relacionadas ao diagnóstico e monitoramento automatizados no envelhecimento: avaliação das relações entre idosos saudáveis e com comprometimento cognitivo Descrição: A doença de Alzheimer (DA) é a forma mais comum de demência. Ele gera déficits cognitivos graves o suficiente para interferir na vida diária de um indivíduo. Também cresce em importância uma síndrome menos conhecida, chamada Comprometimento Cognitivo Leve (CCL); seu tipo mais frequente (o CCL amnéstico) tem a maior taxa de conversão para a DA (15% ao ano, contra 1-2% da população total). Estudos recentes têm reconhecido a heterogeneidade da DA e do CCL, o que aumenta a relevância da análise de outras habilidades cognitivas, como a linguagem, além de avaliar a memória. A avaliação de linguagem vê na produção discursiva uma alternativa atraente, principalmente nas narrativas, uma vez que é uma forma natural de comunicação e favorece a observação da funcionalidade do paciente na vida cotidiana. No entanto, a análise de amostras de fala, quando conduzida manualmente, é uma tarefa subjetiva, demorada, e difícil para se tornar escalável para atender uma grande demanda de pessoas idosas. Para resolver este problema, este projeto propõe uma nova infraestrutura computacional para apoiar e-Science em dados clínicos para detectar sinais precoces de demência, incluindo ferramentas de Processamento de Línguas Naturais e métodos de Aprendizado de Máquina (AM) para processar dados de fala de narrativas. Além disso, o projeto irá realizar uma avaliação neuropsicológica multicêntrica em tablets e armazenar diretamente os resultados em bancos de dados na nuvem. Também irá produzir versões validadas em Português de baterias largamente utilizadas em avaliações cognitivas como a UDS, os testes do reconto da ABCD e a mini-ACE. Quanto aos métodos, Redes Neurais Profundas serão fortemente usadas para analisar dados de fala, texto, sinais e imagem. Redes Complexas irão fornecer uma nova representação para as narrativas para a geração de novas métricas para os métodos de AM classificarem os pacientes controles, CCLs e DAs. Finalmente, os testes de reconto serão modelados como uma variação da tarefa de Reconhecimento de Implicação Textual (RIT) em que o reconhecimento de proposições é automatizado por métodos de alinhamento monolíngue, seguido por um estágio de RIT.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (2) Doutorado: (2) . Integrantes: Sandra Maria Aluísio - Coordenador / Letícia Mansur - Integrante / Lilian Hubner - Integrante / Andre Carvalho - Integrante / Sonia Brucki - Integrante. Membro: Sandra Maria Aluísio.
3.	2015-2020. ANAA-Dementia: Aplicação de testes neuropsicológicos automatizados para acompanhamento de cidadãos brasileiros durante o percurso de uma vida Descrição: O objetivo do projeto é criar um avaliador neuropsicológico pessoal automatizado e acessível pela internet ou por dispositivos móveis, para detectar demências, tais como o comprometimento cognitivo leve (CCL). Esse indicador é considerado o estágio pré-clínico do mal de Alzheimer, em que a doença ainda é reversível.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (1) . Integrantes: Sandra Maria Aluísio - Coordenador. Financiador(es): GOOGLE/Fundep/Google Research Grant - Bolsa. Número de produções C, T & A: 1 Membro: Sandra Maria Aluísio.
4.	2015-Atual. Combinação de características locais e globais em aprendizagem de operadores de imagens Descrição: O problema de projeto de operadores morfológicos pode ser modelado no contexto de aprendizagem de máquina como um problema de aprendizado de uma função local que mapeia o padrão observado em cada ponto da imagem para um valor de saída. Uma característica interessante dos operadores morfológicos é o fato de eles permitirem uma interpretação intuitiva de seus efeitos, uma vez que sua concepção é fortemente baseada em explorar informação de forma e de topologia. Além disso, eles são formalmente bem caracterizados por fundamentos teóricos sólidos. Porém, por construção, operadores morfológicos não possuem propriedades interessantes como invariância à escala e à rotação e também não levam em consideração informações globais ou de contexto. Neste projeto, o objetivo principal é avançar os métodos existentes para projeto de operadores morfológicos para que estes sejam capazes de tratar objetos de diferentes escalas e levem em consideração informações globais e de contexto. Para tanto, a principal ideia a ser explorada é o uso de descritores de características diversas citados na literatura da área, de forma acoplada ao arcabouço de combinação de operadores. Deverão ser investigados os aspectos teóricos, estatísticos e práticos associados. Aplicações em processamento de imagens de documentos são planejadas como meio para validação dos métodos a serem desenvolvidos.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (2) . Integrantes: Roberto Hirata Junior - Integrante / Nina Sumiko Tomita Hirata - Coordenador / Igor do Santos Montagner - Integrante / Ana Lucia Lima Marreiros Maia - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Roberto Hirata Junior. Descrição: O problema de projeto de operadores morfológicos pode ser modelado no contexto de aprendizagem de máquina como um problema de aprendizado de uma função local que mapeia o padrão observado em cada ponto da imagem para um valor de saída. Uma característica interessante dos operadores morfológicos é o fato de eles permitirem uma interpretação intuitiva de seus efeitos, uma vez que sua concepção é fortemente baseada em explorar informação de forma e de topologia. Além disso, eles são formalmente bem caracterizados por fundamentos teóricos sólidos. Porém, por construção, operadores morfológicos não possuem propriedades interessantes como invariância à escala e à rotação e também não levam em consideração informações globais ou de contexto. Neste projeto, o objetivo principal é avançar os métodos existentes para projeto de operadores morfológicos para que estes sejam capazes de tratar objetos de diferentes escalas e levem em consideração informações globais e de contexto. Para tanto, a principal ideia a ser explorada é o uso de descritores de características diversas citados na literatura da área, de forma acoplada ao arcabouço de combinação de operadores. Deverão ser investigados os aspectos teóricos, estatísticos e práticos associados. Aplicações em processamento de imagens de documentos são planejadas como meio para validação dos métodos a serem desenvolvidos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (2) . Integrantes: Nina Sumiko Tomita Hirata - Coordenador / Roberto Hirata Jr. - Integrante / Igor dos Santos Montagner - Integrante / Ana Lucia Lima Marreiros Maia - Integrante. Financiador(es): (FAPESP) Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata.
5.	2015-2016. Customização de programação genética para evoluir algoritmos de indução de árvores de decisão para classificação de expressões gênicas Descrição: Objetivo de entender e manipular a ideia dos macro-parâmetros e building-blocks essenciais para a programação genética e o algoritmo HEAD-DT, ferramenta foco do projeto.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Ricardo Manhães Savii - Integrante / Márcio Basgalupp - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Número de produções C, T & A: 1 Membro: Ricardo Manhães Savii.
6.	2015-2017. Dicionário Multilíngue sobre a Qualidade de Vida do Trabalhador de Plataformas Petrolíferas Descrição: Visa compilar termos e expressões mais comumente utilizadas, em italiano, francês, português, inglês, espanhol, para a construção de um dicionário que atenda às necessidades específicas de empresas, profissionais e trabalhadores, voltadas para a saúde e prevenção de doenças, tais como depressão, ansiedade, oriundas da natureza dessa profissão. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Doutorado: (1) . Integrantes: Lucelene Lopes - Integrante / Maria Jose Bocorny Finatto - Integrante / Heloísa Orsi Koch Delgado - Coordenador / Lucas Zambrano Rollsing - Integrante / Debora Montenegro Pasin - Integrante / Larissa Ramos - Integrante / Fernanda Penkala - Integrante / Asafe Cortina - Integrante / Bruna Delgado Pagnoncelli - Integrante / Graça Montenegro - Integrante. Membro: Lucelene Lopes.
7.	2015-2017. Documentation of Traditional Narratives in Yaathe Descrição: The goal of this proposal is to train a group of Fulni-ô teachers to collect traditional narratives in Yaathe with the elderly. They will be also trained to transcribe and translate them and to organize a book for local distribution. The product of this project will be: (i) an electronic book with a total of 20 narratives in Yaathe, translated into Portuguese (and, possibly, into English) and (ii) a corpus of these narratives, fully annotated with ELAN, to be integrated into the existing Yaathe corpus, deposited at The Language Archive.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (1) . Integrantes: Miguel Oliveira Jr - Coordenador / Januacele Francisca da Costa - Integrante / Fábia Pereira da Silva - Integrante / Elvis Ferreira de Sá - Integrante. Financiador(es): Gesellschaft für bedrohte Sprachen - Auxílio financeiro. Número de produções C, T & A: 1 Membro: Miguel Oliveira Jr.
8.	2015-2018. Ensino e Monitoramento de Atividades Físicas via Técnicas de Inteligência Artificial Descrição: Esforço conjunto da Universidade de São Paulo, Faculdade Campo Limpo Paulista, e Academia Central Kungfu-Wushu, este projeto tem como objetivo o desenvolvimento de técnicas e ferramentas para gerenciamento, ensino e monitoramento de atividades físicas, como aplicação, principalmente, das áreas de Processamento de Imagens e Reconhecimento de Padrões. Espera-se obter como resultado (i) um sistema com alta taxa de precisão na identificação de presença de participantes das atividades em um ambiente não-controlado e com a fusão de dados de diversas fontes; (ii) uma ferramenta capaz de identificar e classificar movimentos dos participantes para fornecer retorno útil no processo de ensino-aprendizagem das atividades; (iii) o desenvolvimento de modelos e técnicas extensíveis para o tratamento de problemas similares; e (iv) a formação de novos pesquisadores com o envolvimento de alunos de mestrado e graduação de diversas áreas no projeto.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (2) . Integrantes: Norton Trevisan Roman - Coordenador / Luciano Antonio Digiampietri - Integrante / João Luiz Bernardes Júnior - Integrante / Luis Mariano del Val Cura - Integrante / Enrique Miluzzi Ortega - Integrante / Marcelo Moreira Antunes - Integrante / Valdinei Freire da Silva - Integrante. Membro: Norton Trevisan Roman.
9.	2015-2017. MAP: Aprendizado de Máquina: uma abordagem baseada em múltiplas estratégias Descrição: Esse projeto diz respeito a uma pesquisa conjunta em que técnicas de Aprendizado de Máquina (AM), com ênfase em uma abordagem baseada em múltiplas estratégias. De uma perspectiva da abordagem baseada em múltiplas estratégias, os objetivos são estudar \textit{trade-offs} entre diferentes estratégias de aprendizado e desenvolver sistemas de aprendizado que empregam múltiplas estratégias de inferência ou paradigmas computacionais em um processo de aprendizado. Como consequência, sistemas baseados em múltiplas estratégias têm o potencial de serem aplicáveis a um vasto grupo de problemas. A maioria dos problemas abordados será no contexto de aprendizado não supervisionado, ou análise de agrupamento. Por exemplo, nos iremos analisar a sinergia e os trade-offs entre agrupamento com restrições por programação com restrições (grupo francês) e agrupamento evolutivo multi-objetivo (grupo brasileiro). Os aspectos práticos das técnicas propostas serão abordados, por exemplo, no contexto de mineração e modelagem de dados biológicos, provenientes de texto e temporais. Outro importante objetivo do projeto é estimular a cooperação internacional reunindo pesquisadores brasileiros e Francês para a troca de idéias e experiências. Os grupos do Brasil e da França já possuem um histórico de colaboração que pode ser fortalecida com este projeto.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (2) Doutorado: (10) . Integrantes: Sandra Maria Aluísio - Integrante / Katti Faceli - Integrante / Marcílio Souto - Integrante / Teresa Ludermir - Integrante / Renata M.C.R. de Souza - Integrante / Mariá Cristina Nascimento - Integrante / Ana Carolina Lorena - Integrante / Tiemi Sakata - Integrante / Gustavo Batista - Integrante / Andre Ponce de Leon Carvalho - Coordenador. Membro: Sandra Maria Aluísio.
10.	2015-2016. Metanálise Clássica: Um aplicativo R/Siny Descrição: O desenvolvimento de uma interface para ferramentas técnicas é um importante passo para facilitar o uso por usuários não técnicos. Para ferramentas computacionais é normalmente requisitado um conhecimento mínimo de programação ou o usuário não terá acesso completo às suas possibilidades. Empreendedores de tecnologia procuram por espaços onde boas ferramentas não possuem somente interfaces não amigáveis, e seus possíveis usuários normalmente não possuem conhecimento técnico suficiente para explorar seu potencial. A metanálise é uma ferramenta estatística com muitas aplicações e, portanto, será apresentado um aplicativo web onde muitos usuários poderão utilizá-lo e aplicar os resultados em suas próprias pesquisas.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Ricardo Manhães Savii - Integrante / Camila Bertini Martins - Coordenador. Membro: Ricardo Manhães Savii.
11.	2015-Atual. Modelos Computacionais para Aprendizado, Representação de Conhecimento e Tomada de Decisão sob Incerteza Descrição: Projeto relacionado a Bolsa de Produtividade em Pesquisa (Pq do CNPq), nível 1C.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (6) / Doutorado: (1) . Integrantes: Fabio Gagliardi Cozman - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Membro: Fabio Gagliardi Cozman.
12.	2015-2017. O Papel da Prosódia no Processamento da Estrutura do Discurso em Língua Portuguesa: Um Estudo com Técnicas de Neuroimagem Descrição: O objetivo geral da presente proposta é investigar o papel da prosódia no processamento da estrutura do discurso em língua portuguesa, mediante a utilização de testes comportamentais e de técnicas de neuroimagem. Como objetivos específicos, o projeto de pesquisa aqui proposto pretende: (i) Examinar, mediante teste comportamental, o papel das pistas prosódicas na percepção da estrutura subjacente do discurso - especificamente de narrativas orais espontâneas - em língua portuguesa. (ii) Analisar, mediante técnicas de neuroimagem, a ativação cerebral durante o processamento de informações linguísticas (segmentais e/ou prosódicas) em uma tarefa de percepção da estrutura discursiva. Em princípio, o presente estudo fará uso de duas técnicas específicas: a eletroencefalografia (EEG) e a espectroscopia de infravermelho próximo funcional (fNIRS). (iii) Contribuir para a investigação do processamento simultâneo da prosódia e do discurso espontâneo, apresentando um estudo que combina técnicas comportamentais e técnicas de neuroimagem.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Miguel Oliveira Jr - Coordenador / Stefanie Shattuck-Hufnagel - Integrante / Fernanda Ferreira - Integrante / Tamara Swaab - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Número de produções C, T & A: 6 Membro: Miguel Oliveira Jr.
13.	2015-2023. Recursos linguísticos para o PLN da língua portuguesa Descrição: O projeto pretende investigar pontos de diálogo entre abordagens simbólicas e estatísticas tomando como ponto de partida a construção de datasets linguísticos recursos corpora anotados. Adicionalmente, o projeto toma por base a língua portuguesa, partindo do princípio de que abordagens podem ser independentes de língua, mas recursos linguísticos, não. Como contribuições do projeto, prevê-se a melhoria de recursos linguísticos para o PLN, tendo como objetivo final enriquecer as possibilidades de exploração das Humanidades Digitais em língua portuguesa. Quanto ao enquadramento teórico, o projeto assume uma visão de língua compatível com o ângulo sugerido por Wittgenstein (1953).. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (1) / Doutorado: (2) . Integrantes: Maria Cláudia de Freitas - Coordenador / Rui Milidiú - Integrante / Alexandre Rademaker - Integrante. Financiador(es): Pontifícia Universidade Católica do Rio de Janeiro - Bolsa. Número de produções C, T & A: 20 Membro: Maria Cláudia de Freitas.
14.	2015-2016. Revisão de sumários baseada em conhecimento: transformando extratos multidocumento em abstracts Descrição: De modo geral, as aplicações de Sumarização Automática Multidocumento produzem extratos, ou seja, sumários compostos por sentenças selecionadas integralmente dos textos-fonte. Apesar da evolução das estratégias de seleção de sentenças, os sumários extrativos ainda apresentam uma série de problemas relativos à informatividade e qualidade linguística. Um deles é o baixo nível de generalização. Com base em alinhamentos de textos-fonte e seus respectivos sumários humanos (multidocumento), identificou-se que o tipo mais frequente de generalização ocorre no nível sintagmático e diz respeito a entidades nomeadas. Assim, ao descrever as cadeias de correferência de sumários humanos em que tais generalizações ocorrem, geraram-se regras de reescrita que, uma vez aplicadas a extratos automáticos, podem contribuir para elevar a qualidade linguística ao diminuir o nível de especificidade dos extratos. Como tais reescritas transformam os extratos em textos mais coerentes e legíveis, esta pesquisa cumpre com o objetivo inicial de avançar a SAM extrativa do português em direção à produção de abstracts, ou seja, sumários que englobam a reescrita de parte do material linguístico advindo dos textos-fonte.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Ariani Di Felippo - Coordenador / Ani Nenkova - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Número de produções C, T & A: 1 Membro: Ariani Di Felippo.
15.	2015-2017. Sumarização Automática Multidocumento para o Português: Novas Fronteiras (Universidade de São Paulo) Descrição: A Sumarização Automática Multidocumento (SAM) visa à criação de um único sumário (ou resumo, como mais comumente chamado) a partir de um conjunto de textos-fonte sobre um mesmo assunto. Com a enorme quantidade de informação disponível atualmente, principalmente on-line, a utilidade desse tipo de recurso é evidente. A SAM começou a ser investigada em meados dos anos 90 para a língua inglesa, e somente mais recentemente, a partir de meados da década passada, ela passou a ser alvo de investigações sistemáticas para a língua portuguesa. Com isso, atualmente há para o português corpora de referência para a SAM, ferramentas básicas de processamento e análise textual, e métodos de sumarização do estado da arte, que resultaram em recursos, ferramentas e aplicações amplamente disponíveis para a comunidade de pesquisa.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Francielle Alves Vargas - Integrante / Thiago Alexandre Salgueiro Pardo - Coordenador / Rafael Torres Anchíeta - Integrante / Márcio de Souza Dias - Integrante / Erick Galani Maziero - Integrante / Pedro Paulo Balage Filho - Integrante / Fernando Antônio Asevedo Nóbrega - Integrante / Roque E. López Condori - Integrante / Guilherme Gonçalves - Integrante / Antonio Aliberte A. Machado - Integrante. Membro: Francielle Alves Vargas. Descrição: A Sumarização Automática Multidocumento (SAM) visa à criação de um único sumário (ou resumo, como mais comumente chamado) a partir de um conjunto de textos-fonte sobre um mesmo assunto. Com a enorme quantidade de informação disponível atualmente, principalmente on-line, a utilidade desse tipo de recurso é evidente. A SAM começou a ser investigada em meados dos anos 90 para a língua inglesa, e somente mais recentemente, a partir de meados da década passada, ela passou a ser alvo de investigações sistemáticas para a língua portuguesa. Com isso, atualmente há para o português corpora de referência para a SAM, ferramentas básicas de processamento e análise textual, e métodos de sumarização do estado da arte, que resultaram em recursos, ferramentas e aplicações amplamente disponíveis para a comunidade de pesquisa. Neste projeto, objetiva-se dar continuidade a essa linha de pesquisa. Por um lado, visa-se dar continuidade ao desenvolvimento e aprimoramento de recursos linguístico-computacionais e ferramentas de análise textual, que são essenciais para o avanço na área de SAM; por outro, visa-se investigar as novas fronteiras da sumarização, já investigadas para outras línguas e ainda inéditas para o português, em particular, a sumarização de atualização e de opiniões. Na sumarização de atualização, busca-se criar sumários que narrem somente as informações desconhecidas/novas para o leitor, levando-se em conta, portanto, o conhecimento prévio deste; na sumarização de opinião, busca-se sintetizar diversos textos opinativos sobre determinados objetos, como produtos eletrônicos, de forma a apoiar possíveis decisões e avaliações de usuários. Se, na primeira frente, a sumarização de atualização consiste em um desafio metodológico que dá continuidade ao que se tem feito na SAM para o português, na outra frente, tem-se em vista tanto a pesquisa como a aplicação para o usuário final. Acredita-se que, além da formação de recursos humanos e da criação de uma massa crítica de pesquisadores na área, tão pequena no Brasil, esse projeto tem potencial de trazer contribuições significativas para a área como um todo pela proposta de metodologias inovadoras.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (3) / Doutorado: (6) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Pedro Paulo Balage Filho - Integrante / Erick Galani Maziero - Integrante / Paula Christina Figueira Cardoso - Integrante / Fernando Antônio Asevedo Nóbrega - Integrante / Márcio de Souza Dias - Integrante / Roque E. López Condori - Integrante / Guilherme Gonçalves - Integrante / Antonio Aliberte A. Machado - Integrante / Francielle Alves Vargas - Integrante / Rafael Torres Anchiêta - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.
16.	2015-2018. TextLink - Structuring Discourse in Multilingual Europe Descrição: Effective discourse in any language is characterized by clear relations between sentences and coherent structure. But languages vary in how relations and structure are signalled. While monolingual dictionaries and grammars can characterise the words and sentences of a language and bilingual dictionaries can do the same between languages, there is nothing similar for discourse. For discourse, however, discourse-annotated corpora are becoming available in individual languages. The TextLink Action will facilitate European multilingualism by (1) identifying and creating a portal into such resources within Europe ?including annotation tools, search tools, and discourse-annotated corpora; (2) delineating the dimensions and properties of discourse annotation across corpora; (3) organising these properties into a sharable taxonomy; (4) encouraging the use of this taxonomy in subsequent discourse annotation and in cross-lingual search and studies of devices that relate and structure discourse; and (5) promoting use of the portal, its resources and sharable taxonomy. With partners from across Europe, TextLink will unify numerous but scattered linguistic resources on discourse structure. With its resources searchable by form and/or meaning and a source of valuable correspondences, TextLink will enhance the experience and performance of human translators, lexicographers, language technology and language learners alike.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Liesbeth DEGAND - Coordenador. Membro: Thiago Alexandre Salgueiro Pardo.
17.	2015-2018. VVP Valências Verbais do Português Brasileiro Descrição: Descrição das valências dos verbos do português brasileiro. Elaboração de uma lista dos verbos utilizados na fala (cerca de 5000 itens), cada um deles associado a sua valência, ou seja, às construções em que pode ocorrer. Discussão de uma série de problemas teóricos preliminares à elaboração da lista, como: complementos x adjuntos; papéis temáticos; funções sintáticas na oração simples.. Situação: Desativado; Natureza: Pesquisa. Integrantes: Marcella Monteiro Lemos Couto - Integrante / Mário Alberto Perini - Coordenador / Larissa Santos Ciríaco - Integrante / Eliane Mourão - Integrante / Madalena Loreto Neta - Integrante. Membro: Marcella Monteiro Lemos Couto.

2013

1.	2013-2015. A Prosódia de Agrupamentos Numéricos no Português do Brasil Descrição: São dois os principais objetivos deste projeto: (i) apresentar uma descrição detalhada de como números naturais agrupados em certas estruturas fixas, como por exemplo, nos documentos de identificação pessoal (CPF, RG), nos números telefônicos, nos números em cartões de crédito e nos números de informação bancária, são estruturados no português do Brasil. A descrição será feita tanto no que diz respeito aos padrões de agrupamento numérico, quanto no que concerne à prosódia dessas estruturas; e (ii) disponibilizar um corpus de fala de agrupamentos numéricos devidamente anotado, que será utilizado para alimentar sistemas de síntese e reconhecimento automático de voz, como aquele desenvolvido pelo Projeto Fala Brasil (www.laps.ufpa.br/falabrasil). Isso garantirá uma melhor taxa de acerto desses sistemas.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) / Doutorado: (2) . Integrantes: Miguel Oliveira Jr - Coordenador / Ayane Nazarela Santos de Almeida - Integrante / Remildo Barbosa da Silva - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Número de produções C, T & A: 8 Membro: Miguel Oliveira Jr.
2.	2013-2016. Agrupamento Hierárquico de Textos para Aprendizado não Supervisionado de Websensors Descrição: A popularização de plataformas web para publicação de conteúdo textual tem motivado o desenvolvimento de métodos para extração automática de conhecimento implícito nos textos. Em particular, uma nova gama de estudos e aplicações tem sido proposta para explorar a web como um grande e poderoso 'sensor social'', permitindo monitorar vários tipos de eventos a partir de textos publicados em portais de notícias e redes sociais, como detecção de epidemias, análise de sentimentos, bem como a extração de indicadores políticos e econômicos. Por outro lado, a construção de um sensor da web (websensor) é uma tarefa complexa, pois depende de especialistas de domínio para definição dos parâmetros do sensor, ou seja, expressões para busca, filtro e monitoramento de conteúdo textual da web. A necessidade de especialistas de domínio geralmente limita essas aplicações, pois em muitos problemas não há compreensão clara dos fenômenos que se deseja monitorar. Neste projeto de pesquisa são investigados métodos não supervisionados de aprendizado de máquina, em particular, agrupamento hierárquico de textos para apoiar a construção automática de websensors. A ideia básica é utilizar uma amostra de documentos textuais do domínio do problema e, em conjunto com algoritmos de agrupamento hierárquico para extração de padrões dos textos, apoiar a tarefa de aprendizado não supervisionado de websensors. Dessa forma, espera-se reduzir a dependência de um especialista para definição dos parâmetros dos sensores. Cada websensor representa um determinado fenômeno que pode ser monitorado ao longo do tempo e utilizado para apoiar processos de tomada de decisão.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) . Integrantes: Ricardo Marcondes Marcacini - Coordenador / Maria Fernanda Moura - Integrante / Solange Oliveira Rezende - Integrante / IVONE PENQUE MATSUNO - Integrante / Ronaldo Fiorilo dos Santos - Integrante / Franciene Duarte Gomes - Integrante / Rodrigo Mitsuo Kishi - Integrante / Vitor Mesaque Alves de Lima - Integrante / Gleice Carlos Nogueira Rodrigues - Integrante. Número de produções C, T & A: 5 Membro: Ricardo Marcondes Marcacini.
3.	2013-2014. Análise de Imagens para a Medida da Força de Ejeção Atrial Descrição: A força de ejeção atrial, definida como a força exercida pelo átrio esquerdo para acelerar o sangue para o ventrículo esquerdo durante a sístole atrial, pode ser medida de uma forma não invasiva através dos dados obtidos pelas imagens de ecocardiografia. O índice da função atrial, baseado na mecânica newtoniana clássica provê uma medida fisiológica da função atrial sistólica. Este trabalho pretende aplicar técnicas de análise de imagens para medir variações no volume do sangue ejetado durante a sístole atrial bem como medidas de velocidade e aceleração. Esses dados serão obtidos através da segmentação dos gráficos de volume e velocidade contidos nas imagens de ecocardiografia. Estas medidas possibilitarão o desenvolvimento de um modelo matemático para o cálculo da força de ejeção atrial em pacientes com disfunção ventricular esquerda, independente da etiologia e posteriormente serão utilizadas para o estudo da performance ventricular por analogia.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (1) / Doutorado: (1) . Integrantes: Iago Breno Alves do Carmo Araujo - Integrante / Carlos Alberto Rodrigues - Coordenador / Airandes de Sousa Pinto - Integrante. Financiador(es): Universidade Estadual de Feira de Santana - Bolsa. Membro: Iago Breno Alves do Carmo Araujo.
4.	2013-Atual. Aprendizagem de operadores de imagens - Aplicações em detecção de objetos e segmentação de imagens Descrição: Dado o volume crescente de imagens geradas atualmente, a importância de métodos de processamento e análise que possam ser facilmente adaptados para diferentes t ipos de imagens está cada vez mais evidente. Dentre tarefas comuns em processame nto de imagens destacam-se a segmentação e a detecção de objetos de interesse. De um lado, os operadores morfológicos são ferramentas poderosas que podem ser utilizados na solução dessas tarefas. De outro lado, aprendizagem computacional é uma abordagem que permite a adaptação de métodos de processamento de um contexto para outro. A aliança desses dois vem gerando técnicas de aprendizagem de opera dores morfológicos a partir de imagens de treinamento. No entanto, os resultados satisfatórios ainda estão restritos ao contexto de processamento de imagens binárias. Este projeto de pesquisa visa avanços no estado-da-arte em aprendizagem d e operadores morfológicos para imagens níveis de cinza, e especialmente voltados para os problemas de detecção de objetos e segmentação de imagens. Uma das cont ribuições esperadas desta proposta é a solução de problemas reais de detecção e segmentação de objetos em imagens de diferentes áreas tais como Astronomia, Oceanografia e Biologia, em colaborações multidisciplinares mantidas pelos membros da equipe.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (1) . Integrantes: Roberto Hirata Junior - Integrante / Carlos da Silva dos Santos - Integrante / Hirata, Nina S.T. - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Roberto Hirata Junior. Descrição: Dado o volume crescente de imagens geradas atualmente, a importância de métodos de processamento e análise que possam ser facilmente adaptados para diferentes t ipos de imagens está cada vez mais evidente. Dentre tarefas comuns em processame nto de imagens destacam-se a segmentação e a detecção de objetos de interesse. D e um lado, os operadores morfológicos são ferramentas poderosas que podem ser ut ilizados na solução dessas tarefas. De outro lado, aprendizagem computacional é uma abordagem que permite a adaptação de métodos de processamento de um contexto para outro. A aliança desses dois vem gerando técnicas de aprendizagem de opera dores morfológicos a partir de imagens de treinamento. No entanto, os resultados satisfatórios ainda estão restritos ao contexto de processamento de imagens bin árias. Este projeto de pesquisa visa avanços no estado-da-arte em aprendizagem d e operadores morfológicos para imagens níveis de cinza, e especialmente voltados para os problemas de detecção de objetos e segmentação de imagens. Uma das cont ribuições esperadas desta proposta é a solução de problemas reais de detecção e segmentação de objetos em imagens de diferentes áreas tais como Astronomia, Ocea nografia e Biologia, em colaborações multidisciplinares mantidas pelos membros d a equipe.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Coordenador / Roberto Hirata Jr. - Integrante / Carlos da Silva dos Santos - Integrante. Financiador(es): (CNPq) Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata.
5.	2013-2015. Avaliação Fonético-Fonológica em Crianças com Desenvolvimento Típico, Estudantes da Educação Infantil de Escolas Municipais Públicas de Maceió-AL Descrição: Por trás da produção da linguagem falada pela criança, evidencia-se uma série de operações mentais em níveis prosódicos e segmentais que determinam as seleções das sequências sonoras, os segmentos específicos e as condições e restrições fonotáticas da língua ao nível fonético. Esta pesquisa tem como objetivo investigar a organização prosódica e segmental da aquisição do PB por meio de descrições e análises fonético- fonológicas de preenchimento que ocorrem no nível da palavra fonológica, no pé métrico e nas sílabas componentes com os respectivos segmentos da hierarquia silábica, a partir de dados de linguagem falada de crianças entre 1;6 a 5;11 de idade, estudantes da Educação Infantil da rede pública do município de Maceió - Al . Assim, espera-se ampliar o conhecimento científico na área dos estudos de aquisição fonológica e a sua aplicabilidade na clínica fonoaudiológica, proporcionar a interdisciplinaridade envolvendo instituições universitárias públicas no Estado de Alagoas, além de promover ações preventivas e a interceptação precoce nos casos de comprometimento no desenvolvimento da linguagem oral.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (1) . Integrantes: Miguel Oliveira Jr - Integrante / Luzia Miscow da Cruz Payão - Coordenador / Maraísa Espídola de Castro - Integrante. Número de produções C, T & A: 3 Membro: Miguel Oliveira Jr.
6.	2013-2014. Compressão de Sinais Biomédicos Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) . Integrantes: Hugo Neves de Oliveira - Integrante / Arnaldo Gualberto de Andrade e Silva - Integrante / Leonardo Vidal Batista - Coordenador / Ygor Crispim Diniz - Integrante. Membro: Hugo Neves de Oliveira.
7.	2013-2013. Criação de um meio robótico para escalada de paredes verticais de tijolos Descrição: Desenvolvimento de garras para um robô escalador, com a capacidade de prendê-lo em tijolo, anteriormente somente carpete.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Diego Pavan Soler - Integrante / Jonathan Clark - Coordenador. Membro: Diego Pavan Soler.
8.	2013-2016. CRÍTiC@ - Compilação e Recuperação de Informações Técnico-científicas e Indução ao Conhecimento de forma Ágil na Rede AgroHidro Descrição: A proposta deste projeto componente é concentrar as ações de análise e organização sistematizada da informação utilizada e produzida pelo projeto "Impactos do uso agrícola e das mudanças climáticas sobre os recursos hídricos em diferentes ecorregiões brasileiras: diagnose e estratégias mitigadoras" AgroHidro. Desta forma, pretende-se melhorar a gestão do conhecimento técnico-científico na área, por meio de análises cruzadas das informações, bem como subsidiar ações de investigação e disseminação do conhecimento na rede de pesquisa. Pois, em uma rede de pesquisa em um domínio de conhecimento fechado, como a Rede AgroHidro, existe a necessidade de possuir um ferramental de análise da informação especificamente útil à rede, que facilite, não apenas, a identificação de bibliografia e outras fontes de material de divulgação, mas que permita o cruzamento de informações de diversas fontes a fim de avaliar o caminho percorrido pela rede em PD&I; por exemplo, tendências, oportunidades, inserção no contexto nacional e áreas deficitárias em tecnologias para gestão de recursos hídricos. Para isso, precisa-se monitorar tanto a própria produção técnico-científica da rede, no passado e presente, como de outras redes ou iniciativas isoladas que visem objetivos semelhantes de PD&I no mesmo domínio de conhecimento no caso, recursos hídricos. Assim, essa proposta integra soluções de tecnologia da informação dando apoio à análise e organização do conhecimento para suportar ações de pesquisa, desenvolvimento e inovação, na rede AgroHidro, objetivando: 1) obter análises, considerando passado e presente, em tendências tecnológicas, de pesquisa e desenvolvimento, em recursos hídricos no Brasil e localizando as estimativas obtidas no tempo e espaço; 2) contribuir com processos de busca e levantamento tecnológico, com uma organização e recuperação da informação próprias, que demandam análises cruzadas de dados, 3) especificar e validar a organização do conhecimento de recursos.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Maria Fernanda Moura - Coordenador / Alipio Mario Guedes Jorge - Integrante. Membro: Solange Oliveira Rezende.
9.	2013-2013. Development of Flow and Concentration Sensor for Microalgae Photobioreactors Descrição: O projeto foi feito durante meu período de intercambio na matéria Senior Design I. Foi projetado e desenvolvido uma estação de sensores para um biorreator de alga. Esta estação consistia de sensores de vazão volumétrica não intrusivo (utilizando um par de sensor UV e um sensor de ultrasom) e sensores de temperatura. Os valores obtidos desse sensores são salvos na memória uma raspberry PI para uso posterior.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Diego Pavan Soler - Integrante / Juan C. Ordonez - Coordenador. Membro: Diego Pavan Soler.
10.	2013-2016. Esqueleto ? investigação sobre o léxico do corpo para a inclusão de informação semântica em corpora da língua portuguesa Descrição: O projeto Esqueleto tem como objetivo a investigação do léxico do corpo, tendo em vista a inclusão de informação semântica nos corpora do projeto AC/DC (Costa et al., 2009; Santos, 2011). Subordina-se ao objetivo mais amplo de melhoria de recursos linguísticos para o processamento computacional da língua portuguesa. Busca, especificamente, responder às seguintes perguntas: ?Como nos referimos ao corpo /partes do corpo em português? Que outros tipos de sentido atribuímos às palavras que compõem o léxico do corpo??. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Maria Cláudia de Freitas - Coordenador / Diana Santos - Integrante. Financiador(es): Pontifícia Universidade Católica do Rio de Janeiro - Bolsa. Número de produções C, T & A: 4 Membro: Maria Cláudia de Freitas.
11.	2013-2015. Intelligent Sensor for controlling agricultural pests and disease-vector insects Descrição: Applications such as intelligent sensors should be able to collect environment information and to make decisions based on input data. An example is an under-development low-cost sensor to detect and classify insects in their species using laser light and machine learning techniques. This sensor is an important step towards the development of intelligent traps able to attract and selectively capture insect species of interest such as disease vectors or agricultural pests, without affecting the beneficial species. The data gathered by the sensor constitutes a data stream with non-stationary characteristics, since the insects metabolism is influenced by environmental conditions such as temperature, humidity and atmospheric pressure. This research grant proposal has two main objectives: the first one is to develop new algorithms to classify in real-time signals from the sensor obtained from the data stream; the second one is to technologically develop the sensor in order to allow the developed machine learning techniques to be embedded in the sensor. Situação: Concluído; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Gustavo Enrique de Almeida Prado Alves BAtista - Coordenador / Eamonn John Keogh - Integrante / Agenor Mafra Neto - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende.
12.	2013-2015. Investigação do Fenômeno da Complementaridade para a Sumarização Automática Multidocumento Descrição: O desenvolvimento de aplicações computacionais capazes de tratar a incrível quantidade de informação disponível, principalmente on-line, tem sido foco de inúmeras pesquisas. A sumarização automática multidocumento (SAM) é uma dessas aplicações. Nela, gera-se automaticamente um único sumário a partir de uma coleção de textos que tratam de um mesmo assunto. Visando a coesão e a coerência do sumário, são diversos os desafios da SAM, como o tratamento de informações complementares. Neste projeto, investiga-se o fenômeno da complementaridade entre sentenças provenientes de textos distintos de uma mesma coleção. Tal fenômeno linguístico ainda não foi sistematicamente investigado e, com base em análise de corpus, pretende-se delinear métodos de detecção da complementaridade que possam subsidiar a SAM de textos jornalísticos em português.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (1) . Integrantes: Jackson Wilke da Cruz Souza - Integrante / Ariani Di Filippo - Coordenador. Número de produções C, T & A: 7 Membro: Jackson Wilke da Cruz Souza.
13.	2013-2014. Lexicologia Social Aplicada à Realidade Brasileira: Período da Ditadura (1964-1985) (Universidade Federal de Minas Gerais) Descrição: Analisar o vocabulário de documentos produzidos por diferentes setores no período da ditadura no Brasil (1964-1985) para identificar neologismos e procurar a motivação sócio-histórica para seu surgimento.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (8) / Doutorado: (1) . Integrantes: Francielle Alves Vargas - Integrante / César Nardelli Cambraia - Coordenador / Paula Carvalho Tavares - Integrante / Thaynara Nascimento Santos - Integrante / Danívia da Cunha Mattozo - Integrante / Sandro Marcio Drumond Alves - Integrante / Beatriz Fusco Nogueira Simões - Integrante / Lucas de Lima Pinto - Integrante / Silvana Cristina Romero - Integrante / Lívia Elisa Lemos Melo - Integrante / Davi Pereira da Silva Ribeiro - Integrante. Membro: Francielle Alves Vargas.
14.	2013-Atual. NAP - eScience Descrição: A ciência moderna é crescentemente interdisciplinar e intensiva em dados. Na área de ciências da vida, por exemplo, com o surgimento de plataformas de alto desempenho para imagem e estudos genômicos o gargalo não está mais na aquisição de dados mas sim no seu processamento, análise, armazenamento e transferência. Esse cenário levou ao desenvolvimento de novas metodologias matemáticas e de ciência da computação para o tratamento de grande volume de dados, conhecidas hoje como e-Science. Entre os recursos mais importantes para e-Science estão a computação em nuvem e o uso de ferramentas de análise on-line. É também imperativo que a aquisição e inclusão de dados oriundos de plataformas de alto desempenho em bancos, para posterior análise e transferência, obedeçam a critérios estabelecidos ex ante por uma curadoria (data engineering). Essa nova arquitetura de tratamento de dados é essencial para que a descoberta científica nos principais domínios do conhecimento não venha a ser detida pelo ?dilúvio de dados? (Baraniuk RG, Science.2011. 331:717-8). A presente proposta centra-se na criação do Núcleo de e-Science da USP como uma resposta institucional para a formação de uma rede de laboratórios da Universidade de São Paulo capaz de: i) liderar iniciativas em desenvolvimento e difusão de metodologias computacionais aplicáveis à captura, armazenamento, manutenção e análise de dados gerados por plataformas de alto desempenho em domínios como medicina e biologia; ii) organizar a formação de recursos humanos nessa área ; iii) gerar, difundir e transferir tecnologia em e-Science.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Roberto Hirata Junior - Integrante / Roberto Marcondes César Junior - Coordenador. Membro: Roberto Hirata Junior.
15.	2013-2016. Pneumopatias Ocupacionais: padrões da linguagem médica para leigos e especialistas Descrição: Estudo de padrões da linguagem médica em português no que tange ao emprego de terminologias, de construções recorrentes e recursos de textualização. Bolsa de Produtividade CNPq 2013-2016.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (2) Doutorado: (2) . Integrantes: Lucelene Lopes - Integrante / Aline Villavicencio - Integrante / Maria Jose Bocorny Finatto - Coordenador. Membro: Lucelene Lopes.
16.	2013-2015. Portal Min@s: corpora de fala e escrita Descrição: O projeto visa, por meio de um trabalho conjunto de especialistas em estudos da linguagem, linguística computacional e ciências da computação, desenvolver e implementar um portal integrado de corpora de fala e escrita com funcionalidades de uso de caráter inovador.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) . Integrantes: Sandra Maria Aluísio - Coordenador / Helena de Medeiros Caseli - Integrante / Thiago Lima Vieira - Integrante / Leandro Henrique Mendonça de Oliveira - Integrante / Arnaldo Candido Junior - Integrante / Michelle Mendonça - Integrante / Célia Maria Magalhães - Integrante / Jânia Martins Ramos - Integrante / Adriana Pagano - Integrante / Fabio Alves - Integrante / Thais Cristófaro Silva - Integrante. Membro: Sandra Maria Aluísio. Descrição: O projeto visa, por meio de um trabalho conjunto de especialistas em estudos da linguagem, linguística computacional e ciências da computação, desenvolver e implementar um portal integrado de corpora de fala e escrita com funcionalidades de uso de caráter inovador, a fim de potencializar os recursos e a capacidade instalada do Programa de Pós-graduação em Estudos Linguísticos da Faculdade de Letras da UFMG com o objetivo de dar visibilidade nacional e internacional a resultados de pesquisas realizadas no âmbito do Programa. Pautada num planejamento estratégico que contempla desenvolvimento científico e tecnológico, formação de recursos humanos e intercâmbio interinstitucional, a proposta consolida os percursos de quatro Laboratórios associados da FALE/UFMG através da integração de seus bancos de dados, realizada com o suporte de especialistas do NILC/USP e em interação com especialistas em corpora de grupos consolidados em nível nacional e Internacional. Os produtos terão fundamental contribuição na consolidação do Programa enquanto centro de excelência no Estado de Minas Gerais e no Brasil, servindo como referência para outros centros de pesquisa nacionais e internacionais.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Helena de Medeiros Caseli - Integrante / Sandra Maria Aluísio - Coordenador / Célia Maria Magalhães - Integrante / Adriana Silvina Pagano - Integrante. Membro: Arnaldo Candido Junior.
17.	2013-2015. Processamento Semântico de Textos em Português Brasileiro Descrição: O objetivo geral do projeto de pesquisa, em parceria entre o ICMC-USP e a SAMSUNG, é avançar o estado da arte em processamento semântico de textos/documentos escritos em Português Brasileiro (PB), mais especificamente, permitir a anotação de papéis semânticos (SRL) e a desambiguação lexical de sentido (WSD) de verbos, e, com base nesses recursos e ferramentas, construir aplicações de mineração e sumarização de textos, com especial enfoque em opiniões sobre produtos encontradas na web. O projeto é coordenado pelos Profs. Thiago A. S. Pardo e Sandra M. Aluísio.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (5) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Maria das Graças Volpe Nunes - Integrante / Sandra Maria Aluísio - Integrante / Magali Duran - Integrante / Alessandro Y. Bokan Garay - Integrante / Lucas V. Avanço - Integrante / Marco A. Sobrevilla Cabezudo - Integrante / Nathan S. Hartmann - Integrante / Roque E. López Condori - Integrante / Marina C. Viviani - Integrante / Paulo Augusto de Godoy Patire - Integrante. Membro: Thiago Alexandre Salgueiro Pardo. Descrição: O objetivo geral do projeto de pesquisa, em parceria entre o ICMC-USP e a SAMSUNG, é avançar o estado da arte em processamento semântico de textos/documentos escritos em Português Brasileiro (PB), mais especificamente, permitir a anotação de papéis semânticos (SRL) e a desambiguação lexical de sentido (WSD) de verbos, e, com base nesses recursos e ferramentas, construir aplicações de mineração e sumarização de textos, com especial enfoque em opiniões sobre produtos encontradas na web. O projeto é coordenado pelos Profs. Thiago A. S. Pardo e Sandra M. Aluísio.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (5) . Integrantes: Sandra Maria Aluísio - Coordenador / Maria das Gracas Volpe Nunes - Integrante / Thiago Alexandre Salgueiro Pardo - Integrante / Magali Sanches Duran - Integrante. Membro: Sandra Maria Aluísio. Descrição: O objetivo geral do projeto de pesquisa, em parceria entre o ICMC-USP e a SAMSUNG, é avançar o estado da arte em processamento semântico de textos/documentos escritos em Português Brasileiro (PB), mais especificamente, permitir a anotação de papéis semânticos (SRL) e a desambiguação lexical de sentido (WSD) de verbos, e, com base nesses recursos e ferramentas, construir aplicações de mineração e sumarização de textos, com especial enfoque em opiniões sobre produtos encontradas na web. O projeto é coordenado pelos Profs. Thiago A. S. Pardo e Sandra M. Aluísio.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (5) . Integrantes: Maria das Graças Volpe Nunes - Integrante / Thiago A. S. Pardo - Integrante / Sandra M Aluisio - Coordenador / Lucas Vinicius Avanço - Integrante / Magali S Duran - Integrante. Número de produções C, T & A: 7 Membro: Maria das Graças Volpe Nunes.
18.	2013-2016. Real-time Monitoring of Insect Pragues in Agriculture and the Environment Descrição: Não há dúvidas de que insetos são muito importantes na agricultura e no meio ambiente. Embora os insetos que mais atraiam atenção sejam as pragas agrícolas, muitos insetos são benéficos para o meio ambiente e para os seres humanos. Por exemplo, insetos são responsáveis pela polinização de pelo menos dois terços de todos os alimentos consumidos no mundo. Devido à sua importância para os seres humanos, o recente declínio das populações de insetos polinizadores, especialmente as abelhas, é considerado um grave problema ambiental frequentemente associado à exposição a pesticidas. Acreditamos que pelo uso de tecnologia é possível reduzir a utilização de pesticidas. Para isso, propomos uma armadilha inteligente de baixo custo que captura seletivamente espécies de insetos nocivos, libertando todas as outras espécies. Tal armadilha terá um impacto mínimo sobre o meio ambiente. No cerne da armadilha inteligente encontra-se um novo sensor que estamos desenvolvendo. Este sensor faz uso de uma luz laser para capturar dados de insetos à distância e utiliza técnicas de Aprendizado de Máquina para identificar as espécies de insetos. Neste projeto propomos desenvolver o sensor e a armadilha inteligente e utilizá-los em uma importante aplicação agrícola, capturando o psilídeo dos citros. Esta praga afeta plantações de laranja e está presente no Brasil e nos Estados Unidos. Descrevemos os desafios científicos e tecnológicos para desenvolver tal armadilha inteligente. Discutimos o nosso plano para desenvolve-la em um prazo de quatro anos a partir do estado atual de desenvolvimento até a realização de experimentos em campo... Situação: Concluído; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / André Carlos Ponce de Leon Ferreira de Carvalho - Integrante / Ronaldo Cristiano Prati - Integrante / Gustavo Enrique de Almeida Prado Alves BAtista - Coordenador / Eamonn John Keogh - Integrante / Agenor Mafra Neto - Integrante. Membro: Solange Oliveira Rezende.
19.	2013-2016. Research on Geo-spatial Marine Biology Data Mining Using Time Series, Text Mining and Visualization Descrição: We propose a focused, interdisciplinary research project on data mining and data visualization with a specific focus on marine data. This data is particularly challenging for data mining as it presents only a very sparse set of data points with respect to the volume of the marine space that is being modelled and investigated. It also presents a set of challenges in visualization of data and of modelling results, as the data are inherently three-dimensional and from an unfamiliar context relative to data from on land. We will work in an interdisciplinary team with researchers in data mining, data visualization, and marine biology to develop visualization methods that will be appropriate for marine biology applications of data mining. The data may be derived from multiple disparate sources, including fisheries or scientific surveys, autonomous sensors, satellite data or field studies. For model outputs, we will particularly work on the visualization of results from a new generation of ecosystem model, analogous to the general circulation models used to predict global climate. This model includes all organism types on both land and sea. We face the challenge that it can produce gigabytes to terabytes of outputs, including tracking all organism interactions, individual states, and the spatial distribution of individuals. Thus we need to summarize, extract, and visualize outputs at multiple scales including that of individuals, ecological communities, and the globe. These data need to be visualized in a manner that will then be useful and interpretable for the international policy community... Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (2) . Integrantes: Solange Oliveira Rezende - Integrante / Maria Carolina Monard - Integrante / André Carlos Ponce de Leon Ferreira de Carvalho - Integrante / Maria Cristina Ferreira Oliveira - Integrante / Gustavo Enrique de Almeida Prado Alves BAtista - Coordenador / Stan Matwin - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Cooperação. Membro: Solange Oliveira Rezende.
20.	2013-2016. Rich Text Analysis through Enhanced Tools based on Lexical Resources Descrição: The objective of the project is the development of tools for the syntactico-semantic analysis of Spanish and Portuguese. To do this, we aim to build a framework to integrate the different capabilities and resources of the groups involved. In particular, we want to integrate different lines of work on compositional semantics and enriched lexica: the Lexicon-Grammar tables, verbal subcategorization frames, multiword expressions, grammatical formalisms with enough expressivity to integrate this information, and learning mechanisms capable of building complex models from examples at these levels of analysis. For more information see: http://lauraalonsoalemany.wix.com/rita. Situação: Concluído; Natureza: Pesquisa. Integrantes: Roana Rodrigues - Integrante / Oto Araújo Vale - Integrante / Maria José Bocorny Finatto - Coordenador / Laura Alonso Alemany - Integrante / Eric Laporte - Integrante / Adriele Beatriz Kucinkas - Integrante. Número de produções C, T & A: 3 Membro: Roana Rodrigues.
21.	2013-2015. Sistemas de Múltiplos Classificadores utilizando Florestas de Caminhos Ótimos Descrição: Métodos de combinação de classificadores são efetivos, sob determinadas condições, para diversas aplicações em reconhecimento de padrões. A geração de múltiplos classificadores pode ser feita por manipulação dos atributos, das instâncias, de forma paralela ou sequencial. Cada técnica possui características próprias visando a melhoria da tarefa de classificação e adquire propriedades diferentes a depender dos classificadores utilizados para compor o sistema. Enquanto métodos clássicos de aprendizado supervisionado foram estudados nesse contexto, o classificador Optimum-Path Forest (OPF) baseado em florestas de caminhos ótimos foi pouco explorado e estudado. Nesse projeto será feito um estudo dos métodos de criação de múltiplos classificadores por manipulação de instâncias e atributos, geração de diversidade, relação diversidade/erro e tempo de execução utilizando o classificador OPF. Além disso será proposta uma modificação no algoritmo de classificação para permitir saídas em nível de medida, permitindo melhor análise do comportamento da classificação.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (1) . Integrantes: Moacir Antonelli Ponti - Coordenador / Isadora Rossi - Integrante / Gabriel de Barros Paranhos da Costa - Integrante / Tiago Santana de Nazaré - Integrante / Rodrigo Vicente Casagrande Beber - Integrante / Luciana Calixta Escobar - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Moacir Antonelli Ponti.
22.	2013-2013. Tracking Projectiles in Optically Opaque Media Descrição: Trabalho final de graduação realizado na FSU. O projeto foi patrocinado pela Eglin Air Force Research Lab (AFRL). O objetivo do projeto foi desenvolver um algoritmo que tem a capacidade de determinar os parâmetros de trajetória de um projétil enquanto este viaja em um meio opaco, otimizando a construção e a configuração dos sensores, além de desenvolver um meio de protegê-los.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Diego Pavan Soler - Coordenador / Rajan Kumar - Integrante. Membro: Diego Pavan Soler.
23.	2013-2015. Técnicas para Modelagem e Solução de Alta-Performance para Redes de Autômatos Estocásticos Descrição: O projeto visa desenvolver um conjunto de técnicas e métodos para a solução eficiente de modelos em Redes de Autômatos Estocásticos (SAN). O formalismo SAN possui diversas aplicações que vão desde processamento de linhas de produção, passando por linguagem natural, redes de computadores, protocolos, máquinas paralelas, engenharia de software e até realidades relacionadas a ciências da terra, como geologia e meteorologia. Portanto, faz parte dos objetivos deste projeto prover formas de facilitar o desenvolvimento de modelos com vista a estas realidades, bem como a evolução dos algoritmos de solução voltados para o tipo de modelos que são desenvolvidos para estas realidades.. Situação: Concluído; Natureza: Pesquisa.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Lucelene Lopes - Integrante / Paulo Henrique Lemelle Fernandes - Coordenador / Afonso Sales - Integrante / Joaquim Assunção - Integrante / Jean-Marc Vincent - Integrante / Ricardo Melo CZEKSTER - Integrante / Thais Webber - Integrante / Fernando Luís Dotti - Integrante / Philippe Olivier Alexandre Navaux - Integrante / Nicolas Maillard - Integrante / Jean-Michel Fourneau - Integrante / Franck Quessette - Integrante / Leila Kloul - Integrante / Thu Ha Dao Thi - Integrante. Financiador(es): COFECUB - Cooperação. Membro: Lucelene Lopes.
24.	2013-2014. Ver Brasil Descrição: O projeto Ver Brasil tem por objetivo o desenvolvimento de um Sistema Brasileiro de Cinema Digital (SBCD), compreendendo armazenamento, distribuição e exibição. Este projeto se estrutura em dois eixos principais de ações: democratização do acesso à cultura e desenvolvimento de tecnologia nacional de ponta para cinema digital. Hoje existem mais de cinco mil municípios que não tem sala de cinema. A digitalização de toda cadeia de valor do cinema (produção, distribuição e exibição) cria uma oportunidade de expandir o sistema. A transição do analógico para o digital leva ao barateamento dos equipamentos, quando bem feita e apoiada no uso de tecnologias abertas, padronizadas e de baixo custo. O que aparenta ser uma crise, apontando para o fechamento das já escassas salas de cinema no Brasil, é de fato uma oportunidade para desenvolvimento de tecnologias nacionais estratégicas para democratização do acesso a cultura, produção, distribuição e exibição de conteúdos nacionais para cidadãos brasileiros que habitam pequenas e médias cidades e nunca tiveram a experiência de ?ir ao cinema? nas cidades onde moram.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) . Integrantes: Hugo Neves de Oliveira - Integrante / José Ivan Bezerra Vilarouca Filho - Integrante / Erick Augusto Gomes de Melo - Integrante / Guido Lemos de Souza Filho - Coordenador / Manoel Gomes da Silva Neto - Integrante. Membro: Hugo Neves de Oliveira.

2012

1.	2012-2013. Anotadores Semânticos baseados em Aprendizado Ativo Descrição: Projeto coordenado pelo pesquisador Ruy Luiz Milidiú.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Maria Cláudia de Freitas - Integrante / Cícero Nogueira dos Santos - Integrante / Júlio Duarte - Integrante / Rui Milidiú - Coordenador / Eduardo Alves Motta - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Maria Cláudia de Freitas.
2.	2012-2016. Desafios em Visualização Exploratória de Dados Multidimensionais: Novos Paradigmas, Escalabilidade e Aplicações Descrição: Este projeto visa desenvolver novas técnicas e paradigmas que contribuam para o avanço da área de visualização de dados científicos e abstratos, com ênfase no tratamento e manipulação de dados de alta dimensão, multimodais e variantes no tempo. Os novos paradigmas a serem desenvolvidos deverão fornecer metáforas visuais criadas a partir de técnicas de projeção multidimensional e árvores filogenéticas, buscando facilitar a compreensão, exploração e mineração visual de, entre outros, dados textuais, coleções de imagens ou músicas e dados de sensoriamento em nanoescala. Além de primitivas geométricas como unidade de representação visual, propomos usar estruturas de árvores e combinações de entidades geométricas com entidades abstratas a fim de criar um arcabouço unificado de manipulação e representação visual de dados de alta dimensão. Este projeto também inova na proposta de trazer métodos de visualização e exploração visual para o contexto de dispositivos portáteis. Os desenvolvimentos aqui propostos permitirão manter os grupos de pesquisa envolvidos na vanguarda da pesquisa na área, em nível mundial, fomentando a criação de propriedade intelectual nacional e a transferência tecnológica.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Moacir Antonelli Ponti - Integrante / Hélio Pedrini - Integrante / Luis Gustavo Nonato - Coordenador / Rosane Minghim - Integrante / Maria Cristina F. Oliveira - Integrante / Joao Espirito Santo Batista Neto - Integrante / Fernando V. Paulovich - Integrante / Guilherme Telles - Integrante / Alneu Lopes - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Moacir Antonelli Ponti.
3.	2012-2017. Extração de informação e definição de perfis a partir de corpora Descrição: Esse projeto situa-se na área de Processamento de Linguagem Natural (PLN) propondo métodos e técnicas para extrair informação textual. A aplicação principal será o processamento de diversos corpora de domínio e possibilitar a análise de características (perfis) dos domínios representados pelos corpora. Dessa forma, esse projeto terá contribuições científicas nas áreas de extração de informação, linguística computacional e mineração de textos.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Lucelene Lopes - Integrante / Vieira, Renata - Coordenador. Membro: Lucelene Lopes.
4.	2012-2012. Identificação da Redundância com base em Conhecimento Linguístico Profundo para a Sumari-zação Automática Multidocumento Descrição: Trabalho de Conclusão de Curso que se enquadra na subárea do Processamento Automático das Lín-guas Naturais (PLN), a Sumarização Automática (SA), é responsável por estudar métodos automáticos de produção de sumários (resumos) a partir de um ou mais textos-fonte. Neste trabalho, em especial, discutem-se métodos linguisticamente profundos para a identificação automática de níveis de Redundância (total, parcial ou nula) para textos jornalísticos no Português do Brasil. Distingue-se o conhecimento superficial do profundo em relação à quantidade de conhecimento linguístico a ser utilizado. Neste trabalho, os métodos a serem pesquisados são de caráter semântico, observando a correlação da relação de Hiponímia e de Entidades Mencionadas na identificação do nível de redundância. Atrelado a isso, observar se os métodos mencionados são capazes de apontar relação direta ou indiretamente com as relações da Cross-document Structure Theory (CST).. Situação: Concluído; Natureza: Pesquisa. Integrantes: Jackson Wilke da Cruz Souza - Integrante / Ariani Di Felippo - Coordenador. Número de produções C, T & A: 4 Membro: Jackson Wilke da Cruz Souza.
5.	2012-2014. Informatividade e Topicalidade na Sumarização Multidocumento: Novos Desafios e Métodos Descrição: Diante da grande e crescente quantidade de informação disponível, principalmente on-line, e da escassez de tempo e das dificuldades para se lidar com todo esse conteúdo, aplicações de processamento textual têm se tornado cada vez mais relevantes. De origem relativamente recente (meados da década de 90), a sumarização automática multidocumento é uma destas aplicações. Seu objetivo é produzir automaticamente um único sumário (ou resumo, como mais comumente chamado) a partir de um grupo de textos sobre um mesmo tópico. No Brasil e para a língua portuguesa, somente nos últimos anos é que pesquisas nessa área começaram. A partir da criação de recursos e ferramental inéditos e do desenvolvimento de métodos e sistemas simples e ingênuos a abordagens mais sofisticadas, produziram-se resultados do estado da arte e, em alguns casos, melhores do que os obtidos em pesquisas internacionais e para outras línguas. Nesta proposta de pesquisa, com base na pesquisa recente na área, objetiva-se dar um passo além e investigar 3 principais questões correlacionadas que podem avançar o estado da arte, a saber: (i) como tratar conjunta e adequadamente a topicalidade nos textos e a informatividade dos sumários, (ii) como modelar e qual o impacto da combinação de métodos superficiais/estatísticos e profundos/linguísticos para a produção de sumários mais informativos e representativos da distribuição topical nos textos, e (iii) quais são as características do processo humano de sumarização que podem ser sistematizadas e formalizadas para que subsidiem as questões anteriores. Enquanto as duas primeiras questões lidam com a produção de sumários melhores, a última pode subsidiar novos métodos e dar direcionamentos diferentes para abordagens atuais. Acredita-se que, além da formação de recursos humanos e da criação de uma massa crítica de pesquisadores na área, tão pequena no Brasil, esse projeto tem potencial de trazer contribuições significativas para a área.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (2) / Doutorado: (4) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Maria das Graças Volpe Nunes - Integrante / Lucia Helena Macahdo Rino - Integrante / Eloize Rossi Marques Seno - Integrante / Ariani Di Felippo - Integrante / Erick Galani Maziero - Integrante / Maria Lucía Castro Jorge - Integrante / Verônica Agostini - Integrante / Rafael Ribaldo - Integrante / Ademar Takeo Akabane - Integrante / Jader Bruno Pereira Lima - Integrante / Paula Christina Figueira Cardoso - Integrante / Fernando Antônio Asevedo Nóbrega - Integrante / Márcio de Souza Dias - Integrante / Francisco Angelo Cabelo - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo. Descrição: Diante da grande e crescente quantidade de informação disponível, principalmente on-line, e da escassez de tempo e das dificuldades para se lidar com todo esse conteúdo, aplicações de processamento textual têm se tornado cada vez mais relevantes. De origem relativamente recente (meados da década de 90), a sumarização automática multidocumento é uma destas aplicações. Seu objetivo é produzir automaticamente um único sumário (ou resumo, como mais comumente chamado) a partir de um grupo de textos sobre um mesmo tópico. No Brasil e para a língua portuguesa, somente nos últimos anos é que pesquisas nessa área começaram. A partir da criação de recursos e ferramental inéditos e do desenvolvimento de métodos e sistemas simples e ingênuos a abordagens mais sofisticadas, produziram-se resultados do estado da arte e, em alguns casos, melhores do que os obtidos em pesquisas internacionais e para outras línguas. Nesta proposta de pesquisa, com base na pesquisa recente na área, objetiva-se dar um passo além e investigar 3 principais questões correlacionadas que podem avançar o estado da arte, a saber: (i) como tratar conjunta e adequadamente a topicalidade nos textos e a informatividade dos sumários, (ii) como modelar e qual o impacto da combinação de métodos superficiais/estatísticos e profundos/linguísticos para a produção de sumários mais informativos e representativos da distribuição topical nos textos, e (iii) quais são as características do processo humano de sumarização que podem ser sistematizadas e formalizadas para que subsidiem as questões anteriores. Enquanto as duas primeiras questões lidam com a produção de sumários melhores, a última pode subsidiar novos métodos e dar direcionamentos diferentes para abordagens atuais. Acredita-se que, além da formação de recursos humanos e da criação de uma massa crítica de pesquisadores na área, tão pequena no Brasil, esse projeto tem potencial de trazer contribuições significativas para a área.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (2) / Doutorado: (4) . Integrantes: Maria das Graças Volpe Nunes - Integrante / Lucia H M Rino - Integrante / Thiago A. S. Pardo - Coordenador / Ariani di Felippo - Integrante / Eloize R M Seno - Integrante / Erick Galani Maziero - Integrante / Paula C. F. Cardoso - Integrante / Maria Lucia Castro Jorge - Integrante / Verônica Agostini - Integrante / Rafael Ribaldo - Integrante / Jader B P Lima - Integrante / Fernando A A Nóbrega - Integrante / Marcio de Souza Dias - Integrante / Francisco Angelo Cabelo - Integrante / Ademar Takeo Akabane - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Maria das Graças Volpe Nunes.
6.	2012-2013. Interface Web para o ExATOlp - Extrator Automático de Termos para Ontologias em Língua Portuguesa Descrição: O objetivo desse projeto de pesquisa é o desenvolvimento de uma interface para a ferramenta ExATOlp. Levando em consideração as qualidades esperadas para a interface, busca-se o desenvolvimento de uma interface web. Essa interface web permitirá uma flexibilidade de plataforma, e ao mesmo tempo facilitará o desenvolvimento de uma interface confortável para qualquer tipo de usuário.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Lucelene Lopes - Integrante / Vieira, Renata - Coordenador / Anderson Machado da Silva - Integrante. Membro: Lucelene Lopes.
7.	2012-2014. Invariância à Complexidade em Classificação, Agrupamento e Descoberta de Motifs em Séries Temporais Descrição: Há recentemente um crescente interesse no processamento de séries temporais devido a grande quantidade de domínios de aplicação que geram dados com essa característica. Esse interesse pode ser medido pela vasta quantidade de métodos recentemente propostos na literatura para tarefas como classificação, agrupamento, sumarização, detecção de anomalias e descoberta de motifs. Estudos recentes têm mostrado que para muitos problemas, os métodos baseados em similaridade apresentam uma eficácia difícil de ser superada, mesmo por métodos mais sofisticados. Isso se deve em grande parte pelo fato de que a comunidade tem estudado e proposto diversas invariâncias para medidas de distância entre séries temporais. As invariâncias fazem com que as medidas de distância ignorem determinadas características indesejadas dos dados. O exemplo mais conhecido é a invariância às diferenças locais na escala de tempo, obtida pela técnica de warping. Outras invariâncias incluem a invariância às diferenças de amplitude e offset, fase e oclusão. Recentemente foi demonstrado à comunidade científica que métodos de classificação de séries temporais por similaridade podem ser muito beneficiados por uma nova invariância: invariância à complexidade. O principal objetivo deste projeto de pesquisa é investigar novas medidas de distância invariantes à complexidade e avaliar o quanto essas medidas podem melhorar a eficácia, sobretudo de algoritmos de agrupamento e descoberta de motifs.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (1) . Integrantes: Solange Oliveira Rezende - Integrante / Ronaldo Cristiano Prati - Integrante / Gustavo Enrique de Almeida Prado Alves BAtista - Coordenador / Eamonn John Keogh - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende.
8.	2012-2013. Métodos de Agrupamento Hierárquico para Organização Automática de Resultados de Motores de Busca Descrição: Tradicionalmente, a recuperação de informação textual é baseada em consultas por palavras-chave, nas quais uma lista ordenada com os documentos mais relevantes à consulta é apresentada como resposta. No entanto, algumas limitações desse modelo são bem conhecidas na literatura. Em geral, os usuários exploram apenas os primeiros resultados da lista de resposta, em detrimento dos documentos considerados menos relevantes pelo motor de busca. Ainda, uma outra parte significativa de informação também é perdida devido à dificuldade dos usuários expressarem seus objetivos por meio de palavras-chave. Nesse projeto, métodos de agrupamento hierárquico de textos são explorados para auxiliar a organização dos resultados retornados por motores de busca. Os dados retornados por um ou mais motores de busca são organizados em grupos, em que itens similares e relacionados a um mesmo tema são alocados juntos em um mesmo grupo. Ainda, os grupos são organizados de maneira hierárquica, de forma que grupos próximos à raiz representam o conhecimento mais genérico, enquanto seus detalhamentos e conhecimento mais específico são dispostos nos grupos e subgrupos de níveis mais baixo. Cada grupo possui uma descrição sucinta, ou seja, um tópico que permite auxiliar o usuário em uma busca exploratória dos resultados obtidos, em diversos níveis de granularidade. Essa organização em tópicos facilita a busca pela informação de interesse, obtendo-se uma visão complementar ao modelo baseado em uma simples lista ordenada de acordo com a relevância. Por outro lado, o agrupamento de resultados de busca tem desafios e requisitos específicos. A natureza dinâmica dos dados provenientes dos motores de busca, a necessidade de eficiência computacional e a exigência de interpretação e interação por parte dos usuários, resultaram em novos requisitos, com seus respectivos desafios científicos e tecnológicos, que são objetivos de pesquisa deste projeto.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (3) . Integrantes: Solange Oliveira Rezende - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende.
9.	2012-Atual. NAP LabCosmos Descrição: Nucleo de Estudos do Cosmos da Universidade de São Paulo. Coordenado pela profa. Dra. Claudia Lucia Mendes de Oliveira (IAG/USP). Parte do projeto está relacionada à análise de imagens multiespectrais, a serem obtidas por um moderno telescópio em construção. Para tanto será necessário o desenvolvimento de técnicas de tratamento e análise de imagens multidimensionais.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Integrante / Claudia Lucia Mendes de Oliveira - Coordenador. Membro: Nina Sumiko Tomita Hirata.
10.	2012-Atual. NAP-USP eScience Descrição: Modern science is interdisciplinary and data-intensive. For instance, in the 1000 Genomes Project (www.1000genomes.org), the comparative study of 629 individuals has already generated 7.3 TB of data. Analogous situations exist in fields such as astronomy, agriculture, social sciences, etc. Ten years ago, the problem was how to obtain data. Today, the bottleneck is the need for new computational strategies and tools so that scientists can manage these massive volumes of heterogeneous, distributed, data, so that they can generate new knowledge from the processing, analysis and visualization of the data. This launched the basis of the so-called eScience: the combination of advanced research in computer science and mathematical modeling to allow and accelerate research in other knowledge domains. National programs in eScience have been created in the US, GB, Australia and other countries, that recognized the importance of this theme for the advancement of science. The main goal of this project is the design and construction of a collaborative network for research in eScience, in a partnership that involves computer science, mathematical modeling and specific domains in the exact, life, agricultural sciences and social sciences.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Roberto Marcondes Cesar Junior - Coordenador. Financiador(es): Universidade de São Paulo - Auxílio financeiro. Membro: Roberto Marcondes Cesar Junior.
11.	2012-2016. NURC Digital Descrição: O presente projeto de pesquisa tem por objetivo central propor um modelo de informatização de um dos corpora mais influentes na pesquisa linguística do Brasil: o corpus do Projeto NURC. Partindo de recomendações de órgão internacionais especializados em práticas de codificação e transmissão de dados digitais, um corpus de dados representativos do Projeto NURC será organizado e apresentado como possível modelo a ser adotado para a informatização, preservação e disponibilização de seu acervo, que atualmente se encontra em sério risco de deterioração devido à ação do tempo.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) . Integrantes: Miguel Oliveira Jr - Coordenador / Dóris Cunha - Integrante / Eckhard Bick - Integrante / Marcos Galindo Lima - Integrante / Paul Trilsbeek - Integrante / Maarten Janssen - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Número de produções C, T & A: 24 Membro: Miguel Oliveira Jr.
12.	2012-2017. Recuperação da informação em representação do conhecimento em bases de textos científicos de Linguística e de Medicina: padrões e processamento automático da linguagem Descrição: Pesquisa interdisciplinar. Integra dois grandes campos de conhecimento, os Estudos da Linguagem e a Ciência da Computação. Nesses campos, destaca, respectivamente, os Estudos sobre Textos Especializados/Terminologia e o Processamento da Linguagem Natural (PLN)/Recuperação da Informação. O ponto de chegada da investigação será a melhoria das técnicas de Recuperação de Informação e da representação de conhecimento mediante o emprego de técnicas e de ferramentas PLN, associadas a recursos e conhecimentos dos estudos linguísticos sobre Terminologia, Linguística de Corpus, Linguística das Linguagens Especializadas e Tradução de textos técnico-científicos. Situação: Concluído; Natureza: Pesquisa. Integrantes: Lucelene Lopes - Integrante / Vieira, Renata - Integrante / Maria Jose Bocorny Finatto - Coordenador / Valdir do Nascimento Flores - Integrante / Alena Ciulla e Silva - Integrante. Membro: Lucelene Lopes.
13.	2012-2016. Sustento Descrição: O projeto visava à descrição e formalização de conhecimento linguístico para subsidiar aplicações de Sumarização Automática Multidocumento (SAM), permitiu que o referido pesquisador participasse principalmente de várias tarefas colaborativas de anotação de corpus, as quais foram essenciais para avançar as pesquisas em SAM para o português e ampliar o conhecimento do pesquisador sobre SAM, área em que, aliás, desenvolveu seus projetos de mestrado e doutorado na linha Descrição, Análise eProcessamento Automático de Línguas Naturais do Programa de Pós-Graduação em Linguística da Universidade Federal de São Carlos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (6) / Mestrado acadêmico: (6) / Doutorado: (1) . Integrantes: Jackson Wilke da Cruz Souza - Integrante / DI FELIPPO, ARIANI - Coordenador. Número de produções C, T & A: 7 Membro: Jackson Wilke da Cruz Souza.
14.	2012-2016. SUSTENTO1 - Geração de conhecimento linguístico para a Sumarização Automática Multidocumento Descrição: Dada a grande quantidade de informação disponível em várias línguas, sobretudo na web, a Sumarização Automática Multidocumento (SAM) tem ocupado lugar de centralidade no Processamento Automático das Línguas Naturais (PLN) na medida em que facilita o acesso à informação. Originada em meados de 1990, a SAM objetiva produzir automaticamente um único sumário (resumo) a partir de uma coleção de textos sobre um mesmo tópico. Para o português do Brasil (PB), as pesquisas começaram somente nos últimos anos. Apesar de incipientes, os sistemas/métodos que envolvem o PB igualam-se ao estado da arte e, em alguns casos, superam os resultados obtidos para outras línguas. Mesmo diante de cenário tão promissor, a SAM, de um modo geral, carece de subsídios linguísticos que permitam aproximar a tarefa automática à humana. Assim, neste projeto, objetiva-se gerar subsídios linguísticos para avançar o estado da arte em SAM, principalmente que envolve o PB. Para tanto, investigar-se-ão 3 frentes de pesquisa correlatas: (i) caracterização linguística de sumários multidocumento produzidos por humanos, (ii) investigação aprofundada dos fenômenos multidocumento (p.ex.: redundância), e (iii) descrição e formalização de conhecimento semântico-conceitual. As frentes (i) e (ii) justificam-se pelo fato de que a SAM, ao contrário da monodocumento, pauta-se apenas em indícios sobre a sumarização humana (multidocumento) e em estudos superficiais de seus fenômenos. A frente (iii) justifica-se pelo fato de que os métodos de SAM para o PB poderão ser enriquecidos ou totalmente baseados nesse tipo de conhecimento. Tendo em vista a geração de descrições e formalizações linguísticas nas três frentes, acredita-se que este projeto tem potencial para contribuir com a SAM e a Linguística Descritiva. Ademais, salienta-se a formação de recursos humanos no PLN, área ainda pequena no Brasil.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (3) . Integrantes: Ariani Di Felippo - Coordenador / Lucia Helena Machado Rino - Integrante / Maria das Graças Volpe Nunes - Integrante / Thiago A S Pardo - Integrante / Jackson Wilke da Cruz Souza - Integrante / Renata Tironi Camargo - Integrante / Fabricio Elder da Silva Tosta - Integrante / Andressa Caroline Inácio Zacarias - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro / Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Ariani Di Felippo.

2011

1.	2011-2014. CAMELEON Collaborative and Automatic Methods for the Multilingualisation of Lexica and Ontologies Descrição: The goal of this project is to investigate, propose, experiment, apply and validate automatic and collaborative techniques for the development of lexical and ontological resources that can be useful in the context of multilingual applications, particularly for French, Portuguese and English. Therefore, it aims at the investigation of methods for acquiring linguistic information for the construction of lexical resources, integrating multilingual lexica and ontologies, focusing on collaborative and automatic techniques. In the former, volunteer contributors can use a platform to edit dictionary entries and to create links, online via a Web browser. Analogously, multilingual applications can access and contribute automatically to the lexical resources stored on the platform through an API. The latter, i.e. automatic construction of resources, is based on the extraction of lexical information from textual corpora, using empirical/statistical evidence and machine learning techniques.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (2) Doutorado: (2) . Integrantes: Lucelene Lopes - Integrante / Vieira, Renata - Integrante / Aline Villavicencio - Coordenador / Cassia Trojahn Dos Santos - Integrante / CARLOS RAMISCH - Integrante / Roger Granada - Integrante / Emmanuelle Esperança-Rodie - Integrante / Viviane Pereira Moreira - Integrante / Marco Idiart - Integrante / Christian Boitet - Integrante. Financiador(es): COFECUB - Cooperação. Membro: Lucelene Lopes.
2.	2011-2013. Desafios em Projeto Multinível de Operadores Morfológicos Descrição: Projetar operadores morfológicos que apresentam bom desempenho em problemas de processamento e análise de imagens não é, em geral, uma tarefa simples. Uma abordagem útil para auxiliar o projeto de operadores é sua formulação como um problema de aprendizagem computacional: pares de imagens entrada-saída são utilizados como amostras de treinamento para gerar, via técnicas de aprendizagem computacional, um operador que procura mapear as imagens de entrada para as respectivas imagens de saída. No contexto considerado, esses operadores são caracterizados por uma função local que depende de uma vizinhança na imagem em torno do ponto a ser processado. Vizinhanças muito pequenas restringem a classe de operadores, gerando erro de restrição, e vizinhanças muito grandes resultam em imprecisão, gerando muita variância. Uma abordagem promissora recentemente proposta para balancear esses dois tipos de erro no caso de operadores binários é o projeto multinível de operadores. Nessa abordagem, o treinamento é realizado em múltiplos níveis, de forma a combinar em cada nível os resultados dos níveis anteriores. A escolha dos parâmetros dessa abordagem multinível tem sido realizada, por enquanto, manualmente. Este projeto de pesquisa pretende investigar aspectos práticos e teóricos dessa abordagem; em particular, pretende automatizar a escolha de parâmetros e estender a abordagem multinível para operadores sobre imagens em tons e cinza.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (1) . Integrantes: Roberto Hirata Junior - Integrante / Nina Sumiko Tomita Hirata - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Roberto Hirata Junior. Descrição: Projetar operadores morfológicos que apresentam bom desempenho em problemas de processamento e análise de imagens não é, em geral, uma tarefa simples. Uma abordagem útil para auxiliar o projeto de operadores é sua formulação como um problema de aprendizagem computacional: pares de imagens entrada-saída são utilizados como amostras de treinamento para gerar, via técnicas de aprendizagem computacional, um operador que procura mapear as imagens de entrada para as respectivas imagens de saída. No contexto considerado, esses operadores são caracterizados por uma função local que depende de uma vizinhança na imagem em torno do ponto a ser processado. Vizinhanças muito pequenas restringem a classe de operadores, gerando erro de restrição, e vizinhanças muito grandes resultam em imprecisão, gerando muita variância. Uma abordagem promissora recentemente proposta para balancear esses dois tipos de erro no caso de operadores binários é o projeto multinível de operadores. Nessa abordagem, o treinamento é realizado em múltiplos níveis, de forma a combinar em cada nível os resultados dos níveis anteriores. A escolha dos parâmetros dessa abordagem multinível tem sido realizada, por enquanto, manualmente. Este projeto de pesquisa pretende investigar aspectos práticos e teóricos dessa abordagem; em particular, pretende automatizar a escolha de parâmetros e estender a abordagem multinível para operadores sobre imagens em tons e cinza.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Coordenador / Roberto Hirata Jr. - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata.
3.	2011-2012. Estudo de Acessibilidade de Componentes da Internet Rica Descrição: Foi dada continuidade ao projeto do programa Pesquisando Desde o Primeiro Dia (PDPD) da UFABC, em outra modalidade, agora como Projeto de Iniciação Científica. Resumo: Se por um lado as tecnologias para o desenvolvimento de interfaces ricas em sites na w eb avançam, por outro o uso frequente dessas tecnologias contribui para a diminuição da acessibilidade nos Websites. Diante desse problema, o presente projeto realizou um estudo para avaliar a acessibilidade de componentes de interface ricas na Web. Foram utilizadas as recomendações WAI-ARIA como referência. Os problemas de acessibilidade da biblioteca de componentes JBoss Richfaces foram analisados. O trabalho demonstra uma metodologia para tornar acessível os componentes ricos analisados.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Rafael Jeferson Pezzuto Damaceno - Integrante / Juliana Cristina Braga - Coordenador. Financiador(es): Universidade Federal do ABC - Bolsa. Membro: Rafael Jeferson Pezzuto Damaceno.
4.	2011-2012. GP JEDi Descrição: O GPJEDi foi criado com o objetivo de explorar novas áreas dentro de Sistemas Multimídia, especialmente jogos e novas formas de interação humano computador. Atualmente o grupo foca três áreas de pesquisa: Desenvolvimento de Jogos para TVDigital (SBTVD), GameClouding e Interação Humano Computador.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (1) . Integrantes: Hugo Neves de Oliveira - Integrante / Glauco de Sousa e Silva - Integrante / Tatiana Aires Tavares - Coordenador / Matheus Cordeiro de Melo - Integrante / Ricardo Mendes Costa Segundo - Integrante. Membro: Hugo Neves de Oliveira.
5.	2011-2013. Grupo de Trabalho em VídeoColaboração em Saúde (GT AVCS) Descrição: O GTAVCS (Grupo de Trabalho em VídeoColaboração em Saúde) é uma iniciativa conjunta dos laboratórios LAVID (Laboratório de Aplicações de Vídeo Digital), LASID (Laboratório de Sistemas Digitais) e LARQSS (Laboratório de Arquitetura e Sistemas de Software) da UFPB. Este grupo de trabalho foi aprovado no Edital de Grupos de Trabalho 2011-2012 da RNP (Rede Nacional de Ensino e Pesquisa). Durante a primeira fase do GTAVCS (Grupo de Trabalho em VídeoColaboração em Saúde) foi proposta uma infraestrutura de hardware e software com gerência remota para captura e distribuição segura de múltiplos fluxos simultâneos a fim de prover suporte a diversos cenários de vídeo colaboração em saúde. Através de experimentos realizados dentro do HULW/UFPB em conjunto com outras universidades, tais como: Universidade Federal do Tocantins (UFT) demonstrou-se o potencial agregador do protótipo ora desenvolvido na primeira fase do GT AVCS. O serviço proposto à RNP através do projeto GT AVCS ? Fase II tem como foco aprimorar e melhorar o atual o serviço de transmissão de cirurgias ao vivo (desenvolvido na Fase I) e, sobretudo, desenvolver serviços adicionais para o apoio à atividade de ensino e aprendizagem baseadas em colaboração e recuperação de informações.. Situação: Desativado; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (2) . Integrantes: Hugo Neves de Oliveira - Integrante / Elenilson Vieira - Integrante / Yuri Gil Dantas - Integrante / Glauco de Sousa e Silva - Integrante / José Ivan Bezerra Vilarouca Filho - Integrante / Tatiana Aires Tavares - Coordenador / Erick Augusto Gomes de Melo - Integrante / Gustavo Henrique Matos Bezerra - Integrante / Sarah Soares Oliveira - Integrante / Wolgrand Cardoso Braga Junior - Integrante. Membro: Hugo Neves de Oliveira.
6.	2011-2012. Investigação de Métodos de Identificação de Redundância para Sumarização Automática Multidocumento Descrição: Dada a grande quantidade de informação disponível em várias línguas, sobretudo na web, pesquisas que visam à automatização da tarefa de sumarização multidocumento (SAM) fazem-se relevantes na medida em que podem facilitar e agilizar o acesso a informação. Tais pesquisas são realizadas na subárea do Processamento Automático das Línguas Naturais denominada Sumarização Automática. Na tarefa de SAM, o tratamento da redundância é um dos principais tópicos de pesquisa, pois um sumário multidocumento deve conter o conjunto de sentenças que melhor representa o tópico ou assunto da coleção sem que haja informação repetida entre elas. Tendo em vista a escassez de trabalhos sobre SAM que envolvem o português do Brasil (PB), o objetivo deste trabalho é investigar algumas medidas/formas de se calcular a redundância entre sentenças de textos jornalísticos em PB. Além disso, pretende-se considerar a correspondência dessas medias/formas com as relações semânticas de redundância do modelo CST (do inglês, Cross-document Structure Theory). O projeto contou com financiamento da FAPESP (2011/07637-9).. Situação: Concluído; Natureza: Pesquisa. Integrantes: Jackson Wilke da Cruz Souza - Integrante / Thiago A. S. Pardo - Integrante / Ariani Di Felippo - Coordenador. Número de produções C, T & A: 4 Membro: Jackson Wilke da Cruz Souza.
7.	2011-2014. Métodos e Técnicas para Exploração e Análise de Bioimagens Descrição: A demanda pela análise de imagens oriundas das mais variadas subáreas biomédicas e biológicas tem nitidamente crescido nos últimos anos. Além dos desafios computacionais diretamente relacionados à natureza da análise em questão, tais como a complexidade das imagens e o grande volume e tipos de problemas, verificam-se desafios relacionados à multidisciplinaridade e à necessidade de melhor integração de resultados gerados no tratamento de diferentes problemas. Este projeto de pesquisa propõe a investigação, desenvolvimento e validação de métodos e técnicas inovadoras para exploração e análise de bioimagens. Para viabilizar essa investigação, diversos subprojetos, todos relacionados a algum problema de análise de bioimagens e que envolvem colaborações com pesquisadores das áreas biológicas, são contemplados nesta proposta. Adicionalmente, está previsto o desenvolvimento de um ambiente unificado para exploração e análise de imagens, que terá papel importante para operacionalizar e viabilizar o desenvolvimento dos métodos e técnicas, melhorar as interações em colaborações multidisciplinares e permitir reaproveitamento de resultados. Com isso, esta proposta visa contribuir para formação de competência nacional em análise de bioimagens.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (3) Doutorado: (2) . Integrantes: Roberto Hirata Junior - Integrante / Nina Sumiko Tomita Hirata - Coordenador / Ronaldo Fumio Hashimoto - Integrante / Roberto Marcondes César Junior - Integrante / Marcel Parolin Jackowski - Integrante / Fabrício Martins Lopes - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Roberto Hirata Junior. Descrição: A demanda pela análise de imagens oriundas das mais variadas subáreas biomédicas e biológicas tem nitidamente crescido nos últimos anos. Além dos desafios computacionais diretamente relacionados à natureza da análise em questão, tais como a complexidade das imagens e o grande volume e tipos de problemas, verificam-se desafios relacionados à multidisciplinaridade e à necessidade de melhor integração de resultados gerados no tratamento de diferentes problemas. Este projeto de pesquisa propõe a investigação, desenvolvimento e validação de métodos e técnicas inovadoras para exploração e análise de bioimagens. Para viabilizar essa investigação, diversos subprojetos, todos relacionados a algum problema de análise de bioimagens e que envolvem colaborações com pesquisadores das áreas biológicas, são contemplados nesta proposta. Adicionalmente, está previsto o desenvolvimento de um ambiente unificado para exploração e análise de imagens, que terá papel importante para operacionalizar e viabilizar o desenvolvimento dos métodos e técnicas, melhorar as interações em colaborações multidisciplinares e permitir reaproveitamento de resultados. Com isso, esta proposta visa contribuir para formação de competência nacional em análise de bioimagens.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Mestrado acadêmico: (3) / Doutorado: (2) . Integrantes: Nina Sumiko Tomita Hirata - Coordenador / Roberto Hirata Jr. - Integrante / Roberto Marcondes Cesar Junior - Integrante / Ronaldo Fumio Hashimoto - Integrante / Marcel Parolin Jackowski - Integrante / Fabrício Martins Lopes - Integrante. Membro: Nina Sumiko Tomita Hirata.
8.	2011-2011. Professor visitante na Universidade de Toulouse (IRIT), França Descrição: DEZEMBRO DE 2011. Situação: Concluído; Natureza: Pesquisa. Integrantes: Marcelo Finger - Coordenador. Membro: Marcelo Finger.
9.	2011-2015. ResDial - Um Repositório para Resumos de Diálogos Descrição: Complementando o projeto intitulado "Influência do Domínio na Sumarização Automática de Diálogos", o ResDial trata de um conjunto de corpora (e ferramentas associadas) com a finalidade de fornecer subsídios à construção de sumarizadores automáticos de diálogos. Seu principais objetivos são: (a) a definição de um padrão de codificação para diálogos, seus resumos, e futuras anotações, feitas de modo stand-off; (b) a disponibilização de dois corpora de resumos feitos por humanos, a partir de diálogos artificiais, codificados conforme o padrão definido para o projeto, e possivelmente anotados com alguma outra informação; e (c) o desenvolvimento de ferramentas que possibilitem tanto a navegação pelos corpora presentes no ResDial, quanto sua manipulação, além do cálculo de estatísticas relacionadas à linguística de corpora.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) . Integrantes: Norton Trevisan Roman - Coordenador / Ana Maria Monteiro - Integrante / Felipe Rodrigues - Integrante / Richard Semolini - Integrante / Alexandre Rossi Alvares - Integrante / Tiago Emanuel Infante Missão - Integrante. Número de produções C, T & A: 19 Membro: Norton Trevisan Roman.
10.	2011-2013. Sistema de múltiplos classificadores em problemas de desbalanceamento de classes e grandes conjuntos de dados Descrição: Métodos de classificação podem falhar ao lidar com dois tipos de problemas comuns em aplicações reais: conjuntos de dados muito grandes, e o desbalanceamento de classes nos dados. Bases de dados com muitos elementos são cada vez mais comuns pela facilidade tecnológica em se adquirir e armazenar dados e pela natureza de certas aplicações como por exemplo em dados de transações financeiras, acesso a redes e bioinformática. Sistemas de múltiplos classificadores tem potencial tanto para paralelizar ou distribuir o processamento, quanto para permitir a subamostragem do conjunto de treinamento, tornando viável o uso de grandes bases de dados. Métodos de múltiplos classificatores também tem potencial para minimizar o desbalanceamento de classes, por meio de métodos de amostragem aliados à técnicas de Boosting. Esse projeto visa estudar os dois problemas citados e oferecer soluções baseadas em sistemas de múltiplos classificadores, com aplicações em diversas áreas.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (1) . Integrantes: Moacir Antonelli Ponti - Coordenador / Camila Tatiana Picon - Integrante / Isadora Rossi - Integrante / Gabriel de Barros Paranhos da Costa - Integrante / Tiago Santana de Nazaré - Integrante / Nihey Luz Takizawa - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Moacir Antonelli Ponti.
11.	2011-Atual. Temático-Pronex: Modelos e métodos de e-Science para ciências da vida e agrárias Descrição: A ciência moderna é crescentemente interdisciplinar e intensiva em dados. Na área de ciências da vida, por exemplo, com o surgimento de plataformas de alto desempenho para análise de imagens e estudos genômicos, o gargalo não está mais na aquisição de dados, mas sim no seu armazenamento, processamento, análise e visualização. Este cenário levou ao surgimento de um novo campo de pesquisa - eScience - que combina pesquisa avançada em computação e em modelagem matemática para permitir e acelerar pesquisa em outros domínios do conhecimento, desde as ciências exatas até as humanidades e artes. A eScience envolve a chamada "computação centrada em dados" (data-intensive computing), com a busca de soluções para gerenciamento de grandes volumes de dados produzidos por (e para) experimentos científicos, para que a descoberta científica não venha a ser detida pelo "dilúvio de dados". Este projeto visa a criação de uma rede colaborativa de eScience para acelerar pesquisa avançada em ciências da vida (biologia, medicina, oceanografia) e ciências agrárias. Está estruturado em tomo de cinco linhas de pesquisa - biologia de sistemas, planejamento de safras, computação visual, modelagem matemática e bancos de dados. Dentro dessas linhas, serão tratadas questões em aberto associadas às principais componentes de um ambiente de pesquisa em eScience: armazenamento, processamento, análise e visualização de grandes volumes de dados científicos. Os pesquisadores principais têm histórico de cooperação e coordenação de projetos nessas linhas. Questões de interoperalidade permeiam todo o projeto.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Roberto Marcondes Cesar Junior - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Roberto Marcondes Cesar Junior. Descrição: A ciência moderna é crescentemente interdisciplinar e intensiva em dados. Na área de ciências da vida, por exemplo, com o surgimento de plataformas de alto desempenho para análise de imagens e estudos genômicos, o gargalo não está mais na aquisição de dados mas sim no seu armazenamento, processamento, análise e visualização. Este cenário levou ao surgimento de um novo campo de pesquisa ? eScience ? que combina pesquisa avançada em computação e em modelagem matemática para permitir e acelerar pesquisa em outros domínios do conhecimento, desde as ciências exatas até as humanidades e artes. A eScience envolve a chamada "computação centrada em dados" (data-intensive computing), com a busca de soluções para gerenciamento de grandes volumes de dados produzidos por (e para) experimentos científicos, para que a descoberta científica não venha a ser detida pelo ?dilúvio de dados?. Este projeto visa a criação de uma rede colaborativa de eScience para acelerar pesquisa avançada em ciências da vida (biologia, medicina, oceanografia) e ciências agrárias. Está estruturado em torno de cinco linhas de pesquisa ? biologia de sistemas, planejamento de safras, computação visual, modelagem matemática e bancos de dados. Dentro dessas linhas, serão tratadasquestões em aberto associadas às principais componentes de um ambiente de pesquisa em eScience: armazenamento, processamento, análise e visualização de grandes volumes de dados científicos. Os pesquisadores principais têm histórico de cooperação e coordenação de projetos nessas linhas. Questões de interoperabilidade permeiam todo o projeto. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Roberto Hirata Junior - Integrante / Junior Barrera - Integrante / Roberto Marcondes César Junior - Coordenador / Alexandre Xavier Falcão - Integrante / Luciano da Fontoura Costa - Integrante / Cláudia Maria Bauzer Medeiros - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Roberto Hirata Junior.

2010

1.	2010-2015. Ambiente de Apoio para os Cursos Básicos de Algoritmos e Programação Descrição: Pesquisadores e docentes de computação têm se preocupado em achar a melhor forma de introduzir os alunos dos primeiros cursos de computação no mundo dos algoritmos e da programação. Pesquisas mostram que a taxa de evasão de alunos de primeiro e segundo ano de cursos de Ciência da Computação, motivada por dificuldades de aprendizagem de programação, é alta, situando-se entre 30% e 70% em muitos países. A importância e complexidade deste tema têm motivado a pesquisa de métodos educacionais para facilitar a aprendizagem de programação. As propostas existentes são variadas e enfatizam particularidades envolvidas no processo de aprendizagem de desenvolvimento de algoritmos, como o uso de auxílios sintáticos; simplificação de IDEs; uso de notações icônicas para descrever o fluxo de execução; ilustração gráfica de conceitos de algoritmos e estruturas de dados; motivação da aprendizagem de algoritmos a partir da utilização de aplicações gráficas, programas para a Web ou programação de robôs; planejamento especial de aspectos didáticos englobando currículo, monitoria, "assessment" e "feedback" do professor, para citar algumas. De forma geral os trabalhos existentes relatam as experiências de cursos introdutórios de algoritmos pela utilização de uma proposta em particular, mas não tentam decompor e investigar isoladamente fatores que afetam a aprendizagem de algoritmos. Este projeto de pesquisa tem por objetivo a explicitação de um conjunto de fatores que supostamente afetam a aprendizagem de algoritmos, envolvendo a investigação sistemática de várias hipóteses, dentre elas: (1) o emprego de domínios de problemas concretos favorece a aprendizagem de conceitos de algoritmos; (2) o uso de linguagens com primitivas próximas às do domínio dos problemas favorece a aprendizagem de conceitos de algoritmos; e (3) o emprego de linguagens formais com gramáticas próximas às das línguas naturais favorece a aprendizagem de conceitos de algoritmos. O trabalho envolve o projeto de ling. Situação: Concluído; Natureza: Pesquisa. Integrantes: Norton Trevisan Roman - Integrante / Ana Maria Monteiro - Integrante / Osvaldo Luís de Oliveira - Coordenador. Número de produções C, T & A: 3 Membro: Norton Trevisan Roman.
2.	2010-2010. ARTIZIMA: Evolução in silico de enzimas para biorefinarias: um incremento na produção de bioetanol Descrição: As enzimas desempenham um papel central na biotecnologia, pois são utilizadas em diversos processos industriais, aumentando a especificidade e eficiência de processos, melhorarando a pureza do produto e induzindo a redução dos impactos ambientais com a redução do consumo de compostos químicos. As xilanases e as lacases são enzimas que têm sido utilizadas em muitas aplicações biotecnológicas, inclusive em biorefinaria no processamento da celulose branqueada. Enzimas têm sido desenvolvidas para atuarem como um coquetel na hidrólise enzimática de lignocelulósicos, promovendo sua hidrólise a açúcares fermentáveis para produção de bioetanol. O Prof. Dr. Richard John Ward, da Faculdade de Filosofia Ciências e Letras da Universidade de São Paulo, em Ribeirão Preto, utilizou técnicas de engenharia molecular para aumentar a temperatura ótima da enzimas xilanases e lacases, vislumbrando seu uso no processo de biobranqueamento da polpa de madeira em altas temperaturas. A tecnologia, desenvolvida no laboratório do Dr. Ward, utiliza técnicas avançadas de engenharia de proteínas, permitindo a otimização das propriedades catalíticas da xilanase em altas temperaturas. Esse sistema, que inclui a Evolução Dirigida (ED), mimetiza em laboratório o processo de seleção natural Darwiniano. Repetições sucessivas de ED foram usadas para melhorar a enzima e alcançar as propriedades catalíticas nas condições desejadas, por exemplo, num processo, 23 enzimas xilanases foram selecionadas. Dessa forma, o projeto visa o desenvolvimento de uma ferramenta computacional que avaliará os determinantes de estabilidade estrutural em varias temperaturas de uma enzima. O conhecimento adquirido, através das análises das trajetórias de simulações de Dinâmica Molecular, será traduzido em uma função matemática (função de fitness), que será usada num algoritmo evolutivo capaz de propor, de forma automatizada, novas mutações em enzimas termofílicas.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Marcos Roberto Lourenzoni - Coordenador. Membro: Arnaldo Candido Junior.
3.	2010-2012. Avaliando a Utilização de uma grade computacional P2P para Alavancar a Pesquisa Científica no IFPB - CG Descrição: Configuração, simulação e avaliação do uso de uma grade computacional P2P na infraestrutura computacional do IFPB - Campus Campina Grande, com o intuito de alavancar a pesquisa científica no campus... Situação: Concluído; Natureza: Pesquisa. Integrantes: Bryan Khelven da Silva Barbosa - Integrante / Kerlonny Fopsy - Integrante / Paulo Ditarso Maciel Júnior - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Membro: Bryan Khelven da Silva Barbosa.
4.	2010-2014. CLARIN - Common Language Resources and Technology Infrastructure Descrição: CLARIN is committed to establish an integrated and interoperable research infrastructure of language resources and its technology.. Situação: Desativado; Natureza: Pesquisa. Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Maria das Graças Volpe Nunes - Integrante / Sandra Maria Aluísio - Integrante / João Luís Garcia Rosa - Integrante. Membro: Thiago Alexandre Salgueiro Pardo. Descrição: CLARIN is committed to establish an integrated and interoperable research infrastructure of language resources and its technology.. Situação: Desativado; Natureza: Pesquisa. Integrantes: Ariani Di Felippo - Integrante / Maria das Graças Volpe Nunes - Integrante / Thiago A S Pardo - Coordenador / Sandra Maria Aluísio - Integrante / João Luis Garcia Rosa - Integrante. Membro: Ariani Di Felippo.
5.	2010-2012. Documentação da língua indígena brasileira Yaathe (Fulni-ô) Descrição: O objetivo principal deste projeto é a documentação da língua Yaathê, em formato digitalizado, para disponibilização à comunidade científica. Objetivos mais específicos, relacionados aos interesses do grupo de pesquisa que se propõe desenvolvê-lo são, além da formação de um banco de dados, a elaboração de uma gramática descritiva, passível de ser utilizada no ensino-aprendizagem, ou, no mínimo, fornecer subsídios para a elaboração de materiais didáticos e a produção de artigos sobre aspectos da língua em todos os níveis de análise, bem como de dissertações e teses visando à formação de novos pesquisadores para o estudo de línguas indígenas. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) . Integrantes: Miguel Oliveira Jr - Integrante / Januacele Francisca da Costa - Coordenador / Fábia Pereira da Silva - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Número de produções C, T & A: 10 Membro: Miguel Oliveira Jr.
6.	2010-2011. Estudo da Acessibilidade de Toolkits para Desenvolvimento de Aplicações Ricas para Internet (RIAs) Descrição: Projeto participante do programa "Pesquisando Desde o Primeiro Dia" da Universidade Federal do ABC. Resumo: Com o avanço nas tecnologias de desenvolvimento de sites a acessibilidade na web tem diminuído. Este projeto estuda a acessibilidade de componentes de interface rica para web, realizando estudo de caso para aplicar a recomendação WAI-ARIA. Foi possível tornar acessível os componentes ricos da toolkit Jboss Richfaces 3.3.3.Final com o uso das marcações WAI-ARIA, no entanto, é necessário testar estas recomendações em componentes ricos de outras linguagens, além de realizar os testes em diferentes navegadores/leitores de tela, próximas etapas desta pesquisa.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Rafael Jeferson Pezzuto Damaceno - Integrante / Juliana Cristina Braga - Coordenador. Financiador(es): Universidade Federal do ABC - Bolsa. Membro: Rafael Jeferson Pezzuto Damaceno.
7.	2010-2015. Influência do Domínio na Sumarização Automática de Diálogos Descrição: Atualmente, as técnicas automáticas para sumarização de textos ou diálogos dependem unica e exclusivamente da presença explícita da informação no objeto resumido. Em certas situações, contudo, é notória a ausência de fatos ou informações esperadas, dado o domínio. Nesse projeto, será estudada a influência que conhecimento prévio sobre o domínio exerce na criação e julgamento de resumos de situações. Seus objetivos gerais são: (i) a identificação das situações em que a informação prévia sobre o domínio se faz indispensável, ou pode simplesmente ser ignorada, (ii) o desenvolvimento de técnicas de sumarização automática que possibilitem a inclusão e/ou consideração de informação específica do domínio, (iii) o refinamento das atuais técnicas para avaliação de resumos, de modo a refletir as espectativas gerais das pessoas, dado o domínio, (iv) a identificação e desenvolvimento de arcabouços teóricos e técnicos, quando for o caso, que auxiliem a execução dessa pesquisa, e (v) a formação de novos pesquisadores na área, permitindo que futuros avanços possam ser obtidos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (1) . Integrantes: Norton Trevisan Roman - Coordenador / Ariadne Maria Brito Rizzoni Carvalho - Integrante / Paul Piwek - Integrante / Fernando José Vieira da Silva - Integrante / Marcelo Ventura dos Santos - Integrante. Número de produções C, T & A: 7 Membro: Norton Trevisan Roman.
8.	2010-Atual. Investigação e desenvolvimento avançado de jogos interativos educacionais. Projeto n°: PV01828-2017 (n° antigo: 36195) Descrição: A computação vem se tornando presente cada dia mais no cotidiano das pessoas, influenciando em suas atividades diárias e otimizando serviços e atividades. Os avanços tecnológicos vão desde a simples busca de notícias, passando por efetivação de grandes serviços e até mesmo promovendo e disseminando conhecimento. No entanto, para que esses avanços sejam realmente benéficos e otimizados é necessário planejamento e uso de metodologias adequadas, principalmente quando o foco está no desenvolvimento de novos métodos de ensino. Nesse sentido, é proposto aqui a pesquisa em métodos de design e de interação no desenvolvimento de jogos interativos, o qual facilita o ensino de conceitos do ensino. Ainda como vantagem à utilização de jogos educacionais pode-se citar a maior interação e aproximação com os usuários, nesse caso, os alunos. Os jogos podem ser considerados educativos se desenvolverem habilidades cognitivas importantes para o processo de aprendizagem, por exemplo, por meio da resolução de problemas, facilidade de percepção, desenvolvimento do raciocínio rápido, dentre outras habilidades que podem ser desenvolvidas. São investigados modelos para desenvolvimento de jogos e questões de percepção, dinâmica de variabilidade e elementos gráficos. Situação: Em andamento; Natureza: Pesquisa.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Gustavo Evangelista Araújo - Integrante / Luanna Lopes Lobato - Coordenador / Thiago Jabur Bittar - Integrante / Paulo Henrique Ferreira Fontoura Junior - Integrante / Dimas Antônio Rosa Júnior - Integrante / Carlos Heitor de Souza Araújo Sanches - Integrante / Rafael Zeferino Rossi - Integrante / Gabriel Santos Resende - Integrante / Matheus Matos Machado - Integrante / Lucas Ávila Oliveira - Integrante / João Augusto da Silva Júnior - Integrante / Danilo Augusto Correa Suzuki - Integrante / Renata P. M. Fortes - Integrante / Jayme Guilherme Mendonça Calixto - Integrante / Leandro Agostini do Amaral - Integrante / Elson Longo da Silva - Integrante. Membro: Gustavo Evangelista Araújo.
9.	2010-2017. Léxico-Gramática dos verbos do português do Brasil: proposta de uma classificação sistemática Descrição: Este projeto tem como objetivo estabelecer uma classificação sistemática dos verbos do português do Brasil por meio da metodologia da teoria do Léxico-Gramática em tabelas binárias nas quais as linhas são as entradas e as colunas as propriedades sintático-semânticas de cada entrada. O projeto leva em conta o fato de já existir para o português do Brasil um bom número de descrições de diversos pontos de vista teóricos sobre a estrutura argumental, tanto dos verbos quanto de outros elementos predicativos. Tais estudos serão levados em conta quando da classificação. Pretende-se assim sistematizar em classes relativamente homogêneas esse conhecimento já desenvolvido para que essa classificação possa ser utilizada tanto na produção de novos trabalhos quanto no processamento de linguagem natural. Situação: Concluído; Natureza: Pesquisa. Integrantes: Roana Rodrigues - Integrante / Amanda Rassi - Integrante / VALE, OTO - Coordenador / Cláudia Dias de Barros - Integrante / Nathalia Perussi Calcia - Integrante / Amanda dos Santos Carneiro - Integrante. Número de produções C, T & A: 4 Membro: Roana Rodrigues.
10.	2010-2012. Origins of Numerical Competence: Assessment of Numerical Concepts in Pirahã Descrição: O objetivo do projeto é investigar os sistemas de competência numérica nucleares em uma população única: os Pirahã, um pequeno grupo indígena que vive em uma região isolada na Amazônia. Os Pirahã são uma população ideal para se compreender a relação entre os sistemas numéricos nucleares, pois a sua língua é a primeira descrita a não apresentar palavras para números. Além disso, os Pirahã reconhecidamente não usam números exatos em suas atividades sociais e não adotam convenções culturais ou linguísticas de outros povos. Assim, eles têm muito pouca prática com tarefas que dependem de sistemas numéricos nucleares, permitindo-nos investigar esses sistemas em sua forma mais "pura".. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (1) . Integrantes: Miguel Oliveira Jr - Integrante / Edward Gibson - Coordenador / Michael C. Frank - Integrante / Evelina G. Fedorenko - Integrante. Financiador(es): National Science Foundation - Auxílio financeiro. Número de produções C, T & A: 3 Membro: Miguel Oliveira Jr.
11.	2010-2012. Percepção dos Elementos Prosódicos na Narrativa Espontânea Descrição: Estudos recentes na área da lingüística computacional têm mostrado que a prosódia é usada para delimitar estruturas discursivas que constituem macro-unidades coerentes. De acordo com tais estudos, as unidades discursivas da fala são geralmente separadas por meio de elementos prosódicos, tais como a pausa, a entoação e a velocidade da fala. O uso de tais elementos prosódicos servirá, em princípio, para facilitar a identificação semântica das unidades discursivas, uma vez que explicitaria quais as intenções do falante. O propósito do presente estudo é examinar até que ponto o ouvinte pode, de fato, beneficiar-se das marcas prosódicas presentes num tipo particular de discurso, a narrativa espontânea, para daí derivar a estrutura subjacente a tal tipo de discurso. É sabido que qualquer estudo envolvendo aspectos prosódicos da fala deve considerar não apenas a parte da produção, mas sobretudo a percepção de tal fenômeno. A relevância das variáveis prosódicas na demarcação da estrutura discursiva só pode ser plenamente validada depois da consideração de sua eficácia sob a perspectiva da percepção. A hipótese central do presente estudo é de que a prosódia facilita o ouvinte a perceber mais efetivamente a estrutura do texto narrativo, o que obviamente acarreta numa melhor compreensão do discurso como um todo. Para testar esta hipótese, cinco variáveis prosódicas serão consideradas: (i) pausa; (ii) velocidade da fala; (iii) variação de tom; (iv) diferença de tom; e (v) tom de limite. Confirmada a hipótese, é validada a ideia, parcialmente testada (Oliveira 2000), de que a prosódia tem papel fundamental na elucidação da estrutura subjacente básica do discurso narrativo.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) . Integrantes: Miguel Oliveira Jr - Coordenador / Iêda Norman Tenório da Silva - Integrante / Ebson Wilkerson da Rocha Silva - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Número de produções C, T & A: 16 Membro: Miguel Oliveira Jr.
12.	2010-2012. TIENA - Tecnologia Inovadoras em mineração de textos para a Espacialização de Notícias Agrícolas - piloto cana-de-açúcar Descrição: Este projeto tem o objetivo de organizar notícias agrícolas sobre uma dada cultura, por meio de técnicas inovadoras em mineração de textos, em três categorias: tópicos ou assuntos, cobertura temporal e cobertura espacial. A cobertura temporal visa em primeiro plano um estudo da evolução daquele tópico ou assunto em relação aos demais, em intervalos de tempo, ou seja, como foi a tendência de dispersão desse tópico ao longo do tempo e futuramente como ela se relaciona aos modelos de previsão de safra. A cobertura espacial visa compreender qual é a cobertura geográfica daquela notícia, podendo ser de caráter geral (nacional) ou relativa a alguma micro ou macro-região geográfica, e, também futuramente poder-se-á analisar esse fator junto aos modelos de previsão de safra.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Ricardo Marcondes Marcacini - Integrante / Maria Fernanda Moura - Coordenador / Rafael Geraldeli Rossi - Integrante / BRUNO MAGALHÃES NOGUEIRA - Integrante / MERLEY DA SILVA CONRADO - Integrante / Solange Oliveira Rezende - Integrante / Laurimar Gonçalves Vendrusculo - Integrante / Adrian D Santos - Integrante / Roberto Hiroshi Higa - Integrante / Fabiano Fernandes dos Santos - Integrante / Eduardo Delgado Assad - Integrante / Leandro Henrique Mendonça de Oliveira - Integrante. Financiador(es): Empresa Brasileira de Pesquisa Agropecuária - Auxílio financeiro. Membro: Ricardo Marcondes Marcacini.
13.	2010-2012. TIENA- Tecnologias Inovadora em Mineração de textos para espacialização de noticias agrícolas-piloto cana de açucar Descrição: Este projeto tem o objetivo de organizar notícias agrícolas sobre uma dada cultura, por meio de técnicas inovadoras em mineração de textos, em três categorias: tópicos ou assuntos, cobertura temporal e cobertura espacial. A cobertura temporal visa em primeiro plano um estudo da evolução daquele tópico ou assunto em relação aos demais, em intervalos de tempo, ou seja, como foi a tendência de dispersão desse tópico ao longo do tempo e futuramente como ela se relaciona aos modelos de previsão de safra. A cobertura espacial visa compreender qual é a cobertura geográfica daquela notícia, podendo ser de caráter geral (nacional) ou relativa a alguma micro ou macro-região geográfica, e, também futuramente poder-se-á analisar esse fator junto aos modelos de previsão de safra, para avaliar se o fator penaliza os modelos ou não. Como essas notícias são altamente dinâmicas, pois são, no mínimo, diárias, devem ser tratadas em tempo real; logo, os tópicos também devem ter uma evolução bastante dinâmica, que deve ser considerada em seu tratamento. Obter essa organização de dados e atualizá-la em tempo real visa a uma ação futura de analisar séries temporais dessas notícias; e, então fazer a análise cruzada desses modelos com os modelos de previsão de safra obtidos por meio de fatores agro-ambientais. Avalia-se, a princípio, que essa última etapa seja um trabalho para alguns anos, e, que deva ser feita para várias culturas; mas, que de qualquer forma, só pode ser iniciado após as primeiras etapas. Assim, o escopo da proposta deste projeto, é englobar todas as etapas desse processo até a formação da base de dados tópico-espaço-temporal; com as notícias categorizadas em três dimensões: conceitual (tópicos), espacial e temporal. E, para isso, serão desenvolvidas tecnologias em mineração de textos para a extração e identificação de tópicos altamente dinâmicos, extração de informação temporal dos textos e classificação dos textos em relação a sua cobertura espacial.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (2) . Integrantes: Solange Oliveira Rezende - Integrante / Maria Fernanda Moura - Coordenador / Ricardo Marcondes Marcacini - Integrante / Bruno Nogueira - Integrante / Rafael Geraldeli Rossi - Integrante / Fabiano Fernandes dos Santos - Integrante / Merley da Silva Conrado - Integrante / Laurimar Gonçalves Vendrusculo - Integrante. Financiador(es): Empresa Brasileira de Pesquisa Agropecuária - Remuneração / Universidade do Porto - Cooperação. Membro: Solange Oliveira Rezende.
14.	2010-2012. VARRA - Validação, Avaliação e Revisão de Relações semânticas nos corpos do AC/DC Descrição: O VARRA é um sistema desenvolvido com o objetivo principal de auxiliar a avaliação de relações semânticas entre pares de palavras utilizando corpos. Surgiu da reconhecida importância que léxicos computacionais, como ontologias lexicais, exercem na execução de tarefas de processamento computacional da língua. Como a elaboração automática ou semi-automática de tais recursos lexicais tem como principal restrição a qualidade dos resultados, é evidente a necessidade de um processo de avaliação bastante rigoroso. Nesse contexto, o VARRA busca auxiliar o processo de avaliação (ou validação) manual de relações semânticas entre pares de palavras. No VARRA, as palavras que participam de uma relação semântica são sempre consideradas em contextos autênticos, representados por frases de corpos do projeto AC/DC). Com isso, busca-se (i) construir uma base confiável de julgamentos sobre uma dada relação; (ii) tornar a tarefa de validação de relações entre palavras mais parecida com a interpretação humana (em oposição à validação de relações fora de contexto). O VARRA é uma colaboração entre a Linguateca, o CISUC (Centro de Informática e Sistemas da Universidade de Coimbra) e o Departamento de Letras da PUC-Rio e, devido a esse perfil multidisciplinar, o seu desenvolvimento teve em consideração, também, a possibilidade de utilização para o estudo da própria língua.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Maria Cláudia de Freitas - Integrante / Violeta Quental - Integrante / Diana Santos - Coordenador / Hugo Oliveira - Integrante. Financiador(es): Fundação para a Computação Científica Nacional - Outra. Número de produções C, T & A: 3 Membro: Maria Cláudia de Freitas.

2009

1.	2009-2010. AbEvo (Antibodies Evolution): fase I e II. Sistema inteligente para o desenho de anticorpos baseado na estrutura do antígeno Descrição: O projeto iniciou em 2005 sob a coordenação de Humberto D' Muniz, em 2006 o projeto não estava vinculado a nenhuma agencia de fomento. Em 2007 o projeto fase II, passou a ser vinculado a FAPESP, com a equipe de bionformática (desenvolvimento de software) sob coordenação de Marcos Roberto Lourenzoni e enquanto Oscar Ramos foi o coordenador do projeto junto a FAPESP, sendo responsável também pela parte de desenvolvimento de antivcorpos in vivo, em colaboração com o Butanta. O projeto AbEvo tem como intuito o desenvolvimento de um sistema automatizado e confiável para a otimização de anticorpos, baseando-se na estrutura do antígeno. Pretende-se assim, aumentar o escopo de tecnologias disponíveis para o desenvolvimento de anticorpos utilizando de recursos de bioinformática incluindo técnicas de predição de estruturas, interações proteína-proteína, mecânica molecular, dinâmica molecular e algoritmos evolutivos. Os métodos atuais de desenvolvimento de anticorpos são experimentais e, portanto, eliminam grande parte das incertezas de métodos preditivos. Contudo, os métodos experimentais, por vezes, não proporcionam os resultados esperados. Incluem-se nesses casos, o desenvolvimento de anticorpos contra antígenos pouco imunogênicos e casos onde se deseja uma característica específica para o anticorpo a ser desenvolvido, como: a) o reconhecimento de epítopo específico; b) o reconhecimento cruzado de proteínas homólogas; c) o reconhecimento de apenas uma proteína específica dentre um grupo de homólogas, e; d) aumento da afinidade de um anticorpo experimentalmente selecionado. O sistema AbEvo é concebido para fornecer uma alternativa nesses casos.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Marcos Roberto Lourenzoni - Coordenador. Membro: Arnaldo Candido Junior.
2.	2009-2012. Arquitetura intra-chip para processamento paralelo aplicada à solução de modelos estocásticos em processamento de bases textuais Descrição: Neste projeto, propomos o desenvolvimento de sistemas para extração de informação de grandes quantidades de texto, utilizando-se modelagem estocástica e processamento de linguagem natural, além de arquiteturas de hardware otimizadas para aumentar o poder computacional desses sistemas.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Lucelene Lopes - Integrante / Paulo Henrique Lemelle Fernandes - Integrante / Vieira, Renata - Integrante / Fernando Gehm Moraes - Coordenador / Alexandre de Morais Amory - Integrante / Julio Cezar Silveira Jacques Junior - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Bolsa. Membro: Lucelene Lopes.
3.	2009-2010. Construção do corpus para o desenvolvimento de uma wordnet terminológica em português do Brasil Descrição: Procurar explanar todos os passos para a obtenção, configuração e montagem de um corpus específico, que no nosso caso foi no âmbito da Educação a Distância. Além disso, mostrar como adotar e desenvolver várias teorias pertencentes ao PLN ? Processamento de Línguas Naturais ? área do conhecimento que junta esforços linguístico-computacionais para descrever a língua em diversos níveis e da Linguística de Corpus. Esse projeto justifica-se pela relevância do uso dos corpora no desenvolvimento de diversas ferramentas computacionais e pesquisas científicas. Dada a necessidade crescente de se processar textos especializados, bases de conhecimento lexical especializado (ou terminológico) passaram a ser desenvolvidas para várias línguas, principalmente no formato wordnet. Embora exista um número razoável de wordnets terminológicas em diversas línguas, observa-se a carência de uma metodologia suficientemente clara que facilite e, sobretudo, estimule a criação dessas bases. Para o português do Brasil (PB), aliás, não há bases de conhecimento especializado no formato wordnet. O projeto ?Construção do corpus para o desenvolvimento de uma wordnet terminológica em português do Brasil? está totalmente ligado ao projeto ?Instanciação e aplicação de uma metodologia para o desenvolvimento de wordnets terminológicas em português do Brasil?. Dessa forma, nossa pesquisa oferece subsídio não só para o projeto TermiNet, mas para todos os projetos que se proponham a desenvolver produtos terminográficos tradicionais, além de um corpus especializado. O projeto contou com financiamento do CNPq/PIBIC.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Jackson Wilke da Cruz Souza - Integrante / Ariani Di Felippo - Coordenador. Número de produções C, T & A: 4 Membro: Jackson Wilke da Cruz Souza.
4.	2009-2012. Lógica Probabilística: fundamentos e aplicações computacionais (financiamento FAPESP) Descrição: Este projeto investiga formas de raciocínio que envolvem conhecimento determinístico, representado por meio de lógica, e incerteza, representada por meio de probabilidades. Interações entre estas duas formas de conhecimento não são bem compreendidas; o projeto pretende desenvolver programas computacionais capazes de manipular lógica e probabilidades, e distribuí-los para a comunidade de pesquisa de forma livre. O projeto conta com quatro linhas de pesquisa distintas; a coordenação global é do Prof. Marcelo Finger, e a linha de pesquisa "Lógicas de Descrição Probabilísticas e Suas Aplicações" é coordenada pelo Prof. Fabio G. Cozman.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (3) / Mestrado profissional: (0) / Doutorado: (4) . Integrantes: Fabio Gagliardi Cozman - Coordenador / José Carlos Ferreira da Rocha - Integrante / Marcelo Finger - Integrante / Renata Wassermann - Integrante. Número de produções C, T & A: 2 Membro: Fabio Gagliardi Cozman.
5.	2009-2012. Padrões do português popular escrito: o vocabulário do Jornal Diário Gaúcho. Fase 1 Descrição: Descrição e estudo de padrões do vocabulário de jornais populares voltados para um público de menor poder aquisitivo. Nesta etapa da pesquisa será considerado apenas o jornal popular DIÁRIO GAÚCHO, publicado em Porto Alegre-RS, produzido pelo grupo RBS. O foco principal da pesquisa é a caracterização do léxico e da feição da linguagem como um todo em um texto que é feito, em tese, de um modo mais simplificado, para ser compreendido com facilidade por pessoas de um determinado grupo social e econômico, com uma bagagem cultural mais ou menos tipificada e com um grau de escolaridade relativamente baixo. Esse jornal tem grande tiragem, cerca de 160 mil exemplares/dia, sendo que cada 01 exemplar é lido por 05 pessoas em média. È o único do gênero publicado na cidade e sua tiragem atesta a enorme aceitação por parte de seu público-alvo na cidade de Porto Alegre e em todo o entorno da região metropolitana. O número de leitores supera, de longe, o de jornais da mesma cidade dirigidos a públicos mais tradicionais distribuídos em todo o Estado do Rio Grande do Sul. Suas contínuas grandes tiragens e a grande adesão de seu público a quaisquer eventos promovidos pelo jornal demonstram, em tese, uma metodologia bem-sucedida de elaboração de texto dirigido para o tipo de leitor antes citado. A pesquisa utiliza como corpus a publicação do jornal ao longo de todo o ano de 2008, com contraponto de pequena amostra de 2009. Os enfoques iniciais da pesquisa são de cunho estatístico e contam com o apoio de pesquisadores de Lingüística Computacional/Processamento da Linguagem Natural (PLN) do Instituto de Informática da UFRGS e da Faculdade de Informática (FACIN) da PUC-RS. Esses pesquisadores da área da Computação desenvolvem estudos sobre observações de expressões multipalavra e sobre geração de ontologias a partir desse corpus. São também feitas observações e contrastes com padrões de vocabulário do jornal Zero Hora (ZH), publicado pela mesma empresa do Diário Gaúcho, o qua. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (1) / Doutorado: (1) . Integrantes: Sandra Maria Aluísio - Integrante / Renata Vieira - Integrante / Maria José Bocorny Finatto - Coordenador / Aline Villavicencio - Integrante / Daniel Costa da Silva - Integrante / Kleber Valenti Schenk - Integrante / Bruna Rodrigues da Silva - Integrante / Heloísa Orsi Koch Delgado - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Sandra Maria Aluísio.
6.	2009-2015. PALEOPROSPEC - Modelagem Paleogeográfica e Paleoclimática da Abertura e Evolução do Atlântico Sul Descrição: Este projeto de pesquisa tem por objetivo desenvolver modelos numéricos que simulem a evolução paleogeográfica e paleoclimática do Atlântico Sul, com ênfase na probabilidade de estabelecimento de condições favoráveis para a deposição e preservação de sedimentos ricos em matéria orgânica no espaço e no tempo, e conseqüentemente predição de ocorrência de potenciais rochas geradoras de petróleo. A metodologia para o desenvolvimento deste projeto consiste em completar dados disponíveis na comunidade científica com novas estimativas baseadas em modelos estocásticos que permitirão a montagem de uma base de dados com relações probabilísticas sobre a composição das atuais bacias sedimentares marinhas nos últimos 140 milhões de anos. São esperados como produtos deste projeto modelos que poderão ser utilizados como ferramenta auxiliar exploratória para determinação de plays exploratórios e ocorrência de hidrocarbonetos em bacia sedimentares marinhas do Atlântico Sul, como por exemplo, da margem atlântica brasileira. Os resultados dos modelos numéricos utilizados serão comparados com regiões onde a deposição de rocha geradora de petróleo ocorre, e onde estão bem estabelecidos plays exploratórios. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (10) / Mestrado acadêmico: (9) / Doutorado: (3) . Integrantes: Lucelene Lopes - Integrante / Paulo Henrique Lemelle Fernandes - Coordenador / Fernando Luís Dotti - Integrante / Cesar Augusto Fonticiela De Rose - Integrante / Duncan Dubugras Alcoba Ruiz - Integrante. Membro: Lucelene Lopes.
7.	2009-2012. Projeto Temático Fapesp LOGPROB: Lógica Probabilística --- Fundamentos e Aplicações Computacionais Descrição: LOGPROB: Probabilistic Logic --- Foundations and Computational Applications Principal Investigator: Marcelo Finger, FAPESP (Brazilian Funding Agency) Thematic Project 2008/03995-5, 2009-2012.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (6) / Especialização: (0) / Mestrado acadêmico: (15) / Mestrado profissional: (0) / Doutorado: (4) . Integrantes: Marcelo Finger - Coordenador / Renata Wassermann - Integrante / Leliane Nunes de Barros - Integrante / Fabio Gagliardi Cozman - Integrante / Paulo Eduardo Santos - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Marcelo Finger.
8.	2009-Atual. ReSEArch (Reuse in Software Engineering and Architecture). Projeto n°: PV01826-2017 (n° antigo: 034732) Descrição: Este projeto tem por objetivo a pesquisa e desenvolvimento de abordagens, processos, padrões, metodologias, arquitetura e sistemas de software, focando no desenvolvimento, desde os requisitos e prototipação até a implementação. O conceito de reuso é utilizado como base para o desenvolvimento das pesquisas, o qual tem por característica aumentar os ganhos em produtividade e qualidade, bem como reduzir os custos no desenvolvimento de software, evolução e time to market. Assim, neste projeto serão desenvolvidas pesquisas na área da Engenharia de Software, focando no desenvolvimento de sistemas computacionais para diferentes áreas de conhecimento e seguindo metodologias de desenvolvimento de software. Dentre as linhas de pesquisa envolvidas, pode-se citar o uso de metodologias tradicionais para desenvolvimento de software, metodologia ágil e Linha de Produto de Software. Busca-se, por meio da metodologia de desenvolvimento implementar sistemas eficientes e eficazes. Como sistema desenvolvido nesta pesquisa tem-se o desenvolvimento de aplicativos para dispositivos móveis (conhecidos como app), criação de Jogos Digitais (com foco na educação), aplicação de Acessibilidade na Web (garantindo o acesso aos sistemas pelos usuários com limitações), Privacidade e Personalização na Web (como meio de garantir sigilo e personalização aos serviços), Recuperação de Informação, bem como outras pesquisas relacionados à Engenharia de Software... Situação: Em andamento; Natureza: Pesquisa. Integrantes: Gustavo Evangelista Araújo - Integrante / Luanna Lopes Lobato - Coordenador / Thiago Jabur Bittar - Integrante / Ivan do Carmo Machado - Integrante / Paulo Anselmo da Mota Silveira Neto - Integrante / Márcio Antônio Duarte - Integrante / Hugo Sica de Andrade - Integrante / Fernando Antônio de Nobrega - Integrante / Fernanda Bontempo Faria - Integrante / Humberto Lidio Antonelli - Integrante / Ludmylla Lopes Lobato - Integrante / Luiz Arthur Lopes Lobato - Integrante / José de Sá Borges Júnior - Integrante / Welliton dos Reis Alves - Integrante / Géssica Thaianne Ribeiro Marchiori - Integrante / Márcia Ribeiro dos Santos - Integrante / Paulo Henrique Ferreira Fontoura Junior - Integrante / Melque Henrique Lemes de Castro - Integrante / Marco Tulio Macedo Rodrigues - Integrante / Luiz Gustavo Dias - Integrante / Iohan Gonçalves Vargas - Integrante / Paulo Henrique Silva Azevedo - Integrante / Dimas Antônio Rosa Júnior - Integrante / Hallefy Ferreira Clariano - Integrante / Carlos Heitor de Souza Araújo Sanches - Integrante / Nilton Mendes de Souza - Integrante / Rafael Zeferino Rossi - Integrante / Gabriel Santos Resende - Integrante / Matheus Matos Machado - Integrante / Lucas Ávila Oliveira - Integrante / Márcio de Souza Dias - Integrante / Ivo Palheta Mendes - Integrante / Gustavo Adolpho Ferraz de Oliveira Filho - Integrante / Marcos Vinicius Tomaz de Oliveira - Integrante / João Augusto da Silva Júnior - Integrante / Danilo Augusto Correa Suzuki - Integrante. Membro: Gustavo Evangelista Araújo.
9.	2009-2012. Sickle Cell Anemia Project Descrição: Exploração de métodos de mineração de textos biomédicos sobre a doença anemia falciforme.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) . Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Pablo Freire Matos - Integrante / Ricardo Rodrigues Ciferri - Coordenador / Cristina Dutra de Aguiar Ciferri - Integrante / Marina Teresa Pires Vieira - Integrante / Juliana Lilian Duque - Integrante. Número de produções C, T & A: 1 Membro: Thiago Alexandre Salgueiro Pardo.
10.	2009-2017. sucinto - summarization for clever information access Descrição: The sucinto project aims at investigating and exploring generic and topic-focused multi-document summarization strategies for providing a more feasible and intelligent access to on-line information provided by news agencies. This commitment brings back old and well-known scientific challenges from the first studies in summarization in the 50s as well as introduces several new and exciting challenges, e.g., to deal with redundant, complementary and contradictory information, to normalize different writing styles and referring expression choices, to balance different perspectives and sides of the same events and facts, to properly deal with evolving events and their narration in different moments, and to arrange information pieces from different texts to produce coherent and cohesive summaries, among several others. An ultimate goal of this project is to pull the developed tools together as on-line applications for final users. This project takes into consideration not only classical approaches to single and multi-document summarization, but also new ones, following different paradigms and using knowledge of varied nature ranging from empirical and statistical data to semantic and discourse models. Research interests include (i) the modeling of the summarization process (content selection, planning, aggregation, generalization, substitution, information ordering, etc.) by means of Cross-document Structure Theory (CST), Rhetorical Structure Theory (RST), ontologies, and language and summarization statistical models, (ii) the investigation of related tasks as discourse parsing, topic detection, temporal annotation and resolution, coreference resolution, text-summary alignment, and multilingual processing, and (iii) the linguistic characterization of multi-document summaries and their manual production.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (7) / Mestrado acadêmico: (15) / Doutorado: (8) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Maria das Graças Volpe Nunes - Integrante / Lucia Helena Macahdo Rino - Integrante / Eloize Rossi Marques Seno - Integrante / Ariani Di Felippo - Integrante / Pedro Paulo Balage Filho - Integrante / Erick Galani Maziero - Integrante / Maria Lucía Castro Jorge - Integrante / Paula Christina Figueira Cardoso - Integrante / Iria da Cunha Fanego - Integrante / Fernando Antônio Asevedo Nóbrega - Integrante / Márcio de Souza Dias - Integrante / Alessandro Y. Bokan Garay - Integrante / Marco A. Sobrevilla Cabezudo - Integrante / Roque E. López Condori - Integrante / Guilherme Gonçalves - Integrante / Antonio Aliberte A. Machado - Integrante / Francielle Alves Vargas - Integrante / Rafael Torres Anchiêta - Integrante. Membro: Thiago Alexandre Salgueiro Pardo. Descrição: The sucinto project aims at investigating and exploring generic and topic-focused multi-document summarization strategies for providing a more feasible and intelligent access to on-line information provided by news agencies. This commitment brings back old and well-known scientific challenges from the first studies in summarization in the 50s as well as introduces several new and exciting challenges, e.g., to deal with redundant, complementary and contradictory information, to normalize different writing styles and referring expression choices, to balance different perspectives and sides of the same events and facts, to properly deal with evolving events and their narration in different moments, and to arrange information pieces from different texts to produce coherent and cohesive summaries, among several others. An ultimate goal of this project is to pull the developed tools together as on-line applications for final users. This project takes into consideration not only classical approaches to single and multi-document summarization, but also new ones, following different paradigms and using knowledge of varied nature ranging from empirical and statistical data to semantic and discourse models. Research interests include (i) the modeling of the summarization process (content selection, planning, aggregation, generalization, substitution, information ordering, etc.) by means of Cross-document Structure Theory (CST), Rhetorical Structure Theory (RST), ontologies, and language and summarization statistical models, (ii) the investigation of related tasks as discourse parsing, topic detection, temporal annotation and resolution, coreference resolution, text-summary alignment, and multilingual processing, and (iii) the linguistic characterization of multi-document summaries and their manual production... Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (2) / Doutorado: (4) . Integrantes: Maria das Graças Volpe Nunes - Integrante / Thiago A. S. Pardo - Coordenador / Ariani di Felippo - Integrante / Lucia Helena Machado Rino - Integrante / Eloize R M Seno - Integrante / Erick Galani Maziero - Integrante / Maria Lucia Castro Jorge - Integrante / Verônica Agostini - Integrante / Rafael Ribaldo - Integrante / Jader B P Lima - Integrante / Paula C F Cardoso - Integrante / Fernando A A Nóbrega - Integrante / Marcio de Souza Dias - Integrante / Francisco Angelo Cabelo - Integrante / Renata Tironi de Camargo - Integrante. Membro: Maria das Graças Volpe Nunes. Descrição: The sucinto project aimed at investigating and exploring generic and topic-focused multi-document summarization strategies for providing a more feasible and intelligent access to on-line information provided by news agencies. This commitment brought back old and well-known scientific challenges from the first studies in summarization in the 50s as well as introduced several new and exciting challenges, e.g., to deal with redundant, complementary and contradictory information, to normalize different writing styles and referring expression choices, to balance different perspectives and sides of the same events and facts, to properly deal with evolving events and their narration in different moments, and to arrange information pieces from different texts to produce coherent and cohesive summaries, among several others. An ultimate goal of this project was to pull the developed tools together as on-line applications for final users.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Jackson Wilke da Cruz Souza - Integrante / Thiago A. S. Pardo - Coordenador / Ariani Di Felippo - Integrante / Maria Lucia Jorge - Integrante / Fernando Antônio Asevedo Nóbrega - Integrante / Verônica Agostini - Integrante / Erick Maziero - Integrante / Lucia Rino - Integrante / Eloise Seno - Integrante / Maria das Graças Volpe Nunes - Integrante / Renata Tironi de Camargo - Integrante / Rafael Ribaldo - Integrante / Ademar Takeo Akabane - Integrante / Jader Bruno Pereira Lima - Integrante / Paula Christina Figueira Cardoso - Integrante / Luiz Antônio de Menezes Filho - Integrante / Juan Manuel Torres-Moreno - Integrante. Membro: Jackson Wilke da Cruz Souza. Descrição: The sucinto project aims at investigating and exploring generic and topic-focused multi-document summarization strategies for providing a more feasible and intelligent access to on-line information provided by news agencies. This commitment brings back old and well-known scientific challenges from the first studies in summarization in the 50s as well as introduces several new and exciting challenges, e.g., to deal with redundant, complementary and contradictory information, to normalize different writing styles and referring expression choices, to balance different perspectives and sides of the same events and facts, to properly deal with evolving events and their narration in different moments, and to arrange information pieces from different texts to produce coherent and cohesive summaries, among several others. An ultimate goal of this project is to pull the developed tools together as on-line applications for final users. This project takes into consideration not only classical approaches to single and multi-document summarization, but also new ones, following different paradigms and using knowledge of varied nature ranging from empirical and statistical data to semantic and discourse models. Research interests include (i) the modeling of the summarization process (content selection, planning, aggregation, generalization, substitution, information ordering, etc.) by means of Cross-document Structure Theory (CST), Rhetorical Structure Theory (RST), ontologies, and language and summarization statistical models, (ii) the investigation of related tasks as discourse parsing, topic detection, temporal annotation and resolution, coreference resolution, text-summary alignment, and multilingual processing, and (iii) the linguistic characterization of multi-document summaries and their manual production.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (3) / Doutorado: (3) . Integrantes: Ariani Di Felippo - Integrante / Lucia Helena Machado Rino - Integrante / Maria das Graças Volpe Nunes - Integrante / Thiago A S Pardo - Coordenador / Erick G. Maziero - Integrante / Maria Lucia C. Jorge - Integrante / Eloize Rossi Seno - Integrante / Renata Tironi Camargo - Integrante / Verônica Agostini - Integrante / Rafael Ribaldo - Integrante / Ademar Takeo Akabane - Integrante / Jader Bruno Pereira Lima - Integrante / Paula Christina Figueira Cardoso - Integrante / Luiz Antônio de Menezes Filho - Integrante / Juan Manuel Torres-Moreno - Integrante / Fernando Antônio Asevedo Nóbrega - Integrante. Membro: Ariani Di Felippo.
11.	2009-2011. Sumarização automática multidocumento com base no modelo Cross-document Structure Theory (CST) Descrição: (FAPESP nro. 2009/05603-0) Com base na CST, investiga-se as várias tarefas relacionadas à sumarização multidocumento (ou seja, a produção de sumários/resumos a partir de um conjunto de textos), a saber: modelagem de conhecimento e análise textual, seleção de conteúdo textual para o sumário e pós-edição de sumários, dentre outras. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (6) / Doutorado: (2) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Maria das Graças Volpe Nunes - Integrante / Lucia Helena Macahdo Rino - Integrante / Eloize Rossi Marques Seno - Integrante / Ariani Di Felippo - Integrante / Vinícius Rodrigues de Uzêda - Integrante / Priscila Aleixo - Integrante / Erick Galani Maziero - Integrante / Maria Lucía Castro Jorge - Integrante / Verônica Agostini - Integrante / Marco Antônio Pacheco Júnior - Integrante / Rafael Ribaldo - Integrante / Ademar Takeo Akabane - Integrante / Jader Bruno Pereira Lima - Integrante / Paula Christina Figueira Cardoso - Integrante / Luiz Antônio de Menezes Filho - Integrante / Renata Tironi de Camargo - Integrante / Fernando Antônio Asevedo Nóbrega - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Número de produções C, T & A: 45 Membro: Thiago Alexandre Salgueiro Pardo. Descrição: Com base na CST, investiga-se as várias tarefas relacionadas à sumarização multidocumento (ou seja, a produção de sumários/resumos a partir de um conjunto de textos), a saber: modelagem de conhecimento e análise textual, seleção de conteúdo textual para o sumário e pós-edição de sumários, dentre outras.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (6) / Doutorado: (2) . Integrantes: Maria das Graças Volpe Nunes - Integrante / Lucia H M Rino - Integrante / Thiago A. S. Pardo - Coordenador / Ariani di Felippo - Integrante / Eloize R M Seno - Integrante / Vinícius Rodrigues de Uzêda - Integrante / Erick Galani Maziero - Integrante / Paula C. F. Cardoso - Integrante / Maria Lucia Castro Jorge - Integrante / Verônica Agostini - Integrante / Rafael Ribaldo - Integrante / Jader B P Lima - Integrante / Fernando A A Nóbrega - Integrante / Priscila Aleixo - Integrante / Marco Antonio Pacheco Junior - Integrante / Ademar Takeo Akabane - Integrante / Luiz Antonio de Menezes Filho - Integrante / Renata Tironi de Camargo - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Maria das Graças Volpe Nunes.
12.	2009-2011. TermiNet - Instanciação e Aplicação de uma Metodologia para o Desenvolvimento de Wordnets Terminológicas em Português do Brasil Descrição: Neste documento, propõe-se uma pesquisa no âmbito do Processamento Automático das Línguas Naturais (PLN), área interdisciplinar que busca desenvolver sistemas que processam as línguas naturais (p.ex.: sistemas de sumarização). Para o desenvolvimento de vários sistemas de PLN, são necessários certos recursos lingüísticos (os lingwares) que desempenham papel central na arquitetura dos sistemas, p.ex.: as ?bases de conhecimento lexical?. Dada a necessidade crescente de se processar textos especializados, bases de conhecimento lexical especializado (ou terminológico) passaram a ser desenvolvidas para várias línguas, principalmente no formato wordnet. Embora exista um número razoável de wordnets terminológicas em diversas línguas, observa-se a carência de uma metodologia suficientemente clara que facilite e, sobretudo, estimule a criação dessas bases. Para o português do Brasil (PB), aliás, não há bases de conhecimento especializado no formato wordnet. Assim, propõe-se (i) a instanciação de uma metodologia para o desenvolvimento de wordnets terminológicas e (ii) a sua aplicação na construção de uma base desse tipo em PB. Tal metodologia, proposta para a realização de quaisquer pesquisas no PLN, destaca-se por conciliar a face lingüística e a computacional dessa área. Com isso, acredita-se que o projeto pode beneficiar não só o PLN, mas também a Terminologia/ Terminografia em PB, pois o formato wordnet é um modelo elegante e eficaz para a representação do conhecimento léxico-conceitual, fundamental também para o desenvolvimento de produtos terminográficos tradicionais.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) . Integrantes: Ariani Di Felippo - Coordenador / Maria das Graças Volpe Nunes - Integrante / Thiago A S Pardo - Integrante / Sandra Maria Aluísio - Integrante / Gladis Maria de Barcelos Almeida - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro / Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Ariani Di Felippo.
13.	2009-2011. TermiNet - Instantiation and Application of a Methodology for the Development of Terminological Wordnets in Brazilian Portuguese Descrição: (FAPESP nro. 2009/06262-1; MCT/CNPq Universal nro. 471871/2009-5) Due to the increasing necessity of processing specialized texts, domain-specific (or terminological) lexical databases have been built in many languages, especially in wordnet format. Despite the existence of a reasonable number of terminological wordnets in many languages, there is no clear and generic methodology for building them. For Brazilian Portuguese (BP), by the way, there is no domain-specific lexical database in wordnet model. Consequently, we propose: (i) to instantiate a generic NLP methodology for developing terminological wordnets, and (ii) apply it to build a terminological wordnet in BP. Such methodology distinguishes itself by conciliating the linguistic and computational facets of the NLP researches. So, besides the benefits to NLP domain, terminological wordnets may also contribute to the development of terminological/ terminographic products since the organization of lexical-conceptual knowledge is an essential step in building such products.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Ariani Di Fellipo - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro / Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.

2007

1.	2007-2009. Abordagens hierárquicas para classificação de dados Descrição: Classificação de dados é uma parte fundamental em diversos problemas reais. Em muitas aplicações, técnicas de treinamento são utilizadas para ajuste dos parâmetros dos classificadores a partir de amostras de dados pré-classificados. Problemas com grande número de classes requerem o ajuste de muitos parâmetros. Uma das conseqüências disto é a necessidade de grande tempo de treinamento e pouca precisão estatística nos ajustes. Uma abordagem comum para contornar essas dificuldades consiste na decomposição do problema original de classificação em subproblemas mais tratáveis, seguida de composição das soluções dos subproblemas para a obtenção de uma solução para o problema original. No entanto, na prática, as formas de decomposição e composição são realizadas experimentalmente, tornando-se também um processo demorado. Este projeto propõe o estudo e elaboração de técnicas para automatizar a escolha da forma de decomposição/composição. Teste e validação dessas técnicas serão realizadas no contexto de projeto de operadores morfológicos para processamento de imagens e em reconhecimento de símbolos em expressões matemáticas manuscritas.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Doutorado: (1) . Integrantes: Nina Sumiko Tomita Hirata - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata.
2.	2007-2008. Ambiente para Exploração de Regras - RulEE Descrição: Do ponto de vista do usuário, um dos problemas encontrados no final do processo de mineração de dados é que muitos dos algoritmos de extração geram uma enorme quantidade de padrões. Um outro problema identificado é a dificuldade na compreensão dos modelos extraídos dos dados. Muitas vezes, esses modelos podem ser muito complexos ou não fazerem sentido para os usuários especialistas no domínio da aplicação em que processo de mineração de dados está sendo aplicado. Dada a necessidade de se pesquisar técnicas para auxiliar o usuário na compreensão e utilização do conhecimento descoberto em um processo de mineração de dados esta sendo desenvolvido no Laboratório de Inteligência Computacional (ICMC-USP) um ambiente para exploração de regras denominado RULEE (Rule Exploration Environment), apresentando características de apoio ao usuário na compreensão e identificação do conhecimento interessante.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Mestrado acadêmico: (1) . Integrantes: Solange Oliveira Rezende - Coordenador / Edson A Melanda - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro / Universidade Federal de São Carlos - Cooperação / Instituto de Ciências Matemáticas e de Computação - Cooperação. Número de produções C, T & A: 2 Membro: Solange Oliveira Rezende.
3.	2007-2009. Análise e Classificação de Comportamentos de Doadores de Sangue em Banco de Dados Multidimensionais Descrição: Um dos desafios para aplicações E-Science é a análise em larga escala de séries temporais, originárias de grandes bancos de dadosmultidimensionais. Este projeto propõe a integração de algoritmos de visualização e classificação não-supervisionada de séries temporais armazenadas em banco de dados multidimensionais. Esta integração será validada com a utilização de um banco de dados real de doadores de sangue de três grandes hemocentros do Brasil, de modo a melhor caracterizar o comportamento desses doadores tendo em vista a melhoria da segurança transfusional.. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Integrante / Roberto Marcondes Cesar Junior - Integrante / João Eduardo Ferreira - Coordenador / Ester Cerdeira Sabino - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata.
4.	2007-2009. Coordenador de projeto CAPES-COFECUB: Raciocínio espacial em imagens: modelagem de relações espaciais complexas entre objetos em função de formas e novas abordagens para o reconhecimento de estruturas em seqüências de vídeo Descrição: Projeto em colaboração com a Professora Isabelle Bloch (ENST-Paris): O raciocínio espacial em imagens é uma área de pesquisa ainda muito pouco desenvolvida, necessitando da criação de modelos de representação das entidades espaciais, de suas relações e de sua integração em modos de raciocínio. A importância das relações espaciais para o reconhecimento estrutural de padrões já foi mostrada em diversas situações. Entretanto, tais relações possuem diferentes significados dependendo da forma dos objetos envolvidos, podendo ainda variar com o tempo em seqüências de vídeo. Este projeto prevê o desenvolvimento de modelos matemáticos para tais relações, bem como de algoritmos de reconhecimento que os explorem no contexto de análise de imagens. Está previsto o desenvolvimento de modelos matemáticos baseados em conjuntos nebulosos que permitam a exploração de ferramentas de fusão de informações e de raciocínio. Tais modelos serão integrados a representações por grafos para o raciocínio e o reconhecimento de padrões. Aplicações previstas incluem o processamento de imagens médicas do cérebro e o reconhecimento de faces em seqüências de vídeo.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Roberto Marcondes Cesar Junior - Coordenador / Isabelle Bloch - Integrante / Luis A. Consularo - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Auxílio financeiro. Membro: Roberto Marcondes Cesar Junior.
5.	2007-2009. CROWS - Construção e mapeamento de ontologias para a Web Semântica Situação: Em andamento; Natureza: Pesquisa. Integrantes: Sandra Maria Aluísio - Integrante / Renata Vieira - Coordenador / Fernando Osório - Integrante / Rove Chishman - Integrante. Financiador(es): Universidade de São Paulo - Cooperação. Membro: Sandra Maria Aluísio.
6.	2007-2010. Floresta Sintá(c)tica Descrição: Floresta sintática ( treebank) é uma coleção de frases reais analisadas linguisticamente, que pode ser considerada do ponto de vista da linguística descritiva ou do ponto de vista da engenharia da linguagem.O projeto Floresta Sintá(c)tica tem como objetivo principal a construção de um treebank para a língua portuguesa, publicamente disponível, que pode ser usado para diferentes fins, como o ensino do português e da sintaxe portuguesa, a descrição linguística, o treino de analisadores morfossintácticos e a avaliação de sistemas.O projeto Floresta Sintá(c)tica é uma colaboração entre duas iniciativas independentes, o projeto VISL (Visual Interactive Syntax Learning) e a Linguateca.Início do projeto: 2001. Situação: Concluído; Natureza: Pesquisa. Integrantes: Maria Cláudia de Freitas - Integrante / Eckhard Bick - Coordenador / Diana Santos - Integrante. Financiador(es): Fundação para a Computação Científica Nacional - Remuneração / Fundação para a Ciência e a Tecnologia - Remuneração. Número de produções C, T & A: 12 Membro: Maria Cláudia de Freitas.
7.	2007-2009. Fortalecimento das Áreas de Computação de Alto Desempenho e Inteligência Computacional do Programa de Pós-Graduação em Informática da UFES Descrição: O objetivo central consiste em fortalecer e incrementar as interações entre as linhas de pesquisa de Inteligência Computacional e Computação de Alto Desempenho do Programa de Pós-graduação em Informática da UFES, contando para isso com o apoio de grupos de pesquisa de programas de pós-graduação já consolidados da COPPE/UFRJ e da USP/São Carlos. O grupo de pesquisadores da COPPE/UFRJ irá apoiar e interagir fundamentalmente com os pesquisadores da linha de Computação de Alto Desempenho do programa não consolidado, enquanto que o grupo de pesquisa da USP/São Carlos irá interagir e apoiar os pesquisadores da linha de Inteligência Computacional. Coordenador Geral: Alberto Ferreira de Souza (UFES). Vice-coordenadores: Alvaro Luiz Gayoso de Azeredo Coutinho (COPPE/UFRJ) e Maria Carolina Monard (ICMC/USP).. Situação: Em andamento; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Maria Carolina Monard - Integrante / Flávio Miguel Varejão - Integrante / Ronaldo Cristiano Prati - Integrante / Alneu de Andrade Lopes - Integrante / Alberto Ferreira de Souza - Coordenador / Andréa Maria Pedrosa Valli - Integrante / Lucia Catabriga - Integrante / Thomas Walter Raube - Integrante / Alvaro Luiz Gayoso de Azeredo Coutinho - Integrante / José Luís Drummond Alves - Integrante / Marcos A. D. Martins - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro / Instituto de Ciências Matemáticas e de Computação - Cooperação / Universidade Federal do Rio de Janeiro - Cooperação / Universidade Federal do Espírito Santo - Cooperação. Membro: Solange Oliveira Rezende.
8.	2007-2008. Gestão de pessoas e identificação de competências estratégicas em unidades descentralizadas da Embrapa - o caso Embrapa Pecuária Sudeste Descrição: O projeto objetiva desenvolver e validar uma metodologia para o dimensionamento do quadro de pessoal e para a definição de competências estratégicas para Unidades Descentralizadas da Embrapa. A metodologia proposta será validada na Embrapa Pecuária Sudeste. Na primeira etapa da proposta são identificadas e priorizadas as tecnologias-chave para a unidade. Em seguida, as competências estratégicas para atender às demandas identificas são definidas. A terceira etapa contempla o mapeamento de competências existentes e sua projeção no médio/longo prazo e a evolução do quadro de pessoal da unidade. Por fim, na última etapa, serão levantadas as dificuldade e limitações da metodologia adotada.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) / Doutorado: (1) . Integrantes: Solange Oliveira Rezende - Coordenador. Financiador(es): Empresa Brasileira de Pesquisa Agropecuária - Auxílio financeiro / Não informado. Membro: Solange Oliveira Rezende. Descrição: O projeto objetiva desenvolver e validar uma metodologia para o dimensionamento do quadro de pessoal e para a definição de competências estratégicas para Unidades Descentralizadas da Embrapa. A metodologia proposta será validada na Embrapa Pecuária Sudeste. Na primeira etapa da proposta são identificadas e priorizadas as tecnologias-chave para a unidade. Em seguida, as competências estratégicas para atender às demandas identificas são definidas. A terceira etapa contempla o mapeamento de competências existentes e sua projeção no médio/longo prazo e a evolução do quadro de pessoal da unidade.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Ricardo Marcondes Marcacini - Integrante / Maria Fernanda Moura - Coordenador / Rafael Geraldeli Rossi - Integrante / Solange Oliveira Rezende - Integrante. Financiador(es): Empresa Brasileira de Pesquisa Agropecuária - Auxílio financeiro. Membro: Ricardo Marcondes Marcacini.
9.	2007-2009. IAPen -- InterActivePen: Interação via dispositivos de escrita Descrição: Para manipular um grande volume de dados, além de algoritmos ''inteligentes'' capazes de processar o conteúdo dos mesmos, é necessário termos formas efetivas de interagir com os dados. Tradicionalmente, a forma de interação com sistemas computacionais resume-se a interações via interfaces gráficas usando-se dispositivos como o teclado e o mouse. Dispositivos do tipo {\em tablet}, juntamente com uma caneta digital ( stylus), permitem a interação também via escrita. No entanto, a escrita ainda não é uma forma comum de interação, apesar de existirem várias situações nas quais a interação via escrita é mais natural do que via teclado ou mouse. Este projeto propõe investigar a escrita como meio de interação em dois contextos distintos (reconhecimento de expressões matemáticas manuscritas e segmentação de imagens) a fim de propor modelos genéricos de interação via escrita que possam também ser utilizados em outros contextos de aplicação. Desta forma, visa contribuir para a difusão de softwares capazes de explorar todo o potencial da escrita como mecanismo de interação.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (1) . Integrantes: Nina Sumiko Tomita Hirata - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Nina Sumiko Tomita Hirata.
10.	2007-2012. PAPEL (Palavras Associadas Porto Editora - Linguateca) Descrição: O PAPEL é uma ontologia lexical pública para o português. É constituído por relações entre palavras, extraídas de forma automática de um dicionário da língua por meio da escrita manual de regras. O PAPEL não pretende ser um recurso final, mas um ponto de partida para futuros projetos de investigação e desenvolvimento de recursos, uma vez que se prevê o seu enriquecimento por meio de outras fontes de informação. Início do projeto: 2005. Situação: Concluído; Natureza: Pesquisa. Integrantes: Maria Cláudia de Freitas - Integrante / Hugo Oliveira - Integrante / Paulo Gomes - Coordenador / José Carlos Medeiros - Integrante / Nuno Seco - Integrante / Hernani Costa - Integrante. Financiador(es): Fundação para a Ciência e a Tecnologia - Remuneração / Fundação para a Computação Científica Nacional - Remuneração. Número de produções C, T & A: 2 Membro: Maria Cláudia de Freitas.
11.	2007-2010. PorSimples: Simplificação Textual do Português para Inclusão e Acessibilidade Digital Descrição: (FAPESP/Microsoft Research nro. 2007/54565-8) Desenvolvimento de recursos e ferramentas para simplificação de textos em português, visando ao auxílio de usuários com dificuldades de leitura e sua posterior inclusão digital. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (3) / Doutorado: (2) . Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Maria das Graças Volpe Nunes - Integrante / Sandra Maria Aluísio - Coordenador / Renata Pontin de Mattos Fortes - Integrante / Maria da Graça Campos Pimentel - Integrante. Financiador(es): Microsoft Corporation - Auxílio financeiro / Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo. Descrição: Propomos o desenvolvimento de uma tecnologia que foca uma área de pesquisa do processamento de língua natural, a simplificação textual, sendo disponibilizada em dois sistemas destinados a públicos alvos diferentes: (i) um sistema de autoria para ajudar autores a produzir textos simplificados que serão validados pelos próprios autores, e (ii) um sistema facilitador para ajudar a leitura de um dado conteúdo da Web. Este último inclui tarefas de sumarização textual, simplificação, e apresentação do texto salientando as relações entre as idéias do texto. Quanto aos cenários de uso, esta tecnologia se destina a facilitar o acesso à informação dos analfabetos funcionais, principalmente e, de pessoas com outras deficiências cognitivas como surdes congênita e portadores de afasia e dislexia, na leitura de textos eletrônicos em português produzidos pelo governo ou por jornais de grande circulação; as crianças em fase de aprendizado de leitura; ou ainda adultos em fase de alfabetização.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (13) / Mestrado acadêmico: (3) / Doutorado: (2) . Integrantes: Sandra Maria Aluísio - Coordenador / Renata Pontin de Mattos Fortes - Integrante / Maria das Gracas Volpe Nunes - Integrante / Maria das Graças Pimentel - Integrante / Thiago Alexandre Salgueiro Pardo - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro / Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Número de produções C, T & A: 2 Membro: Sandra Maria Aluísio.
12.	2007-2009. Redes de interação gênica semeadas por cliques Situação: Em andamento; Natureza: Pesquisa. Integrantes: Nina Sumiko Tomita Hirata - Integrante / Roberto Hirata Jr. - Coordenador / Marcel Brun - Integrante / Ronaldo Fumio Hashimoto - Integrante. Membro: Nina Sumiko Tomita Hirata.
13.	2007-2009. Terminologia de Biocombustíveis: descrição semântica e morfológica com vistas à sistematização Situação: Em andamento; Natureza: Pesquisa. Integrantes: Sandra Maria Aluísio - Integrante / Arnaldo Cândido - Integrante / Ariani Di Felippo - Integrante / Gladis Maria Barcellos Almeida - Coordenador / Margarita Correia - Integrante / Douglas Henrique Perez Pino - Integrante / Kelly Marcomini - Integrante. Financiador(es): Universidade de São Paulo - Cooperação. Membro: Sandra Maria Aluísio. Descrição: Com o objetivo de promover uma comunicação mais eficiente e permitir a troca de informações científicas e tecnológicas entre usuários e pesquisadores da área de Biocombustíveis, o presente projeto pretende gerar a terminologia sistematizada deste campo do saber, contendo os termos fundamentais da referida área, o que inclui os subdomínios do etanol e do biodiesel. Uma das razões para o empreendimento deste trabalho é o fato de o domínio dos Biocombustíveis ainda não ter seu repertório terminológico sistematizado em nenhuma língua, o que significa uma grande lacuna, primeiro porque Energia é um setor estratégico em qualquer país e, segundo, porque o Brasil é detentor do título de país mais competitivo do mundo para a geração de energia a partir da biomassa (ROSCOE, 2006), ou energias renováveis, caso dos biocombustíveis. Assim, a partir da elaboração de corpus, extração de termos, estruturação semântica dos conceitos e descrição morfológica dos termos, pretendemos sistematizar este repertório terminológico de extrema relevância para o país, de forma a dar subsídios para a criação, a posteriori, do primeiro glossário desse domínio do conhecimento. (Processo 473414/2007-4).. Situação: Concluído; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Gladis Maria de Barcellos Almeida - Coordenador. Membro: Arnaldo Candido Junior.

2006

1.	2006-Atual. Aprendizado computacional na descoberta de marcadores moleculares para câncer Situação: Em andamento; Natureza: Pesquisa. Integrantes: Roberto Hirata Junior - Coordenador. Membro: Roberto Hirata Junior.
2.	2006-2007. APRENDIZAGEM DE MÁQUINA BASEADA NA COMBINAÇÃO DE CLASSIFICADORES EM BASES DE DADOS DA ÁREA DE SAÚDE Descrição: Atualmente a maior parte dos problemas de tomada de decisão não tem por desafio o tratamento numérico, mas a transformação de dados e informações em conhecimento, principalmente quando as bases de dados dizem respeito à saúde. Tais bases, em geral, possuem grande número de atributos (variáveis), pequeno número de ocorrências (instâncias) e grande número de valores ausentes, tornando os dados redundantes e irrelevantes, do ponto de vista da aprendizagem de máquina. O propósito central deste projeto é a experimentação de métodos de aprendizagem de máquina simples (J48), combinado com métodos de aprendizagem mais sofisticados (BAGGING e BOOSTING) sobre bases da área da saúde, a fim de se verificar a eficiência destes métodos e sugerir soluções eficientes para a descoberta de conhecimento. A verificação da eficiência dos métodos será feita por meio de curvas de aprendizagem resultantes da aplicação de cada um destes métodos ao mesmo conjunto de bases de dados da área da saúde. Para cada conjunto de bases de treinamento dever-se-á obter também o impacto do número de classificadores combinados sob a eficiência dos métodos BAGGING e BOOSTING. Um viés importante será à análise das bases na sua forma original e submetidas a uma técnica de seleção de atributos. A contribuição deste projeto será a realização de uma análise detalhada dos resultados que deverá culminar na recomendação de um dos métodos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (1) . Integrantes: Lucelene Lopes - Integrante / Edson Emílio Scalabrin - Coordenador. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior, CAPES - Bolsa. Membro: Lucelene Lopes.
3.	2006-2008. CAPES/MECD Espanha: Tradução Automática, Alinhamento de Textos Bilíngües Espanhol-Português e Buscas Linguisticamente Enriquecidas na Web e Bibliotecas Digitais Descrição: Este projeto surge como resultado do interesse mútuo de dois grupos de pesquisadores da área de Processamento de Línguas Naturais (PLN), atualmente envolvidos em projetos de pesquisa afins e potencialmente aplicáveis em produtos de interesse comum e de impacto social e comercial não desprezível. É o caso de tradutores automáticos português-espanhol e de máquinas de busca (search engines) para a web, enriquecidas com conhecimento lingüístico, português e/ou espanhol. O grupo brasileiro, Núcleo Interinstitucional de Lingüística Computacional (NILC), associado ao Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP), Além do NILC, outro grupo de pesquisa também associado ao ICMC-USP é colaborador do projeto aqui descrito: o Laboratório de Inteligência Computacional (LABIC). O grupo espanhol faz parte do grupo de pesquisa Transducens, do Departament de Lenguajes y Sistemas Informáticos (DLSI) da Universidade de Alicante. Os objetivos deste projeto de pesquisa no âmbito do intercâmbio incluem: (a) a pesquisa de métodos e técnicas de tradução automática baseados na extração automática de regras a partir de corpus de textos paralelos (bitextos), e sua aplicação ao par de línguas português-espanhol (já em desenvolvimento); (b) a pesquisa de métodos e técnicas de desambigüação lexical no contexto da tradução automática (já em desenvolvimento); (c) a pesquisa de métodos e técnicas de buscas estendidas e linguisticamente enriquecidas para aumentar a precisão e a cobertura de sistemas de busca da web e de bibliotecas digitais; em particular, considerar a variante de busca translingüe (já em desenvolvimento).. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (4) . Integrantes: Solange Oliveira Rezende - Integrante / Maria das Graças Volpe Nunes - Coordenador / Jorge Marques Pelizzoni - Integrante / Helena de Medeiros Caseli - Integrante / Lucia Specia - Integrante / Sandra Maria Aluísio - Integrante / Maria Feranda Moura - Integrante / Thiago A S Pardo - Integrante / Eloize R M Seno - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Auxílio financeiro / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Bolsa. Membro: Solange Oliveira Rezende. Descrição: Este projeto surge como resultado do interesse mútuo de dois grupos de pesquisadores da área de Processamento de Línguas Naturais (PLN), atualmente envolvidos em projetos de pesquisa afins e potencialmente aplicáveis em produtos de interesse comum e de impacto social e comercial não desprezível. É o caso de tradutores automáticos português -espanhol e de máquinas de busca (search engines) para a web, enriquecidas com conhecimento lingüístico, português e/ou espanhol. O grupo espanhol faz parte do grupo de pesquisa Transducens, do Departament de Lenguajes y Sistemas Informáticos (DLSI) da Universidade de Alicante, criado recentemente (em fevereiro de 2004) por professores procedentes, em sua maioria, do grupo de Reconhecimento de Formas e Inteligência Artificial (gRFIA) fundado em 1981 na Universidade de Valência e que em 1986 passou à Universidade Politécnica de Valência. Os objetivos do intercâmbio pretendido incluem: (a) um maior conhecimento recíproco das pesquisas desenvolvidas pelos grupos, visando a determinação de novas pesquisas e desenvolvimento de protótipos; (b) a complementação qualitativa dos recursos humanos das equipes, uma vez que ambos os grupos têm experiência suficiente para contribuir nesse sentido; (c) intensificar as pesquisas de tradução automática das línguas português-espanhol, dado o interesse que seus resultados podem gerar; (d) aumentar o grau de internacionalização do programa de pós-graduação brasileiro, promovendo intercâmbio e aumentando a possibilidade de geração de publicações de qualidade. Os objetivos dos trabalhos de pesquisa no âmbito do intercâmbio incluem: (a) a pesquisa de métodos e técnicas de tradução automática baseados na extração automática de regras a partir de corpus de textos paralelos (bitextos), e sua aplicação ao par de línguas português-espanhol (já em desenvolvimento); (b) a pesquisa de métodos e técnicas de desambigüação lexical no contexto da tradução automática (já em desenvolvimento); (c) a pes. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (4) . Integrantes: Maria das Graças Volpe Nunes - Coordenador / Thiago A S Pardo - Integrante / Lucia Specia - Integrante / Sandra Maria Aluisio - Integrante / Solange Oliveira Rezende - Integrante / Jorge M Pelizzoni - Integrante / Helena Medeiros Caseli - Integrante / Eloize R M Seno - Integrante / Maria Fernanda Moura - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Bolsa / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Auxílio financeiro. Membro: Maria das Graças Volpe Nunes.
4.	2006-2009. Characterizing Human Language by Structural Complexity Descrição: O objetivo deste projeto foi investigar a complexidade estrutural da linguagem humana e o seu significado para a natureza humana. Especificamente, o objetivo foi encontrar possíveis relações entre a habilidade de gerar estruturas encaixadas e a habilidade cognitive de atribuir crenças a terceiros, uma propriedade cognitiva conhecida por Teoria da Mente (Theory of Mind). O projeto foi financiado pela Comissão Européia e desenvolvido por uma equipe internacional composta por participantes da Grã-Bretanha, da Holanda e da Alemanha. http://www.zas.gwz-berlin.de/chlasc/. The project is funded by the European Commission and conducted by an multinational team from Britain, The Netherlands, and Germany. The ZAS is the coordinating institution and conducts the semantic subproject. The project work has started in January 2006. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (2) . Integrantes: Miguel Oliveira Jr - Integrante / Tecumseh Fitch - Integrante / Uli Sauerland - Coordenador / Edward Gibson - Integrante / Michael C. Frank - Integrante / Aryon Rodrigues - Integrante / Bartjan Hollebrandse - Integrante / Mathias Schenner - Integrante. Financiador(es): European Commission - Auxílio financeiro. Membro: Miguel Oliveira Jr.
5.	2006-2009. Convênio HP-USP para Pesquisa em Aprendizado de Máquina Estatístico Descrição: Convênio de pesquisa (com recursos da lei de informática) visando orientação de alunos e publicações relacionadas a aprendizado de modelos estatísticos, em particular modelos baseados em grafos, a partir de dados rotulados ou não-rotulados. O convênio engloba interesses de pesquisa da USP e da Hewlett-Packard R&D Brasil, e tem recursos administrados pela interveniente Fundação para o Desenvolvimento Tecnológico da Engenharia (FDTE).. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (4) . Integrantes: Fabio Gagliardi Cozman - Coordenador / Victor Anselmo Silva - Integrante / Rodrigo Belizia Polastro - Integrante / Denis Deratani Mauá - Integrante / André Seiji Ianagui - Integrante. Financiador(es): Fundação Para o Desenvolvimento Tecnológico da Engenharia - Auxílio financeiro. Número de produções C, T & A: 1 Membro: Fabio Gagliardi Cozman.
6.	2006-2008. Coordenador: Cooperação internacional CNPq/NSF: Facing 3D Descrição: Reconhecimento de faces e expressões faciais em seqüências de vídeo usando informação 3D. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Roberto Marcondes Cesar Junior - Coordenador / L Velho - Integrante / Matthew Turk - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Cooperação / National Science Foundation - Cooperação. Membro: Roberto Marcondes Cesar Junior.
7.	2006-2011. Coordenador: Projeto Temático FAPESP: Modelagem por redes (grafos) e técnicas de reconhecimento de padrões: estrutura, dinâmica e aplicações Descrição: Reconhecimento estrutural de padrões.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Roberto Marcondes Cesar Junior - Coordenador / L. da F. Costa - Integrante / J Barrera - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Roberto Marcondes Cesar Junior. Descrição: Dentre os desafios enfrentados atualmente pela pesquisa em reconhecimento de padrões, cabe ressaltar três linhas fundamentais: (a) problemas em que elementos devem ser descritos estruturalmente através de uma rede indicando conexões entre tais elementos; (b) problemas envolvendo a evolução da informação ao longo de alguma variável independente (e.g. tempo, no caso de seqüências de vídeo); (c) problemas envolvendo ambos aspectos, i.e. uma rede de elementos cuja dinâmica evolui ao longo de alguma variável independente. O presente projeto temático, unindo os grupos de visão do IME-USP e IFSC-USP, além de pesquisadores colaboradores de outras instituições, prevê o estudo, desenvolvimento e aplicação de técnicas de reconhecimento de padrões com esses três itens formando o tema de integração da pesquisa. Além da área de reconhecimento de padrões, o projeto inclui técnicas e problemas de visão computacional, processamento de imagens e de sinais e bioinformática, todas sendo áreas de trabalho dos pesquisadores proponentes. As atividades de pesquisa tratarão de aspectos de reconhecimento de padrões e de redes em ambas direções: (1) utilização de técnicas de reconhecimento de padrões para auxiliar na análise de redes em aplicações específicas; (2) desenvolvimento de técnicas de reconhecimento de padrões baseadas em redes. Esta linha de pesquisa incluirá a utilização de grafos em reconhecimento estrutural de padrões e raciocínio espacial. Os métodos em tais abordagens são marcados pelo fato que a tarefa de reconhecimento não envolve apenas os objetos em uma imagem, mas igualmente as relações entre tais objetos. Parte da importância da utilização dessas relações advém do fato que tais relações são frequentemente mais estáveis nas cenas que muitas propriedades dos objetos em si. Em particular, pretende-se explorar técnicas que descrevem a estrutura dos elementos em imagens através de grafos. Nesse caso, a rede é formada por elementos de uma imagem cujos arcos representam relaçõe. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (7) Doutorado: (5) . Integrantes: Roberto Hirata Junior - Integrante / Nina Sumiko Tomita Hirata - Integrante / Ronaldo Fumio Hashimoto - Integrante / Roberto Marcondes César Junior - Coordenador / Luciano da Fontoura Costa - Integrante. Membro: Roberto Hirata Junior.
8.	2006-2008. Dicionário Histórico do Português do Brasil (séculos XVI, XVII e XVIII) Descrição: A elaboração de um dicionário histórico sobre o Português do Brasil, o primeiro deste tipo, implica na análise minuciosa de documentos e textos originais de testemunhas vivas e oculares da realidade brasileira em seus estágios primeiros. O esmiuçamento de um número grande e inexplorado da produção escrita brasileira e sobre o Brasil a fim de escrutinar seu vocabulário, constitui um grande e árduo trabalho, o que requer um grande número de pesquisadores envolvidos. Além disso, as peculiaridades da formação dos diversos núcleos culturais e civilizatórios brasileiros em função das idiossincrasias históricas, lingüísticas e culturais das várias regiões do Brasil, de sua enorme biodiversidade ambiental e da multiplicidade de caminhos e de processos que atuaram na formação da sociedade brasileira, implicam em muitas dificuldades. Portanto, é necessário reunir forças e competências, organizando equipes representativas das múltiplas unidades do mosaico cultural brasileiro. Daí a idéia de reunir um grupo de pesquisadores representativos das várias regiões do Brasil para um trabalho conjunto sobre a formação histórica do vocabulário brasileiro. Por conseguinte, com este projeto, estamos criando uma rede integrada de pesquisadores de várias regiões do país em torno de um tema para o que trocaremos experiências assim como poderemos transferir competências de uns para outros. O Brasil não conta com nenhuma obra lexicográfica sobre seu vocabulário nos primeiros tempos da formação do Português Brasileiro. Assim, essa seria uma obra pioneira e necessária.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Maria Tereza Camargo Biderman - Coordenador. Membro: Arnaldo Candido Junior.
9.	2006-2010. FAROL - Fortalecimento e Integração das Competências do Processamento da Língua Descrição: CAPES/PROCAD #0035050: FAROL - Fortalecimento e Integração das Competências do Processamento da Língua. Descrição: O projeto proporciona uma integração intra-regional (entre PUCRS e UNISINOS e entre UFSCar e USP de São Carlos) e uma integração inter-regional (entre as regiões Sul e Sudeste), e explora as vocações institucionais na área do processamento da língua. Participam do projeto FAROL quatro equipes, sendo duas da região Sul (especificamente, do Programa de Pós-Graduação em Ciência da Computação da PUCRS, mestrado e doutorado, nota 4, e do Programa de Pós-Graduação em Computação Aplicada da UNISINOS, mestrado, nota 3), e duas da região Sudeste (a saber, do Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional da USP de São Carlos, mestrado e doutorado, nota 5, e do Programa de Pós-Graduação em Ciências da Computação da UFSCar, mestrado, nota 3). Nesse sentido, nosso objetivo geral será de propiciar aos grupos envolvidos um fluxo mais efetivo de competências, que fortaleça a área do processamento da língua nos programas nota 3, e consolide esta área no programa nota 4, com o apoio do programa com nota 5. Ao mesmo tempo, as competências específicas na área do processamento da língua, as quais não são coincidentes nos quatro grupos, poderão fluir de modo a tecer-se um quadro de ligações o qual promoverá o desenvolvimento dos quatro grupos, cada um em determinados focos de pesquisa dos quais se poderá beneficiar na integração. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (3) / Doutorado: (2) . Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Maria das Graças Volpe Nunes - Coordenador. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.
10.	2006-2007. Glosagem da Base da WordNet.Br e sua Indexação à WordNet de Princeton Descrição: Neste projeto, propõe-se, especificamente, a ampliação qualitativa dessa base de verbos. Como na WordNet de Princeton em que se inspira, a base de verbos da WordNet.Br deverá conter a especificação de glosas (isto é, uma definição do significado do conceito implicitamente codificado em cada synset, que constitui também a definição de um ontologia recortada por uma língua natural) e das relações lógico-conceituais e hierárquicas que se estabelecem entre os synsets de verbos. Para isso, estabelece-se um dos seus objetivos: fazer a interligação entre a base da Wordnet.Br e a base da WordNet de Princeton, que se concretiza por meio da especificação da coindexação entre os synsets de verbos da base da WordNet.Br e os synsets de verbos semanticamente (quase-)equivalentes da Wordnet de Princeton.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (6) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (4) . Integrantes: Ariani Di Felippo - Integrante / Bento Carlos Dias da Silva - Coordenador. Membro: Ariani Di Felippo.
11.	2006-2008. Instituto Fábrica do Milenio (IFM II) Descrição: EDITAL: Edital MCT/CNPq 01/2005 - Institutos do Milênio 2005 - 2008 Coordenador do Instituto: João Fernando Gomes de OIiveira Instituição Sede do Instituto: Escola de Engenharia de São Carlos - USP Responsavel no ICMC-USP: Solange Oliveira Rezende Mesmo com os excelentes resultados obtidos através dos programas desenvolvidos no IFM I, observou-se que é possível aperfeiçoar a metodologia adotada. Assim, o IFM II está sendo concebido com o propósito de pesquisar, desenvolver e disseminar de forma integrada e colaborativa um corpo de conhecimento capaz de contribuir para a busca de sustentabilidade em nível mundial à cadeia produtiva brasileira de bens de capital. Portanto, nesta nova fase, buscar-se-á aperfeiçoar as formas de integração com empresas, integração regional e intercâmbio com instituições estrangeiras de renome. E, além destes esforços, serão concebidas formas ainda melhores (mais eficazes, acessíveis e inovadoras), a fim de consolidar os resultados obtidos. O IFM I era dividido em áreas que desenvolviam trabalhos de relevância, mas que possuíam uma integração relativa. Os pesquisadores do IFM pertenciam a uma determinada área e desenvolviam projetos daquela área única e exclusivamente. Agora, no IFM II, vamos trabalhar com pacotes de trabalho, work packages (WPs) e subprojetos (SPs). Todos os pesquisadores estarão alocados em diferentes SPs, conforme se necessite de sua capacitação para o desenvolvimento de alguma atividade específica. Além das atividades conjuntas com as empresas, o IFM tem oferecido informações tecnológicas aos pesquisadores e às empresas através de seus portais. O portal www.ifm.org.br é o sistema de gestão das informações acadêmicas do instituto. Detalhes sobre o projeto podem ser obtidos no portal do IFM.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Solange Oliveira Rezende - Coordenador / Maria Carolina Monard - Integrante / Ronaldo Cristiano Prati - Integrante / Gustavo Enrique de Almeida Prado Alves BAtista - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Número de produções C, T & A: 1 Membro: Solange Oliveira Rezende.
12.	2006-2008. Investigação e Desenvolvimento de Técnicas de Tradução Automática de Textos Envolvendo o Português do Brasil Descrição: O projeto visa ao desenvolvimento de tradutores automáticos com base nos modelos estatísticos recentes. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Felipe Tassario Gomes - Integrante / Wilker Ferreira Aziz - Integrante. Membro: Thiago Alexandre Salgueiro Pardo.
13.	2006-2008. ProCaCoSa: Processamento de Cadeias de Co-referência para a Sumarização Automática de Textos em Português Descrição: Proc. Nro. 507030/2004-4. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (3) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Lucia Helena Macahdo Rino - Integrante / Renata Vieira - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.
14.	2006-2008. Projeto PLN-Br: Recursos e Ferramentas para a Recuperação de Informação em Bases Textuais em Português do Brasil Descrição: CNPq (CTInfo) #550388/2005-2: Projeto PLN-Br: Recursos e Ferramentas para a Recuperação de Informação em Bases Textuais em Português do Brasil. Descrição: O objetivo geral deste projeto é a construção de um espaço interinstitucional de interação e intercâmbio de práticas de análise e investigação lingüístico-computacional acerca da representação e da recuperação de informação de natureza semântica e pragmático-discursiva veiculada por enunciados produzidos em português brasileiro. Este projeto conta com a participação de 7 grupos nacionais de PLN das seguintes instituições: USP/São Carlos (NILC), UFSCar, UNESP/Araraquara, PUC/RS, PUC/RJ, UNISINOS e Mackenzie/SP. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Mestrado acadêmico: (3) / Doutorado: (2) . Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Maria das Graças Volpe Nunes - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.
15.	2006-2008. Sumarização Automática de Textos em Português: de Extratos para Abstracts Descrição: Investigação e desenvolvimento de técnicas de sumarização automática de textos em português. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (1) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador / Pedro Paulo Balage Filho - Integrante / Vinícius Rodrigues de Uzêda - Integrante / Priscila Aleixo - Integrante / Daniel Kawamoto - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.
16.	2006-2008. Terminologia em Língua Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório Vocabular e Elaboração de Dicionário-Piloto Descrição: A Nanotecnologia é atualmente uma das áreas centrais das atividades de pesquisa, desenvolvimento e inovação nos países industrializados. Investimentos aplicados nessa área de conhecimento por esses países têm sido crescentes e atingiram, em 2002, cerca de cinco bilhões de dólares. A previsão é de que, entre 2010 e 2015, o mercado mundial envolvendo a Nanotecnologia será de um trilhão de dólares. O cenário no Brasil para pesquisas em Nanociência e Nanotecnologia (N&N) já é promissor, entretanto, ainda há uma grande defasagem dos países do Hemisfério Sul em relação aos países desenvolvidos, como mostra documento da OEA intitulado "Ciência, Tecnologia, Engenharia e Inovação para o Desenvolvimento: uma visão para as Américas no Século XXI" (nov/2005). Para acompanhar esse desenvolvimento científico e tecnológico que se deseja, é preponderante a sistematização de repertórios vocabulares em língua portuguesa. Sistematizar terminologias significa criar termos fiáveis de forma a facilitar a comunicação especializada, além de demonstrar que a língua portuguesa está apta para nomear conceitos técnicos e científicos. Em outras palavras, ao mesmo tempo em que se promove a disseminação de conhecimentos e de tecnologias, fomenta-se a língua nacional, posto que não há ainda qualquer glossário e/ou dicionário de N&N em língua materna. O que se observa é presença maciça de produtos terminológicos em língua inglesa, mas, ainda assim, limitados em abrangência e profundidade. Esta proposta tem como objetivos: 1) constituição de um corpus em língua portuguesa; 2) busca de equivalentes em português - língua de chegada (LC) - a partir de uma nomenclatura em inglês - língua de partida (LP); 3) proposta de uma ontologia em língua portuguesa da área de N&N; 4) elaboração do primeiro dicionário-piloto em N&N em língua materna. (Processo 400506/2006-8).. Situação: Concluído; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Gladis Maria de Barcellos Almeida - Coordenador. Membro: Arnaldo Candido Junior. Descrição: Pesquisadora que integra o Projeto (edital MCT/CNPq 61/2005 - Ciências Humanas, Sociais e Sociais Aplicadas) financiado pelo CNPq (proc. no. 400506/2006-8) e intitulado Terminologia em Língua Portuguesa da Nanociência e Nanotecnologia: Sistematização do Repertório Vocabular e Elaboração de Dicionário-Piloto. Vigência: jul/2006 a jul/2008). Valor concedido: R$ 7.000,00.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Especialização: (0) / Mestrado acadêmico: (2) / Mestrado profissional: (0) / Doutorado: (3) . Integrantes: Ariani Di Felippo - Integrante / Sandra Maria Aluísio - Integrante / Gladis Maria de Barcelos Almeida - Coordenador / Leandro Henrique Mendonça de Oliveira - Integrante / Luis Carlos Genoves Jr - Integrante / Oswaldo Novais de Oliveira Jr - Integrante / Leila Garbelini Soares - Integrante / Daniela Ferreira de Mattos - Integrante / Joel Sossai Coleti - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Cooperação. Membro: Ariani Di Felippo.
17.	2006-2008. Tradução Automática, Alinhamento de Textos Bilíngües Espanhol-Português e Buscas Lingüisticamente Enriquecidas na Web e Bibliotecas Digitais Descrição: APES/MECD #116/06 Espanha: Tradução Automática, Alinhamento de Textos Bilíngües Espanhol-Português e Buscas Lingüisticamente Enriquecidas na Web e Bibliotecas Digitais. Descrição: Este projeto surge como resultado do interesse mútuo de dois grupos de pesquisadores da área de Processamento de Línguas Naturais (PLN) NILC/USP e DLSI/Universidade de Alicante, atualmente envolvidos em projetos de pesquisa afins e potencialmente aplicáveis em produtos de interesse comum e de impacto social e comercial não desprezível. É o caso de tradutores automáticos português-espanhol e de máquinas de busca para a web, enriquecidas com conhecimento lingüístico português e/ou espanhol. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (3) / Doutorado: (1) . Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Maria das Graças Volpe Nunes - Coordenador / Helena Medeiros Caseli - Integrante / Mikel Forcada - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.

2005

1.	2005-2007. (Fapesp Regular) Combinação de Classificadores Descrição: Atualmente existem várias técnicas estatístico-computacionais para classificação de dados e, nos últimos anos, diferentes técnicas de combinação de classificadores (as que se utilizam de mais de um classificador) têm sido propostas. Esta profusão de técnicas para classificação torna o projeto de classificadores uma tarefa não-trivial. Diante deste quadro, um sistema computacional que automatize parte da tarefa deprojetar classificadores é altamente desejável, tanto para facilitar pesquisas na área como para servir de ferramenta para usuários que não são especialistas no assunto.Estabelecendo-se tal sistema como um objetivo a médio longo prazo, uma parte fundamental para sua realização é o desenvolvimento de uma visão sistêmica do processo de projeto de classificadores. Conhecer as técnicas existentes, seus fundamentos teóricos e aspectos relacionadosa suas aplicações é essencial para o desenvolvimento dessa visão. Neste sentido, este projeto de pesquisa propõe uma ampla investigação teórica e experimental sobre técnicas de combinação de classificadores. Os estudos teóricos serão materializados em forma de seminários e relatórios técnicos, enquanto a experimentação dessas técnicas permitirá a resolução de problemas reais. Ambas serão fundamentais para um melhor entendimento do processo de projeto de classificadores.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (1) . Integrantes: Nina Sumiko Tomita Hirata - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Número de produções C, T & A: 3 Membro: Nina Sumiko Tomita Hirata.
2.	2005-2007. Coordenador: Edital Universal CNPq 2004: Novas técnicas de reconhecimento estrutural de padrões Descrição: Análise de configuração espacial de objetos e rastreamento em seqüências de vídeo.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (1) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Roberto Marcondes Cesar Junior - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Roberto Marcondes Cesar Junior.
3.	2005-2005. Desenvolvimento de uma estrutura conceitual (ontologia) para a área de Nanociência e Nanotecnologia Descrição: Este projeto visou à produção de uma ontologia para a área de Nanociência e Nanotecnologia (N&N). A primeira versão, apresentada nos Apêndices 1 e 2 (neste último, a ontologia é mostrada com a interface de vizualização hiperbólica), foi baseada num córpus volumoso de artigos, livros, e resumos de fontes variadas, e em inglês. Embora o objetivo inicial tenha sido a de produzir uma ontologia em português, optamos por apresentar a primeira versão em inglês, e num trabalho futuro, após o refinamento da ontologia a partir de feedback de especialistas da área, será feita a tradução dos termos. Uma outra razão para fazer a versão inicial em inglês foi a disponibilidade de material bibliográfico específico da área, muito mais abundante em inglês, além de praticamente não haver ontologias detalhadas para Nanociência e Nanotecnologia.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Especialização: (0) / Mestrado acadêmico: (2) / Mestrado profissional: (0) / Doutorado: (6) . Integrantes: Ariani Di Felippo - Coordenador / Sandra Maria Aluísio - Integrante / Osvaldo Novais de Oliveira Jr - Integrante / Gladis Maria de Barcelos Almeida - Integrante / Leandro Henrique Mendonça de Oliveira - Integrante / Lucas Antiqueira - Integrante / Luciano Caseli - Integrante / Valtencir Zucolotto - Integrante / David Sotero dos Santos Jr - Integrante. Financiador(es): Universidade de São Paulo - Cooperação. Membro: Ariani Di Felippo.
4.	2005-2005. Inferência e aprendizado de modelos lógico-probabilísticos (Instituto de Pesquisas Eldorado) Descrição: Convênio de pesquisa (com recursos da lei de informática) firmado entre a Escola Politécnica da Universidade de São Paulo e o Instituto de Pesquisas Eldorado, como instituição condutora de pesquisas de interesse da Hewlett-Packard R&D Brasil. O convênio teve como objetivo o desenvolvimento de atividades em inteligência artificial e aprendizado de modelos que congregam elementos lógicos e elementos probabilísticos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (2) . Integrantes: Fabio Gagliardi Cozman - Coordenador / André Hideaki Saheki - Integrante / João Vitor Torres - Integrante / Monica Goes Eboli - Integrante. Financiador(es): Instituto de Pesquisas Eldorado - Brasília - Auxílio financeiro. Número de produções C, T & A: 2 Membro: Fabio Gagliardi Cozman.
5.	2005-2007. Léxico-PB: Léxico Computacional de Português Brasileiro para Processamento de Língua Natural Descrição: CNPq (Fomento Tecnológico) #507004/2004-3: Léxico-PB: Léxico Computacional de Português Brasileiro para Processamento de Língua Natural. Descrição: O objetivo principal desse projeto é a construção de um léxico computacional de português brasileiro que maximize os seguintes critérios: (a) abrangência quanto ao número de entradas, cobrindo o português não-técnico, incluindo as variantes culta e vulgar; (b) cobertura quanto ao tipo dos atributos associados às entradas, sejam fonológicos, morfológicos, morfossintáticos e semânticos; (c) correção das informações nele contidas; (d) espectro de aplicação, ou seja, a utilidade que o léxico possa ter para aplicações diversas de PLN. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) / Doutorado: (1) . Integrantes: Thiago Alexandre Salgueiro Pardo - Integrante / Maria das Graças Volpe Nunes - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Thiago Alexandre Salgueiro Pardo.
6.	2005-2007. Lógica probabilística e independência (financiado FAPESP) Descrição: Este projeto investiga a união de métodos lógicos e probabilísticos, focando sobretudo no desenvolvimento de algoritmos de inferência. Esta união é um tema antigo em Inteligência Artificial: uma linguagem unificadora teria grande impacto em representação de conhecimento, aprendizado de regras, recuperação e busca de informações. O projeto se propõe a construir uma lógica probabilística que seja associada a relações de probabilidade e obter algoritmos de inferência para a lógica resultante. Aplicações em Robótica Cognitiva e na construção da Web Semântica (Semantic Web) são estudadas no projeto.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Especialização: (0) / Mestrado acadêmico: (1) / Mestrado profissional: (0) / Doutorado: (2) . Integrantes: Fabio Gagliardi Cozman - Coordenador / Leliane Nunes de Barros - Integrante / José Carlos Ferreira da Rocha - Integrante / Daniel Kikuti - Integrante / Ricardo Shirota Filho - Integrante / Thiago Augusto Miranda Delatorre - Integrante / Felipe W Trevizan - Integrante / André da Costa Teves - Integrante / Danillo Paulo Couto - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Número de produções C, T & A: 10 Membro: Fabio Gagliardi Cozman.
7.	2005-2006. Min Tex: descoberta de conhecimento em dados não estruturados usando mineração de textos Descrição: O foco principal deste projeto é a identificação de uma metodologia validada e confiável para manipular documentos textuais a partir da análise de seus conteúdos; possibilitando identificar tendências e categorias em uma grande massa de documentos com a intervenção mínima de um especialista de domínio na convergência do método - que poderá ser uma combinação integrada de vários métodos. Essa dificuldade de atingir consenso metodológico considerando a grande quantidade de informação disponível, nem sempre de qualidade e de real interesse, cria a demanda por ferramentas, quer automatizadas quer semi-automatizadas, que analisem os textos originais, de modo a filtrar o que é de fato útil. Com base nesses problemas, e também em soluções hoje mundialmente utilizadas, o objetivo deste projeto de pesquisa é desenvolver ferramentas automáticas e semi-automáticas para manipular dados não estruturados com base em mineração de textos, que indiquem as tendências conceituais em meio à fonte de material textual de um domínio do conhecimento, de forma clara. Neste projeto, a publicação científica, que é uma fonte de informação não estruturada, é o principal foco de análise. Como resultado do trabalho, espera-se contribuir de forma efetiva para a área de mineração de textos, tanto com relação aos resultados de pesquisa quanto com a formação de alunos. Os resultados de formação estão relacionados com a formação de alunos de Iniciação Científica e de bolsistas DTI, nos temas relacionados à extração de conhecimento de textos. Os resultados de pesquisa estão relacionados ao processo de mineração de texto. A proposta deste projeto, apesar da motivação inicial considerar textos relacionados com publicações científicas, trata também de solucionar alguns problemas que são comuns à recuperação e mineração de textos em geral. Edital CNPq 014/2004 - Fomento tecnologico Processo 507064-6. Situação: Desativado; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Especialização: (0) / Mestrado acadêmico: (4) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Solange Oliveira Rezende - Coordenador / Maria Carolina Monard - Integrante / André Carlos Ponce de Leon Ferreira de Carvalho - Integrante / Alneu de Andrade Lopes - Integrante / Maria Feranda Moura - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Membro: Solange Oliveira Rezende.
8.	2005-2007. Padrões rítmicos, Fixação de parâmetros e Mudança lingüística, Fase II Descrição: Projeto Temático: Padrões rítmicos, Fixação de parâmetros e Mudança lingüística, Fase II (proc. nro 04/03643-0) Objetivos Este projeto situa-se na continuação do projeto homônimo, processo 1998/03382-0, cujo balanço final segue na Seção Resultados de Auxílios anteriores. O primeiro objetivo do presente projeto é a extensão e consolidação do Corpus Tycho Brahe (doravante CTB), , elaborado na fase anterior, tanto no que diz respeito aos textos que o compõem quanto à sua anotação morfológica e sintática. O segundo objetivo é usar o CTB para estudar a história do português a partir das seguintes questões: - Quais são as características da gramática intermediária entre a do português arcaico e do português europeu moderno? - Qual é a trajetória no tempo dessa gramática? - Como se dá a emergência do português europeu moderno? De uma maneira mais geral, este projeto se insere em duas grandes problemáticas da teoria da linguagem: - O que provoca a mudança lingüística? - Como essa mudança se dá ao longo do tempo? Enfim, o projeto enfrenta a questão metodológica da detecção da mudança nos textos escritos. Para isso pretende articular análise qualitativa - no âmbito da teoria da gramática gerativa - e análise quantitativa, lançando mão da estatística descritiva e da modelagem estocástica.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Sandra Maria Aluísio - Integrante / Marcelo Finger - Integrante / Charlotte Galves - Coordenador / Maria Clara Paixão de Sousa - Integrante / Afrânio Barbosa - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Sandra Maria Aluísio.
9.	2005-2007. Pesquisador Principal: Projeto Rede GIGA-RNP: Aplicações gráficas em redes avançadas Descrição: Aplicações em rede GIGA.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Roberto Marcondes Cesar Junior - Integrante / L Velho - Coordenador. Financiador(es): Rede Nacional de Ensino e Pesquisa - Auxílio financeiro. Membro: Roberto Marcondes Cesar Junior.
10.	2005-2009. Projeto Harpia Descrição: Projeto conjunto entre Unicamp, ITA e RFB, com o objetivo de desenvolver novas tecnologias para atender as demandas do setor aduaneiro e de comércio exterior da Receita Federal do Brasil.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Norton Trevisan Roman - Integrante / Luis Augusto Angelotti Meira - Integrante / Jorge Jambeiro Filho - Integrante / Cristiano Dalmaschio Ferreira - Integrante / Andréia Akemi Kondo - Integrante / Rodrigo Carvalho Rezende - Integrante / Everton Rufino Constantino - Integrante / Bruno Cedraz Brandão - Integrante / Helder Santos Ribeiro - Integrante / Pietro Kreitlon Carolino - Integrante / Antonella Lanna - Integrante / Jacques Wainer - Integrante / Siome Klein Goldenstein - Coordenador / Luciano Antonio Digiampietri - Integrante. Número de produções C, T & A: 2 Membro: Norton Trevisan Roman.
11.	2005-2008. Projeto PLN-Br: Recursos e Feramentas para a Recuperação de Informação em Bases Textuais em Português do Brasil Descrição: O objetivo geral deste projeto é a construção de um espaço interinstitucional de interação e intercâmbio de práticas de análise e investigação lingüístico-computacional acerca da representação e da recuperação de informação de natureza semântica e pragmático-discursiva veiculada por enunciados produzidos em português brasileiro. A este objetivo geral correspondem três objetivos específicos, indicados a seguir: - A construção de padrões e protocolos que possam diminuir o custo de reconstrução ou adaptação, e possibilitar a reutilização dos recursos construídos para finalidades diversas, além de oferecer uma base comum de avaliação dos diferentes sistemas construídos para um mesmo fim; - A construção de recursos e ferramentas comuns, modelados e implementados em consonância com os padrões e protocolos acordados entre as várias equipes; e - A construção e a avaliação de aplicações variadas para a recuperação e a extração de informações em documentos produzidos em português brasileiro a partir dos recursos construídos e disponibilizados no âmbito desta proposta. Para a consecução desses objetivos, este projeto está subdividido em oito diferentes subprojetos, cada um dos quais a cargo de um subcoordenador específico. Os vários subprojetos, em que pese a diversidade dos métodos e objetivos envolvidos em cada caso, estarão inter-relacionados pelo compartilhamento de estratégias convergentes de construção e avaliação de recursos, ferramentas e aplicações, que constituirão o ponto de partida de cada uma das equipes, e que serão construídas, comunitariamente, a partir de uma mesma base de documentos. Este projeto conta com a participação de 7 grupos nacionais de PLN das seguintes instituições: USP/São Carlos (NILC), UFSCar, UNESP/Araraquara, PUC/RS, PUC/RJ, UNISINOS e Mackenzie/SP.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (9) / Especialização: (0) / Mestrado acadêmico: (3) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Maria das Graças Volpe Nunes - Coordenador / Ronaldo T Martins - Integrante / Thiago A S Pardo - Integrante / Lucia H M Rino - Integrante / Renata Vieira - Integrante / Sandra M Aluisio - Integrante / Vera L Strube de Lima - Integrante / Bento C Dias da Silva - Integrante / Violeta Quental - Integrante / Maria Carmelita Dias - Integrante / Claudia M G M Oliveira - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro / Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Membro: Maria das Graças Volpe Nunes.
12.	2005-2011. Redes Complexas e Processamento de Textos em Língua Natural Descrição: Este projeto investiga o uso de Redes Complexas para modelar textos em línguas naturais e, a partir de medidas da rede, extrair características dos textos.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (1) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Maria das Graças Volpe Nunes - Integrante / Thiago A S Pardo - Integrante / Lucas Antiqueira - Integrante / Luciano Fontoura Costa - Coordenador / Osvaldo N Oliveira Jr - Integrante / Diego Amancio - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa / Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Número de produções C, T & A: 8 Membro: Maria das Graças Volpe Nunes.

CVNLP PPI: Residência em TIC 13 - Heterogeneous Computing for Computational Vision and Natural Language Processing - Programas e Projetos Prioritários (PPI) - MCTI, Softex

Total de projetos de pesquisa

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

2009

2008

2007

2006

2005

2004

2003

2002

2001

2000

1999

1998

1997

1996

1995

1993

1992

1990

1.	2014-2016. Aprendizado de Máquina para WebSensors: Algoritmos e Aplicações Descrição: A popularização de plataformas web para publicação de conteúdo textual tem motivado o desenvolvimento de métodos para extração automática de conhecimento implícito nos textos. Em particular, uma nova gama de estudos e aplicações tem sido proposta para explorar a web como um grande e poderoso "sensor social", permitindo identificar e monitorar vários tipos de eventos a partir de textos publicados em portais de notícias e redes sociais, como detecção de epidemias, análise de sentimentos, e a extração de indicadores políticos e econômicos. Atualmente, a construção de um sensor da web (websensor) é uma tarefa complexa, pois depende de especialistas de domínio para definição dos parâmetros do sensor, isto é, expressões para busca, filtros e monitoramentos de conteúdo textual da web. A necessidade de especialistas de domínio geralmente limita as aplicações envolvendo websensors, uma vez que em muitos problemas não há compreensão clara dos fenômenos que se deseja monitorar. Em vista disso, neste projeto de pesquisa são investigados métodos de aprendizado de máquina para apoiar a construção automática de websensors. A ideia básica é utilizar uma amostra de documentos textuais do domínio do problema e, em conjunto com algoritmos de aprendizado de máquina semi/não supervisionados, extrair padrões dos textos e assim apoiar a construção de websensors. Dessa forma, espera-se reduzir a dependência de um especialista para definição dos parâmetros dos sensores. Cada websensor aprendido a partir dos textos representa um determinado fenômeno relacionado ao domínio do problema que, então, pode ser monitorado ao longo do tempo e utilizado para apoiar processos de tomada de decisão.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (3) Doutorado: (6) . Integrantes: Solange Oliveira Rezende - Coordenador / Roberta Akemi Sinoara - Integrante / Gustavo Enrique de Almeida Prado Alves BAtista - Integrante / Ricardo Marcondes Marcacini - Integrante / Rafael Geraldeli Rossi - Integrante / Fabiano Fernandes dos Santos - Integrante / Renan de Padua - Integrante / Veronica Oliveira de Carvalho - Integrante / Antonio Rafael Sabino Parmezan - Integrante / Bruno Magalhães Nogueira - Integrante / Camila Vaccari Sundermann - Integrante / Diego Furtado Silva - Integrante / Tatiana Ximenes - Integrante / Ivone Penque Matsuno - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende.
2.	2014-2015. Avaliação da Função Sistólica do Ventrículo Esquerdo Através do Fluxo Máximo de Ejeção em Pacientes com Disfunção Cardíaca Descrição: O desempenho ventricular tem importantes variáveis até então desconhecidas pela literatura no ramo da medicina. Potência, fluxo instantâneo máximo e fluxo médio são exemplos de variáveis a serem extraídas dos gráficos e incorporadas na análise médica. Essas variáveis podem ser extraídas dos gráficos contidos nas imagens ecocardiográficas através de técnicas de análise e processamento de imagens, como a limiarização, e de aplicações do cálculo diferencial e integral, visto que o equipamento usado nos exames não fornece estes dados. É possível determinar o fluxo instantâneo que constitui teoricamente em uma importante grandeza relacionada ao desempenho ventricular. Pretende-se neste trabalho aplicar técnicas de análise e processamento de imagens e modelagem matemática para a obtenção de variáveis físicas que possibilite a elucidação e obtenção de índices significativos e não utilizados na literatura médica. Medidas como essa agregam ao exame médico uma melhor precisão e significação funcional e, consequentemente, um melhor diagnóstico e prognóstico para pacientes.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (1) / Doutorado: (1) . Integrantes: Iago Breno Alves do Carmo Araujo - Integrante / Carlos Alberto Rodrigues - Coordenador / Airandes de Sousa Pinto - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado da Bahia - Bolsa. Membro: Iago Breno Alves do Carmo Araujo.
3.	2014-2022. Gramateca Descrição: Projeto colaborativo de uma gramática baseada em corpus para a língua portuguesahttp://www.linguateca.pt/Gramateca/. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (2) . Integrantes: Maria Cláudia de Freitas - Integrante / Diana Santos - Coordenador / Bianca Freitas de Jesus - Integrante / Bruno Carriço - Integrante / Luiza Frizzo Trugo - Integrante. Financiador(es): Linguateca - Cooperação / Pontifícia Universidade Católica do Rio de Janeiro - Auxílio financeiro. Número de produções C, T & A: 12 Membro: Maria Cláudia de Freitas.
4.	2014-2015. Identificação de diferentes alternativas para os blocos de construção do algoritmo de programação genética para evoluir algoritmos de indução de árvores de decisão Descrição: Meus estudos foram direcionados através da mineração de dados, árvores de decisão e heurı́stica. Com objetivo de entender e manipular a ideia dos macro-parâmetros e building-blocks essenciais para a progra- mação genética e o algoritmo HEAD-DT, ferramenta foco do projeto.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Ricardo Manhães Savii - Integrante / Márcio Basgalupp - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Membro: Ricardo Manhães Savii.
5.	2014-2015. Tecnologias Assistivas para Moradia e Independência no Envelhecimento Descrição: Esse projeto tenta preencher uma lacuna quanto ao desenvolvimento de Tecnologias Assistivas para independência e autonomia no envelhecimento, nomeadamente: validação do uso de um sensor baseado em aceleração para a detecção e a prevenção da queda em idosos e tecnologia em Web 2.0 para dispositivos táteis. Os resultados podem apontar a validade de equipamentos de baixo custo, baixo nível de erro, e boa receptividade possibilitando a geração de produtos que permitam a manutenção da independência do idoso frágil.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (1) / Doutorado: (1) . Integrantes: Moacir Antonelli Ponti - Integrante / Paula Costa Castro - Coordenador / Renata Pontin de Mattos Fortes - Integrante / Jorge Oishi - Integrante / André Ponce de Leon Ferreira de Carvalho - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Moacir Antonelli Ponti.
6.	2014-2019. Uma Plataforma para Recomendação Automática de Pontos de Interesse em Cidades Brasileiras: Arquitetura e Projeto Piloto Descrição: O projeto consiste na proposta de uma arquitetura e projeto piloto para uma plataforma sensível ao contexto para recomendação de pontos de interesse. Projeto: A075/2013 Validade: 12/2016. Situação: Concluído; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / André Carlos Ponce de Leon Ferreira de Carvalho - Integrante / Maria da Graça Campos Pimentel - Coordenador / Marcos Auréilo Domingues - Integrante / Alipio Mario Guedes Jorge - Integrante / Carlos Soares - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Membro: Solange Oliveira Rezende.

1.	2008-2011. Continuidade na Consolidação das linhas de pesquisa do mestrado em Ciências da Computação do DC/UFMS Descrição: Edital CNPq 'Casadinho' - Processo 620080/2008-6 - Edital no. 16/2008 - Faixa A. Situação: Concluído; Natureza: Pesquisa. Integrantes: Solange Oliveira Rezende - Integrante / Henrique Mongelli - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Solange Oliveira Rezende.
2.	2008-Atual. Expressão genica em tumores do estomago e do esofago: da biologia ao diagnóstico Descrição: Os tumores da porção superior do trato digestivo (esôfago e estômago) representam um importante desafio na pesquisa sobre o câncer. A grande maioria dos pacientes é diagnosticada tardiamente e, por conseqüência, com prognóstico bastante limitado. Enquanto os adenocarcinomas de estômago representam a segunda maior cause de morte relacionada ao câncer, os adenocarcinomas do esôfago apresentam a maior taxa de crescimento percentual nos Estados Unidos e Europa, assim como nas populações de maior renda no hemisfério sul. Os adenocarcinomas do estômago e do esôfago estão freqüentemente associados a processos inflamatórios da mucosa normal. Esse processo inflamatório crônico leva à substituição da mucosa normal por um tecido colunar do tipo intestinal, denominado metaplasia intestinal do estômago e que, no esôfago, recebe a denominação de mucosa de Barrett. Essas duas patologias não devem ser consideradas doenças pré-malígnas, uma vez que a taxa de transformação em adenocarcinomas é reduzida, mas representam o fator de risco mais importante para os adenocarcinomas dos dois órgãos. Usando a metodologia de microarranjos de DNA, estudamos as características moleculares de amostras de tecido representando mucosa normal, metaplasia intestinal e adenocarcinomas desses dois órgãos. Com base nestes dados, aplicamos ferramentas matemáticas e estatísticas para identificar assinaturas moleculares capazes de classificar precisamente as amostras. Também, foi possível definir um conjunto de alterações em vias metabólicas relacionadas aos processos inflamatórios e de metabolismo de glicerolípedes que poderão contribuir para o entendimento da origem e dos processos moleculares envolvidos na transformação maligna. Neste projeto, pretendemos criar uma rede de instituições e pesquisadores com tradição de pesquisa em tumores de estomago e esôfago que permitirá acesso a um número maior de amostras com dados clínicos e epidemiológicos associados. Com essas amostras, pretendemos estabelecer uma. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (5) Doutorado: (5) . Integrantes: Roberto Hirata Junior - Integrante / Luis Fernando Reis - Coordenador / Neves, E Jordão - Integrante. Membro: Roberto Hirata Junior.
3.	2008-2010. Modelagem Computacional de Sistemas Complexos utilizando Mineração de Dados, Imagens e Textos Descrição: O objetivo geral deste projeto, o qual pode ser caracterizado como um projeto de pesquisa científica e tecnológica, é pesquisar, propor e desenvolver soluções para a representação, indexação, modelagem e análise de dados complexos para possibilitar que um analista do domínio possa compreender os inter-relacionamentos existentes nos dados, imagens e textos, de modo a auxiliá-lo a tomar decisões nos processos de recuperação de informação, descoberta de conhecimento e diagnóstico. O projeto visa o desenvolvimento de um ferramental teórico e prático que auxilie analistas na modelagem desse tipo de sistemas complexos, com foco nos temas de: indução de modelos simbólicos com aplicações em sériestemporais e dados sequenciais; anáise de bases de dados não-estruturados e semi-estruturados para mineração de textos; mineração de imagens em um sistema de arquivamento e recuperação de imagens médicas por conteúdo.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (8) / Doutorado: (7) . Integrantes: Solange Oliveira Rezende - Integrante / Maria Carolina Monard - Coordenador / Caetano Traina Júnior - Integrante / Agma Juci Machado Traina - Integrante / Ronaldo Cristiano Prati - Integrante / Huei Diana Lee - Integrante / Alneu de Andrade Lopes - Integrante / Feng Chung Wu - Integrante / André Guilherme Ribeiro Balan - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Solange Oliveira Rezende.
4.	2008-2011. Pesquisa e desenvolvimento de ontologias para a língua portuguesa - OntoLP Descrição: Este projeto de pesquisa se propõe a avançar nas soluções para construção de e pesquisa em ontologias, identificando ontologias disponíveis na língua portuguesa (considerando aqui uma noção ampla de ontologias, que inclui desde bases terminológicas, vocabulários controlados, até ontologias mais complexas do tipo OWL-DL); estudando e propondo métodos para a construção de ontologias a partir de textos da língua portuguesa, bem como métodos para mapeamento de ontologias considerando português entre outras línguas; construindo interfaces (na forma de um plug-in para o editor Protege a ferramenta mais utilizada para edição de ontologias), de maneira que os resultados obtidos no projeto possam auxiliar o engenheiro de ontologias na tarefa de identificar conceitos em um corpus de domínio.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (2) / Doutorado: (1) . Integrantes: Lucelene Lopes - Integrante / Vieira, Renata - Coordenador / Larissa Astrogildo de Freitas - Integrante / Anderson Bestteti - Integrante / Patrícia Mylius Pizzinato - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Membro: Lucelene Lopes.
5.	2008-2010. PorSimples: Simplificação Textual do Português para Inclusão e Acessibilidade Digital Descrição: Propomos o desenvolvimento de uma tecnologia que foca uma área de pesquisa do processamento de língua natural, a simplificação textual, sendo disponibilizada em dois sistemas destinados a públicos alvos diferentes: (i) um sistema de autoria para ajudar autores a produzir textos simplificados que serão validados pelos próprios autores, e (ii) um sistema facilitador para ajudar a leitura de um dado conteúdo da Web. Este último inclui tarefas de sumarização textual, simplificação, e apresentação do texto salientando as relações entre as idéias do texto. Quanto aos cenários de uso, esta tecnologia se destina a facilitar o acesso à informação dos analfabetos funcionais, principalmente e, de pessoas com outras deficiências cognitivas como surdes congênita e portadores de afasia e dislexia, na leitura de textos eletrônicos em português produzidos pelo governo ou por jornais de grande circulação; as crianças em fase de aprendizado de leitura; ou ainda adultos em fase de alfabetização.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Arnaldo Candido Junior - Integrante / Sandra Maria Aluísio - Coordenador. Membro: Arnaldo Candido Junior.
6.	2008-2010. Redes de interação gênica ``semeadas'' por cliques Descrição: No presente projeto de pesquisa pretende-se estudar subsistemas biológicos dentro de um sistema complexo usando o modelo de Redes Booleanas Probabilísticas e a abordagem de aprendizado estatístico e computacional. O número de genes a ser considerado no subsistema é pequeno de forma a viabilizar as inferências entre os genes de estudo e, simplificar os modelos matemáticos e computacionais. A importância deste trabalho é que os algoritmos desenvolvidos podem ajudar pesquisadores a encontrar genes ainda não conhecidos envolvidos em importante processos biológicos, além de fortalecer a colaboração dos grupos envolvidos (Brasil, Argentina e USA).. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (1) / Doutorado: (2) . Integrantes: Roberto Hirata Junior - Coordenador / Nina Sumiko Tomita Hirata - Integrante / Ronaldo Fumio Hashimoto - Integrante / Rodrigo Assirati Dias - Integrante / Santos, Carlos S. - Integrante / Rodrigo Flores - Integrante / Carlos Higa - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Roberto Hirata Junior.

1.	2004-2004. Análise de tráfego usando processamento de imagens Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) . Integrantes: Roberto Hirata Junior - Coordenador. Membro: Roberto Hirata Junior.
2.	2004-2004. Design Patterns em processamento de imagens Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) . Integrantes: Roberto Hirata Junior - Coordenador. Membro: Roberto Hirata Junior.
3.	2004-2007. Documentation and Description of Suya (Ge) Descrição: Projeto cuja finalidade foi descrever e documentar a lingual amazônica da família Gê Suyá. O projeto, financiado por dois dos mais importantes órgãos de fomento britânicos, tinha o objetivo de, mediante coleta exaustiva de dados, produzir uma gramática de referência, dicionários bilíngues e material pedagógico para ensino da lingual. Os dados coletados incluíram discurso espontâneo e extemporâneo. Todo o material foi transcrito e catalogado usando as diretivas propostas pelo IMELD.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (4) . Integrantes: Miguel Oliveira Jr - Integrante / Cilene Campetela - Integrante / Daniel Everett - Coordenador / Lucy Seki - Integrante. Financiador(es): Economics and Social Research Council - Remuneração / Arts and Humanities Research Board - Remuneração. Membro: Miguel Oliveira Jr.
4.	2004-2006. Tradução Automática envolvendo o Português do Brasil Descrição: O projeto é dividido em 5 subprojetos de TA, que têm em comum principalmente o envolvimento da língua portuguesa, mas variam quanto ao enfoque das aplicações ou das técnicas envolvidas. Três deles são inspirados na tecnologia de tradução indireta baseada em interlíngua: o Projeto UNL; o Projeto Libras, de um sistema de tradução semi-automática entre o português e uma versão linearizada de Libras, a língua brasileira de sinais; e o Projeto EPT-WEB, uma ferramenta de tradução completamente automática, para o português, de manchetes e lides da edição eletrônica do The New York Times. O quarto subprojeto investiga o aprendizado automático de regras de tradução a partir de córpus, em que se pretende substituir o conhecimento lingüístico por evidências estatísticas. As línguas envolvidas são o português, o inglês e o espanhol. O quinto subprojeto investiga o problema da ambigüidade lexical de sentido na tradução automática de inglês para português - um problema reconhecidamente importante, cuja modelagem de solução pode ser útil para quaisquer dos projetos anteriores.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (3) . Integrantes: Maria das Graças Volpe Nunes - Coordenador / Ronaldo Teixeira Martins - Integrante / Ricardo Hasegawa - Integrante / Jorge Marques Pelizzoni - Integrante / Lucia Specia - Integrante / Thiago A. S. Pardo - Integrante / Helena de Medeiros Caseli - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Bolsa / Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa / Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Número de produções C, T & A: 31 Membro: Maria das Graças Volpe Nunes.
5.	2004-2004. Uma grade basead em .Net Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) . Integrantes: Roberto Hirata Junior - Coordenador. Membro: Roberto Hirata Junior.

1.	2003-2008. Algoritmos para Reconstrução Tomográfica: otimização, reconstrução, quantificação e aplicação clínica Descrição: A Reconstrução Tomográfica revolucionou a Medicina, permitindo a visualização anatômica, metabólica e funcional de estruturas humanas de modo não-invasivo. Nestes últimos 30 anos, têm havido progressos notáveis na reconstrução tomográfica a partir de projeções, tanto no que se refere à qualidade e velocidade, quanto em estudos dinâmicos e tridimensionais [Udupa, 2000]. Contudo, ainda há várias questões em aberto nesta área, principalmente em relação à tomografia por emissão, modalidade esta muito utilizada em Medicina Nuclear. São desafios importantes, tais como: a) assegurar resultados verdadeiramente quantitativos ao SPECT - Single Photon Emission Computed Tomography e ao PET- Positron Emission Tomography (remoção de artefatos causados pela atenuação, espalhamento e ruído); b) algoritmos de reconstrução verdadeiramente 4D para estruturas dinâmicas; c) segmentação e quantificação tridimensional robustas; e d) avaliações objetivas dos métodos tomográficos. A tomografia por emissão (SPECT e PET) é uma modalidade de imagens médicas importantíssima porque permite, através do uso de radiofármacos, a obtenção de informações funcionais e metabólicas. Essas informações, muitas vezes, indicam mudanças em processos biológicos que podem levar a identificação de doenças, antes mesmo que modificações anatômicas possam ser detectadas em imagens radiológicas ou por ressonância magnética nuclear. São encontradas ainda situações em que não existem sintomas manifestos e as imagens por emissão já mostram funções alteradas. O projeto aqui apresentado tem, como objetivo principal, unir esforços e conhecimentos de várias equipes com longa experiência em Tomografia, visando soluções práticas e otimizadas de algoritmos de reconstrução, de restauração de imagens, de quantificação de volumes reconstruídos e de aplicações clínicas.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (1) . Integrantes: Moacir Antonelli Ponti - Integrante / Nelson Delfino d'Ávila Mascarenhas - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Número de produções C, T & A: 7 Membro: Moacir Antonelli Ponti.
2.	2003-2006. Classificadores de amostras biológicas baseadas na expressão de poucos genes. Situação: Concluído; Natureza: Pesquisa. Integrantes: Roberto Hirata Junior - Coordenador. Membro: Roberto Hirata Junior.
3.	2003-2004. Estudos Discursivos, Sintáticos e Prosódicos da Fala Descrição: Este projeto tem por objetivo investigar vários aspectos sintáticos, discursivos e prosódicos do discurso em português brasileiro. Foi planeado no âmbito do Pro-DOC.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Miguel Oliveira Jr - Integrante / Luiz Antônio Marcuschi - Integrante / Dóris Cunha - Coordenador / Kazue Saito - Integrante / Judith Chambliss - Integrante / Michelângela Melo - Integrante / Marco Antônio Dantas - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Auxílio financeiro. Membro: Miguel Oliveira Jr.
4.	2003-2004. Inferência e Aprendizado de Modelos Estatísticos Complexos (Instituto de Pesquisas Eldorado) Descrição: Convênio de pesquisa (com recursos da lei de informática) firmado entre a Escola Politécnica da Universidade de São Paulo e o Instituto de Pesquisas Eldorado, como instituição condutora de pesquisas de interesse da Hewlett-Packard R&D Brasil. O convênio visou o desenvolvimento de atividades em aprendizado semi-supervisionado de modelos estatísticos multivariados representados por grafos, a partir de bases de dados de grande volume.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (2) / Doutorado: (1) . Integrantes: Fabio Gagliardi Cozman - Coordenador / Fabio Tozeto Ramos - Integrante / Waldemar de Santa Cruz Oliveira Júnior - Integrante / Clayton Silva Oliveira - Integrante / Fabio Oliveira Fagundes - Integrante / Gabriel Cardoso Schweitzer - Integrante. Membro: Fabio Gagliardi Cozman.
5.	2003-2005. Projeto Extração automática de termos e elaboração colaborativa de terminologias para intercâmbio e difusão de conhecimento especializado Descrição: O uso de terminologias sistematizadas contribui para tornar mais eficaz a comunicação entre especialistas. Entretanto, para se empreender a tarefa de sistematizar terminologias, é fundamental que haja ferramentas computacionais compatíveis com esse tipo de empreendimento. A Terminologia e a Informática são duas áreas que estão integradas, há pelo menos quatro décadas, em países desenvolvidos, com o objetivo de gerar produtos terminológicos melhores e mais fiáveis. É fato que, no Brasil, tal realidade vai se dar muito tardiamente e, ainda assim, os poucos terminólogos brasileiros que desenvolvem produtos terminológicos operam na maioria das vezes com ferramentas adaptadas e não elaboradas especificamente para a finalidade das suas pesquisas. Nossa proposta, então, é a de satisfazer algumas exigências básicas da pesquisa terminológica por meio de uma ferramenta computacional baseada na Web, composta de módulos para extração automática de termos, elaboração colaborativa, intercâmbio e difusão do conhecimento terminológico disponível, para que áreas técnicas e de pesquisa emergentes e/ou de influência na economia brasileira possam ser privilegiadas com a criação de glossários e dicionários terminológicos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (5) / Especialização: (0) / Mestrado acadêmico: (1) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Sandra Maria Aluísio - Integrante / Leandro Henrique Mendonça de Oliveira - Integrante / Maria Fernanda Teline - Integrante / Gladis Maria de Barcellos Almeida - Coordenador / Ivan Pereira de Souza - Integrante / Dayse Simon Landim de Souza - Integrante / Elisabete Rayel Assumpção - Integrante / Mauri Siqueira Montesi - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Número de produções C, T & A: 7 Membro: Sandra Maria Aluísio.

1.	2002-2005. Analisador Discursivo Automático para o Português Descrição: Projeto de estudo e proposta de modelos para análise discursiva, visando a construção de um analisador discursivo automática e ferramentas de auxílio à escrita.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Maria das Graças Volpe Nunes - Coordenador / Valéria D Feltrim - Integrante / Thiago A. S. Pardo - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Bolsa / Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro / Comissão Fulbright - Bolsa / Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Número de produções C, T & A: 20 Membro: Maria das Graças Volpe Nunes.
2.	2002-2004. Identificação de Genes que Regulam Fenótipos de Interesse em Agropecuária através da Análise Computacional de Seqüências de Expressão Descrição: Projeto CNPq - Pesquisador. Situação: Concluído; Natureza: Pesquisa. Integrantes: Roberto Hirata Junior - Integrante / Junior Barrera - Coordenador / Neves, E Jordão - Integrante. Membro: Roberto Hirata Junior.
3.	2002-2004. Instituto Fábrica do Milênio (IFM I) Descrição: Os objetivos gerais do Instituto Fábrica do Milênio (IFM) podem ser entendidos como a proposição, o desenvolvimento e a disseminação de mecanismos para o aumento da competitividade e do conhecimento científico e tecnológico das empresas instaladas no país, através da formação de um cluster de pesquisas integradas, abordando os os temas que determinam hoje a competitividade de empresas de manufatura. O conjunto de instituições e projetos envolvidos formam uma massa crítica que os capacitam a desenvolver um espectro de pesquisas (que abrangem desde o desenvolvimento de tecnologias industriais básicas até elementos de gestão) que podem, se organizadas de forma integrada, contribuir efetivamente para o desenvolvimento das indústrias brasileiras. Descrição completa desse projeto encontra-se em: http://www.ifm.org.br. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Solange Oliveira Rezende - Integrante / Henrique Rozenfeld - Integrante / João Fernando Gomes de Oliveira - Coordenador / Marcel Musetti - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Cooperação. Membro: Solange Oliveira Rezende.
4.	2002-2003. PRODIP Descrição: O presente projeto de pesquisa - pensado e planeado por Miguel Oliveira (que também atuou como coordenador até abril de 2003) - tem por finalidade investigar que elementos prosódicos os falantes usam para marcar a estrutura da informação do discurso nos meios de comunicação e quais desses elementos os ouvintes conseguem identificar como relevantes nesse processo.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Miguel Oliveira Jr - Integrante / Tiago Freitas - Integrante / Fernando Martins - Coordenador / Maria Helena Mira Mateus - Integrante / Maria do Céu Viana - Integrante / Eva Airim - Integrante / Francisco Costa - Integrante. Financiador(es): Fundação Para a Ciência e a Tecnologia - Auxílio financeiro / Instituto de Linguística Teórica e Computacional - Cooperação. Número de produções C, T & A: 11 Membro: Miguel Oliveira Jr.
5.	2002-2003. Redes Bayesianas para Aprendizado de Modelos Estatísticos (Instituto de Pesquisas Eldorado) Descrição: Convênio de pesquisa (com recursos da lei de informática) firmado entre a Escola Politécnica da Universidade de São Paulo e o Instituto de Pesquisas Eldorado, como instituição condutora de pesquisas de interesse da Hewlett-Packard R&D Brasil. O convênio teve como objetivo desenvolver pesquisas nas áreas de estatística computacional e inteligência artificial, visando publicações, e especificamente no uso de redes Bayesianas para aprendizado semi-supervisionado.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (2) / Doutorado: (1) . Integrantes: Fabio Gagliardi Cozman - Coordenador / Fabio Tozeto Ramos - Integrante / Ismênia Blavatsky-Magalhães - Integrante / Marcelo Cesar Cirelo - Integrante / Eduardo Takashi Inowe - Integrante. Financiador(es): Instituto de Pesquisas Eldorado - Brasília - Auxílio financeiro. Número de produções C, T & A: 20 Membro: Fabio Gagliardi Cozman.
6.	2002-2003. TermiNáutica Descrição: Este projeto teve como objetivo construir um corpus de referência de textos especializados no domínio da Náutica com cerca de 1,5 milhões de palavras. Mais informações em http://www.iltec.pt.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (1) / Mestrado profissional: (0) / Doutorado: (2) . Integrantes: Miguel Oliveira Jr - Integrante / Margarita Correia - Coordenador / Susana Correia - Integrante. Financiador(es): Fundação Para a Ciência e a Tecnologia - Auxílio financeiro / Centro Internacional de Luta Contra a Poluição no Atlântico Nordeste - Cooperação / Instituto de Linguística Teórica e Computacional - Auxílio financeiro. Membro: Miguel Oliveira Jr.

1.	2001-2004. Coordenador de projeto CAPES-COFECUB: Raciocínio espacial aproximado e análise de formas para reconhecimento de faces Descrição: Reconhecimento estrutural de padrões através de casamento de grafos relacionais com atributos.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (2) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Roberto Marcondes Cesar Junior - Coordenador / Isabelle Bloch - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Cooperação. Membro: Roberto Marcondes Cesar Junior.
2.	2001-2003. Integração do Processamento Simbólico e Conexionista em Sistemas Baseados em Conhecimento Descrição: Projeto PROCAD. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Solange Oliveira Rezende - Integrante / André Carlos Ponce de Leon Ferreira de Carvalho - Integrante / Teresa Bernarda Ludermir - Coordenador / Antônio de Pádua Braga - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Auxílio financeiro. Membro: Solange Oliveira Rezende.
3.	2001-2004. Pesquisador principal: Edital de Bioinformática CNPq: Identificação de genes que regulam fenótipos de interesse em agropecuária através da análise computacional de dados de seqüências e de expressão Descrição: Métodos de reconhecimento de padrões em bioinformática.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Roberto Marcondes Cesar Junior - Integrante / Junior Barrera - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Roberto Marcondes Cesar Junior.
4.	2001-2004. Pesquisador principal: Edital Universal CNPq: Análise de formas representadas por landmarks Descrição: Análise de formas representadas por landmarks.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Especialização: (0) / Mestrado acadêmico: (2) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Roberto Marcondes Cesar Junior - Integrante / L. da F. Costa - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro. Membro: Roberto Marcondes Cesar Junior.
5.	2001-2005. Pesquisador Principal: Projeto Temático FAPESP: Desenvolvimento e avaliação de métodos originais e precisos em análise de formas e imagens e visão computacional Descrição: Análise de formas e reconhecimento de padrões.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (3) / Mestrado profissional: (0) / Doutorado: (2) . Integrantes: Roberto Marcondes Cesar Junior - Integrante / L. da F. Costa - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Roberto Marcondes Cesar Junior.
6.	2001-2003. Suporte à tomada de decisão médica (financiado FAPESP) Descrição: O projeto desenvolveu ferramentas computacionais baseadas em manipulação de probabilidades e destinadas a auxiliar processos de tomada de decisão médica. O trabalho focou em decisões relacionadas à seleção de pacientes para tratamento em postos de saúde e hospitais - uma decisão comum e importante no sistema de saúde público nacional. O projeto foi concebido a partir de discussões entre o solicitante e pesquisadores da Faculdade de Medicina da USP, particularmente profissionais envolvidos com o Hospital Universitário da USP.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (1) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Fabio Gagliardi Cozman - Coordenador / André Hideaki Saheki - Integrante / Veerle Coupé - Integrante / Rodolfo Sharovsky - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Número de produções C, T & A: 2 Membro: Fabio Gagliardi Cozman.

1.	2000-2003. Agentes Inteligentes para Análise e Recuperação da Informação Descrição: Título: Agentes Inteligentes para Análise e Recuperação da Informação Projeto CAPES-SCyT Brasil-Argentina, período 03/2000 a 02/2003 Sumário: O projeto têm como finalidade o trabalho cooperativo relacionado ao aprimoramento das pesquisas realizadas pela equipe de pesquisadores, bem como a formação de novos pesquisadores na área de recuperação e análise de informação mediante a utilização de diferentes métodos provenientes de áreas tais como como aprendizado de máquina (simbólico e conexionista), data mining, raciocínio baseado em casos e redes neurais. As atividades de treinamento e formação de pessoal envolvida com a execução deste trabalho são aquelas decorrentes do próprio desenvolvimento das atividades previstas, como orientação de alunos de mestrado e doutorado, intercâmbio entre pesquisadores de Argentina e Brasil, desenvolvimento de trabalhos conjuntos e participação e apresentação de trabalhos em reuniões científicas. Objetivo: pesquisar e desenvolver métodos e ferramentas relacionados ao desenvolvimento de Sistemas Inteligentes mediante o uso de Agentes Inteligentes de busca, Raciocínio Baseado em Casos e Aquisição de Conhecimento utilizando Aprendizado de Máquina (simbólico e conexionista) e Data Mining bem como pesquisar e implementar, combinando esses métodos, agentes autônomos inteligentes de busca e de interface. Equipe: sete pesquisadores de duas instituições e três unidades de pesquisa participam deste projeto Universidade de São Paulo-Brasil Instituto de Ciências Matemáticas e de Computação (ICMC) e Escola Politécnica da USP (EPUSP) Universidade Nacional del Centro de la Provincia de Buenos Aires-Argentina, Instituto de Investigación en Sistemas (ISISTAN) Recursos: são contemplados, principalmente, bolsas para alunos de pós-graduação do Brasil na Argentina e da Argentina no Brasil, bem como viagens dos pesquisadores para ministrar seminários e desenvolver pesquisa nas instituições. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Solange Oliveira Rezende - Integrante / Maria Carolina Monard - Coordenador / Jaime Simão Sichman - Integrante / Roseli Aparecida Francelin Romero - Integrante / Analía Adriana Amandi - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Bolsa. Membro: Solange Oliveira Rezende.
2.	2000-2005. Cooperation for Analysis of Gene Expression - FAPESP No.99/07390-0 Descrição: Projeto Temático FAPESP. Situação: Concluído; Natureza: Pesquisa. Integrantes: Roberto Hirata Junior - Integrante / Hugo Aguirre Armelin - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Roberto Hirata Junior.
3.	2000-2000. IPROS - Integrated Production and Supply Chain Management. SAP Research / Applications Award Descrição: O projeto intitulado Integrated Production and Supply Chain Management conta com a participação de sete professores (6 da Engenharia Mecânica/Produção, 1 da Computação) para a elaboração de uma forma de gerenciamento eficiente da cadeia de produção. Neste projeto trata-se tambem do "Projeto e Desenvolvimento de um Datawarehouse para Gerenciamento da Cadeia de Produção" que sou responsável.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Solange Oliveira Rezende - Integrante / Henrique Rozenfeld - Integrante / João Fernando Gomes de Oliveira - Integrante / Carlos Frederico Bremer - Coordenador / Marcel Musetti - Integrante / Reginaldo Coelho - Integrante / Silvio Pires - Integrante. Financiador(es): Sap Research Applications Award - Bolsa. Membro: Solange Oliveira Rezende.
4.	2000-2000. Recursos Complementares para Apoio a Grupos de Pesquisa - Projeto IPROS - Integrated Production and Supply Chain Management Descrição: O projeto intitulado Integrated Production and Supply Chain Management conta com a participação de sete professores (6 da Engenharia Mecânica/Produção, 1 da Computação) para a elaboração de uma forma de gerenciamento eficiente da cadeia de produção, utilizando-se para isso, softwares licenciados como R/3TM, Business Information Warehouse - BIWTM e SQL Server 7.0TM de empresas como SAP® e Microsoft®. Esses softwares rodam em plataforma WindowsTM e arquitetura PC, necessitando para isso, de computadores de grande capacidade de processamento, armazenamento e memória. O tipo de processamento executado na utilização desses softwares, deve-se principalmente, a consultas e manipulação de Sistemas Gerenciadores de Banco de Dados (SGBDs) e ferramentas para construção/manipulação de Data Warehouses (DWs) que serão utilizados para o gerenciamento da cadeia de produção. Esses aplicativos exigem grande velocidade de processamento e memória, principalmente entre os softwares R/3TM e BIWTM, o que faz com que este tipo de execução torne-se lenta e muitas vezes inviável em computadores que não possuem recursos parecidos com o que foi especificado neste pedido, podendo atrasar os resultados dos experimentos e conseqüentemente o cronograma do projeto. Por outro lado, os recursos destinados ao sub-projeto "Projeto e Desenvolvimento de um Datawarehouse para Gerenciamento da Cadeia de Produção" são destinados, em sua maioria, ao pagamento de pessoal. Recurso Complementar de R$ 3.500,00. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Solange Oliveira Rezende - Coordenador. Financiador(es): Universidade de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende.
5.	2000-2001. VISL Descrição: VISL, ou "Visual Interactive Syntax Learning", é um projeto de pesquisa desenvolvido no Institute of Language and Communication da University of Southern Denmark, desde setembro de 1996. O objetivo principal desse projeto é desenvolver e implementar programas online para auxiliar na educação e na pesquisa em áreas da lingüística. Para mais informações acerca do Projeto VISL, consultar http://visl.sdu.dk/visl/.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Miguel Oliveira Jr - Integrante / Eckhard Bick - Coordenador / Anette Wulff - Integrante / John M. Dienhart - Integrante. Financiador(es): Fundação Para a Ciência e a Tecnologia - Bolsa. Membro: Miguel Oliveira Jr.

1.	1999-2004. IMiMD - Indexing and Data Mining in Multimedia Databases Descrição: Esse projeto teve como objetivo o desenvolvimento de técnicas, algoritmos e ferramentas de software para suportar o tratamento de informações multimídia, como imagens, vídeo e áudio além de estruturas complexas, como representação de móleculas e estruturas genéticas, em bases de dados multimídia. Todo o projeto foi centrado em utilizar o conteúdo dos dados tratados para possibilitar a indexação, recuperação baseado em conteúdo e descoberta de dados. Esse projeto integrou as áreas de Banco de Dados, Inteligência Artificial e Visualização de Dados, sendo que contou com a participação de especialistas em todas elas.. Situação: Em andamento; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Solange Oliveira Rezende - Integrante / Maria Carolina Monard - Integrante / Caetano Traina Júnior - Coordenador / Roseli Aparecida Francelin Romero - Integrante / Agma Juci Machado Traina - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Cooperação. Membro: Solange Oliveira Rezende.
2.	1999-1999. Recursos Complementares para Apoio a Grupos de Pesquisa - Projeto Sistemas Inteligentes para Engenharia Descrição: Recursos Completares relacionados com o projeto RECOPE-IA (Projeto financiado pela FINEP dentro do programa de Redes Cooperativas de Pesquisa (RECOPE)). Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Solange Oliveira Rezende - Coordenador. Financiador(es): Universidade de São Paulo - Auxílio financeiro. Membro: Solange Oliveira Rezende.
3.	1999-2001. Telecomando de sistemas produtivos (financiado FAPESP) Descrição: O projeto foi parte de uma iniciativa da Escola Politécnica, financiada pela FAPESP dentro do Programa de Equipamentos Multi-Usuários (o projeto global foi coordenado pelo Professor Paulo Eigi Miyagi). O objetivo foi a construção de uma infra-estrutura de video-conferência e internet rápida, acoplada a vários equipamentos (tanto máquinas para produção quanto equipamentos hospitalares).. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (4) / Especialização: (0) / Mestrado acadêmico: (2) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Fabio Gagliardi Cozman - Coordenador / PAULO EIGI MIYAGI - Integrante / Diogo Yoshinaga - Integrante / Luís Eugênio Macca - Integrante / Fabio Tozeto Ramos - Integrante / Marko Ackermann - Integrante / Jaime Shinsuke Ide - Integrante. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Auxílio financeiro. Membro: Fabio Gagliardi Cozman.
4.	1999-2000. TraSem - Especificação de Traços Semânticos dos Itens Lexicais Descrição: Investigação e especificação dos traços semânticos dos itens lexicais com vistas ao aprimoramento do Revisor Gramatical - ReGra.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Especialização: (1) / Mestrado acadêmico: (3) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Ariani Di Felippo - Integrante / Lucia Helena Machado Rino - Coordenador / Denise Campos e Silva Kuhn - Integrante / Thiago Alexandre Salgueiro Pardo - Integrante / Gisele Montilha Pinheiro - Integrante / Ana Raquel Marchi - Integrante / Ronaldo Teixeira Martins - Integrante. Financiador(es): Financiadora de Estudos e Projetos - Bolsa. Membro: Ariani Di Felippo.

1.	1997-1999. Estudo Comparativo dos Formalismos Gramaticais DCG, LFG e GPSG Descrição: Estudo comparativo das formalismos gramaticais DCG, LFG e GPSP com vistas para a produção de um método automático de redução entre eles.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Número de produções C, T & A: 7 Membro: Thiago Alexandre Salgueiro Pardo.
2.	1997-2002. Investigação e Desenvolvimento de Técnicas de Sumarização Automática de Textos Descrição: Investigação e desenvolvimento de técnicas de sumarização automática de textos para o português do Brasil, enfocando-se abordagens superficiais e profundas.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (1) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Thiago Alexandre Salgueiro Pardo - Coordenador. Financiador(es): Fundação de Amparo à Pesquisa do Estado de São Paulo - Bolsa. Número de produções C, T & A: 11 Membro: Thiago Alexandre Salgueiro Pardo.
3.	1997-2002. Projeto UNL-BR: Universal Networking Language Descrição: Implementação de codificador português-UNL e decodifcador UNL-português para o Projeto UNL.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (2) / Mestrado profissional: (0) / Doutorado: (1) . Integrantes: Maria das Graças Volpe Nunes - Coordenador / Ronaldo Teixeira Martins - Integrante / Lúcia Helena Machado Rino - Integrante / Osvaldo Novais de Oliveira Jr - Integrante / Gisele M Pinheiro - Integrante / Jorge Marques Pelizzoni - Integrante / Lucia Specia - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa / Universidade das Nações Unidas - Auxílio financeiro. Número de produções C, T & A: 14 Membro: Maria das Graças Volpe Nunes.
4.	1997-1999. Sistemas Híbridos Inteligentes para Extração de Conhecimento de Bases de Dados Descrição: Este projeto trata da investigação de técnicas para Sistemas Híbridos voltadas para extração de Conhecimento. 2 bolsas de IC foram liberadas.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Solange Oliveira Rezende - Coordenador. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa. Número de produções C, T & A: 1 Membro: Solange Oliveira Rezende.
5.	1997-2003. Sistemas Inteligentes para Engenharia do Projeto RECOPE - da rede Informática Aplicada a Engenharia subrede Inteligência Artificial Descrição: Projeto financiado pela FINEP dentro do programa de Redes Cooperativas de Pesquisa (RECOPE) Sumário e Objetivo: o projeto tem como um de seus objetivos centrais criar vantagens competitivas sustentáveis para que empresas e organizações brasileiras possam competir em uma economia cada vez mais baseada em informação e conhecimento. Para melhor atingir seus objetivos, a rede foi dividida em três grupos de trabalho: Grupo de Redes Neurais, Lógica Fuzzy e Aplicações; Grupo de Data Mining e Aplicações; Grupo de Aquisição de Conhecimento e Aplicações. As pesquisadoras do ICMC trabalham no grupo de Data Mining e Aplicações. Redes Neurais , Lógica Fuzzy e Aplicações: Desenvolver aplicações em Redes Neurais e Lógica Fuzzy para mostrar a empresas a viabilidade destas técnicas para a solução de problemas, como: Previsão; Diagnóstico; Compactação de dados; Classificação; Aproximação; Categorização; Extração de regras. Data Mining e Aplicações: Trabalhar com Extração de Conhecimento de Bases de Dados reais, mostrando a viabilidade das técnicas de Data Mining na solução de problemas como: Diagnóstico de Falhas em Equipamentos; Bases de Dados ligadas à área petrolífera; Bases de Dados ligadas à área de seguros. Aquisição de Conhecimento e Aplicações: Desenvolver um Sistema Baseado em Conhecimento para a detecção de falhas em transformadores de potência a partir do resultado de ensaios de laboratório. Construir um sistema tutorial sobre a elaboração dos ensaios que poderia ser usado para melhorar a qualidade dos resultados dos mesmos, assim como capacitar mais rapidamente o pessoal deles encarregado. Equipe: trinta e dois pesquisadores de dez unidades de pesquisa participam deste projeto CEFET-MG, COPPE-UFRJ, EESC-USP, EFEI-MG, ILTC-Niterói RJ, ICMC-USP, UFF-RJ, UFMG, UFSCar-SP, UFPE Recursos: Agência Financiadora: FINEP/RECOPE - Ref. 0595/96; Vigência: 1998 e 2000; Valor Financiado: R$ 135.500,00. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (0) / Especialização: (0) / Mestrado acadêmico: (0) / Mestrado profissional: (0) / Doutorado: (0) . Integrantes: Solange Oliveira Rezende - Coordenador / Maria Carolina Monard - Integrante / André Carlos Ponce de Leon Ferreira de Carvalho - Integrante. Financiador(es): Financiadora de Estudos e Projetos - Auxílio financeiro. Membro: Solange Oliveira Rezende.