CVNLP PPI: Residência em TIC 13 - Heterogeneous Computing for Computational Vision and Natural Language Processing - Programas e Projetos Prioritários (PPI) - MCTI, Softex

Maria Cláudia de Freitas

Possui graduação em Letras pela Pontifícia Universidade Católica do Rio de Janeiro (1997), mestrado em Letras pela Pontifícia Universidade Católica do Rio de Janeiro (2000) e doutorado em Letras pela Pontifícia Universidade Católica do Rio de Janeiro (2007). Professora do Departamento de Letras da PUC-Rio/Programa de Pós-Graduação em Estudos da Linguagem até 2023. Colaboradora da Linguateca desde 2007. Pesquisadora do Centro de Inteligência Artificial mantido pelo ICMC/USP entre 2023 e 2024. Tem experiência na área de Linguística, com ênfase em Linguística Computacional e com corpus, atuando principalmente nos seguintes temas: anotação linguística, preparação, curadoria e avaliação de datasets, léxicos, mineração de textos, descrição do português e Humanidades Digitais. email: claudiafreitas@usp.br Página:https://sites.google.com/view/claudiafreitas (Texto informado pelo autor)

  • http://lattes.cnpq.br/4824568521672125 (17/12/2024)
  • Rótulo/Grupo: Pesquisador
  • Bolsa CNPq:
  • Período de análise:
  • Endereço: Universidade de São Paulo. AC São Carlos Centro 13560970 - São Carlos, SP - Brasil Telefone: (16) 33738170 URL da Homepage: https://sites.google.com/view/claudiafreitas
  • Grande área: Lingüística, Letras e Artes
  • Área: Lingüística
  • Citações: Google Acadêmico

Produção bibliográfica

Produção técnica

Produção artística

Orientações em andamento

Supervisões e orientações concluídas

Projetos de pesquisa

Prêmios e títulos

Participação em eventos

Organização de eventos

Lista de colaborações


Produção bibliográfica

Produção técnica

Produção artística

Orientações em andamento

Supervisões e orientações concluídas

Projetos de pesquisa

  • Total de projetos de pesquisa (10)
    1. 2019-2023. Big Oil - NLP
      Descrição: O projeto BigOil-NLP é o resultado de uma parceria de pesquisa e desenvolvimento, entre a Petrobras, o Laboratório ICA (Inteligência Computacional Aplicada - Departamento de Engenharia da PUC-Rio), e o Departamento de Letras da PUC-Rio, que teve início em 2019. O projeto consiste na criação de um corpus anotado, multicamadas, cuja intenção é se tornar um material de referência para o PLN de língua portuguesa, tendo vista especialmente, mas não exclusivamente, aplicações vinculadas à extração de informação na área de óleo gás.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (3) / Mestrado acadêmico: (1) . Integrantes: Maria Cláudia de Freitas - Coordenador / SOUZA, MARCO AURÉLIO SILVA - Integrante / Leonardo Alfredo Forero Mendoza - Integrante. Número de produções C, T & A: 6
      Membro: Maria Cláudia de Freitas.
    2. 2018-2023. Linguística Computacional para as Humanidades - CAPES/PRINT
      Descrição: O projeto Linguística Computacional para as Humanidades é o desdobramento de uma bem sucedidacolaboração com a Linguateca (centro distribuído responsável por alavancar o estado da arte daLinguística Computacional no que se refere à língua portuguesa, financiado pelo MCT de Portugal) que já dura mais de 10 anos; com a Universidade de Oslo, tendo em vista o igualmente longo trabalho deparceria com a professora Diana Santos, que incluem projetos conjuntos e co-orientações, com aSouthern Denmark University, e com a iniciativa européia COST Action: Distant Reading for EuropeanLiterary History, à qual estou vinculada. O projeto se insere na área das Humanidades Digitais (HDs),tendo interdisciplinaridade e inovação como características principais. As HDs são uma nova abordagem para as Humanidades, baseada nos princípios de abertura de dados, compartilhamento einterdisciplinaridade, e que, ao fazer uso intensivo de recursos e ferramentas digitais, é capaz de abrirpossibilidades de investigação e análise. No âmbito do referido projeto, tomamos como objeto de análise grandes acervos textuais: se por um lado a linguagem é um rico repositório de informações sobre nossas práticas, por outro, sabemos que essas informações se distribuem pelos textos de maneira nãoestruturada (são dados não-estruturados) e por isso a relevância do processamento automático comoauxiliar da análise humana. Em termos gerais, o projeto prevê a exploração de grandes acervos detexto, cuja leitura convencional seria inviável e pouco confiável. O projeto tem como objetivo geral acriação de um cenário para a exploração e análise de acervos de especial relevância para asHumanidades. Como método, serão utilizadas, de maneira complementar, técnicas de distant-reading ede close-reading. Para tanto, o projeto se distribui em 2 linhas de atuação: curadoria e preparação doacervo, para que seja processado automaticamente; e desenvolvimento de recursos e ferramentas paraa exploração e análise do material. Reconhecendo a relevância dos princípios de compartilhamento edados abertos, o projeto prevê ainda que boa parte dos recursos e ferramentas desenvolvidosincorporará modelos multilíngues de análise linguística, como o projeto Universal Dependencies, do qual sou participante. Como resultados adicionais do projeto, temos como meta avançar na formação derecursos humanos em uma área promissora e interdisciplinar, que ainda avança no Brasil mas que jávem se consolidando internacionalmente.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Mestrado acadêmico: (2) Doutorado: (1) . Integrantes: Maria Cláudia de Freitas - Coordenador / Diana Santos - Integrante / Helena Franco Martins - Integrante / Liana Biar - Integrante. Financiador(es): Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Outra. Número de produções C, T & A: 8
      Membro: Maria Cláudia de Freitas.
    3. 2017-2022. Distant Reading for European Literary History (COST Action CA16204)
      Descrição: This Actions challenge is to create a vibrant and diverse network of researchers jointly developing the resources and methods necessary to change the way European literary history is written. Grounded in the Distant Reading paradigm (i.e. using computational methods of analysis for large collections of literary texts), the Action will create a shared theoretical and practical framework to enable innovative, sophisticated, data-driven, computational methods of literary text analysis across at least 10 European languages. Fostering insight into cross-national, large-scale patterns and evolutions across European literary traditions, the Action will facilitate the creation of a broader, more inclusive and better-grounded account of European literary history and cultural identity.. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Doutorado: (1) . Integrantes: Maria Cláudia de Freitas - Integrante / SANTOS, DIANA - Coordenador. Financiador(es): COST - European Cooperation in Science & Technology - Cooperação. Número de produções C, T & A: 5
      Membro: Maria Cláudia de Freitas.
    4. 2015-2023. Recursos linguísticos para o PLN da língua portuguesa
      Descrição: O projeto pretende investigar pontos de diálogo entre abordagens simbólicas e estatísticas tomando como ponto de partida a construção de datasets linguísticos recursos corpora anotados. Adicionalmente, o projeto toma por base a língua portuguesa, partindo do princípio de que abordagens podem ser independentes de língua, mas recursos linguísticos, não. Como contribuições do projeto, prevê-se a melhoria de recursos linguísticos para o PLN, tendo como objetivo final enriquecer as possibilidades de exploração das Humanidades Digitais em língua portuguesa. Quanto ao enquadramento teórico, o projeto assume uma visão de língua compatível com o ângulo sugerido por Wittgenstein (1953).. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (2) / Mestrado acadêmico: (1) / Doutorado: (2) . Integrantes: Maria Cláudia de Freitas - Coordenador / Rui Milidiú - Integrante / Alexandre Rademaker - Integrante. Financiador(es): Pontifícia Universidade Católica do Rio de Janeiro - Bolsa. Número de produções C, T & A: 20
      Membro: Maria Cláudia de Freitas.
    5. 2014-2022. Gramateca
      Descrição: Projeto colaborativo de uma gramática baseada em corpus para a língua portuguesahttp://www.linguateca.pt/Gramateca/. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) / Mestrado acadêmico: (2) . Integrantes: Maria Cláudia de Freitas - Integrante / Diana Santos - Coordenador / Bianca Freitas de Jesus - Integrante / Bruno Carriço - Integrante / Luiza Frizzo Trugo - Integrante. Financiador(es): Linguateca - Cooperação / Pontifícia Universidade Católica do Rio de Janeiro - Auxílio financeiro. Número de produções C, T & A: 12
      Membro: Maria Cláudia de Freitas.
    6. 2013-2016. Esqueleto ? investigação sobre o léxico do corpo para a inclusão de informação semântica em corpora da língua portuguesa
      Descrição: O projeto Esqueleto tem como objetivo a investigação do léxico do corpo, tendo em vista a inclusão de informação semântica nos corpora do projeto AC/DC (Costa et al., 2009; Santos, 2011). Subordina-se ao objetivo mais amplo de melhoria de recursos linguísticos para o processamento computacional da língua portuguesa. Busca, especificamente, responder às seguintes perguntas: ?Como nos referimos ao corpo /partes do corpo em português? Que outros tipos de sentido atribuímos às palavras que compõem o léxico do corpo??. Situação: Concluído; Natureza: Pesquisa. Alunos envolvidos: Graduação: (1) . Integrantes: Maria Cláudia de Freitas - Coordenador / Diana Santos - Integrante. Financiador(es): Pontifícia Universidade Católica do Rio de Janeiro - Bolsa. Número de produções C, T & A: 4
      Membro: Maria Cláudia de Freitas.
    7. 2012-2013. Anotadores Semânticos baseados em Aprendizado Ativo
      Descrição: Projeto coordenado pelo pesquisador Ruy Luiz Milidiú.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Maria Cláudia de Freitas - Integrante / Cícero Nogueira dos Santos - Integrante / Júlio Duarte - Integrante / Rui Milidiú - Coordenador / Eduardo Alves Motta - Integrante. Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Auxílio financeiro.
      Membro: Maria Cláudia de Freitas.
    8. 2010-2012. VARRA - Validação, Avaliação e Revisão de Relações semânticas nos corpos do AC/DC
      Descrição: O VARRA é um sistema desenvolvido com o objetivo principal de auxiliar a avaliação de relações semânticas entre pares de palavras utilizando corpos. Surgiu da reconhecida importância que léxicos computacionais, como ontologias lexicais, exercem na execução de tarefas de processamento computacional da língua. Como a elaboração automática ou semi-automática de tais recursos lexicais tem como principal restrição a qualidade dos resultados, é evidente a necessidade de um processo de avaliação bastante rigoroso. Nesse contexto, o VARRA busca auxiliar o processo de avaliação (ou validação) manual de relações semânticas entre pares de palavras. No VARRA, as palavras que participam de uma relação semântica são sempre consideradas em contextos autênticos, representados por frases de corpos do projeto AC/DC). Com isso, busca-se (i) construir uma base confiável de julgamentos sobre uma dada relação; (ii) tornar a tarefa de validação de relações entre palavras mais parecida com a interpretação humana (em oposição à validação de relações fora de contexto). O VARRA é uma colaboração entre a Linguateca, o CISUC (Centro de Informática e Sistemas da Universidade de Coimbra) e o Departamento de Letras da PUC-Rio e, devido a esse perfil multidisciplinar, o seu desenvolvimento teve em consideração, também, a possibilidade de utilização para o estudo da própria língua.. Situação: Concluído; Natureza: Pesquisa. Integrantes: Maria Cláudia de Freitas - Integrante / Violeta Quental - Integrante / Diana Santos - Coordenador / Hugo Oliveira - Integrante. Financiador(es): Fundação para a Computação Científica Nacional - Outra. Número de produções C, T & A: 3
      Membro: Maria Cláudia de Freitas.
    9. 2007-2012. PAPEL (Palavras Associadas Porto Editora - Linguateca)
      Descrição: O PAPEL é uma ontologia lexical pública para o português. É constituído por relações entre palavras, extraídas de forma automática de um dicionário da língua por meio da escrita manual de regras. O PAPEL não pretende ser um recurso final, mas um ponto de partida para futuros projetos de investigação e desenvolvimento de recursos, uma vez que se prevê o seu enriquecimento por meio de outras fontes de informação. Início do projeto: 2005. Situação: Concluído; Natureza: Pesquisa. Integrantes: Maria Cláudia de Freitas - Integrante / Hugo Oliveira - Integrante / Paulo Gomes - Coordenador / José Carlos Medeiros - Integrante / Nuno Seco - Integrante / Hernani Costa - Integrante. Financiador(es): Fundação para a Ciência e a Tecnologia - Remuneração / Fundação para a Computação Científica Nacional - Remuneração. Número de produções C, T & A: 2
      Membro: Maria Cláudia de Freitas.
    10. 2007-2010. Floresta Sintá(c)tica
      Descrição: Floresta sintática ( treebank) é uma coleção de frases reais analisadas linguisticamente, que pode ser considerada do ponto de vista da linguística descritiva ou do ponto de vista da engenharia da linguagem.O projeto Floresta Sintá(c)tica tem como objetivo principal a construção de um treebank para a língua portuguesa, publicamente disponível, que pode ser usado para diferentes fins, como o ensino do português e da sintaxe portuguesa, a descrição linguística, o treino de analisadores morfossintácticos e a avaliação de sistemas.O projeto Floresta Sintá(c)tica é uma colaboração entre duas iniciativas independentes, o projeto VISL (Visual Interactive Syntax Learning) e a Linguateca.Início do projeto: 2001. Situação: Concluído; Natureza: Pesquisa. Integrantes: Maria Cláudia de Freitas - Integrante / Eckhard Bick - Coordenador / Diana Santos - Integrante. Financiador(es): Fundação para a Computação Científica Nacional - Remuneração / Fundação para a Ciência e a Tecnologia - Remuneração. Número de produções C, T & A: 12
      Membro: Maria Cláudia de Freitas.

Prêmios e títulos

  • Total de prêmios e títulos (3)
    1. Best Paper Award - Propor 2018, SBC.. 2018.
      Membro: Maria Cláudia de Freitas.
    2. Bolsa PUC de Produtividade em Pesquisa para Novos Professores, Pontifícia Universidade Católica do Rio de Janeiro.. 2014.
      Membro: Maria Cláudia de Freitas.
    3. Bolsa PUC de Produtividade em Pesquisa para Novos Professores, Pontifícia Universidade Católica do Rio de Janeiro.. 2013.
      Membro: Maria Cláudia de Freitas.

Participação em eventos

  • Total de participação em eventos (42)
    1. Aula Magna.Nós, de Letras, IA e a Língua Portuguesa. 2024. (Outra).
    2. III Encontro Internacional de Pesquisa em Letras.IA, Estudos Linguísticos e a Língua Portuguesa. 2024. (Encontro).
    3. Abralin Ao Vivo.Dos (muitos) dados ao sentido - O que podemos e o que queremos. 2023. (Outra).
    4. Fórum Lusófono de Governação da Internet.Inteligência Artificial: desafios e oportunidades para a língua portuguesa. 2023. (Outra).
    5. 1° Simpósio de Humanidades Digitais da UERJ.Anotação e mineração de textos nas Humanidades. 2022. (Simpósio).
    6. Ciências sociais computacionais, ciência de dados e Humanidades Digitais.Atribuindo sentido aos dados: anotação, mineração e Humanidades Digitais. 2022. (Outra).
    7. Linguística, História e Computação: dos acervos ao conhecimento e vice-versa.Humanidades Digitais: Laços familiares de políticos ao longo do Dicionário Histórico-Biográfico Brasileiro. 2022. (Outra).
    8. Jornada de Humanidades Digitais do CIDEHUS.Ver de longe o quê?. 2021. (Outra).
    9. #NoviembreHD. Ver de longe, ver de perto: Humanidades Digitais, Linguística Computacional e aproximações com os Estudos Literários. 2020. (Congresso).
    10. XIX Simpósio de Letras "Linguagem em Conexão: Olhares e Percepções em Rede".Linguagem, Linguística e Computadores. 2020. (Simpósio).
    11. Jornada de Seminários em Humanidades Digitais.Humanidades Digitais e PLN. 2019. (Seminário).
    12. Primeiro Encontro de Leitura distante em português.Leitura Distante - O que podemos com corpora anotados?. 2019. (Encontro).
    13. I CONGRESSO INTERNACIONAL EM HUMANIDADES DIGITAIS. O digital nas humanidades: desafios na formação profissional. 2018. (Congresso).
    14. IBM Colloquium 2017 - Avanços da Inteligência Artificial no Brasil.Instabilidade da Linguagem e Linguística Computacional. 2017. (Outra).
    15. Encontro de Linguistica de Corpus. Comparando anotações na Gramateca. 2014. (Congresso).
    16. Encontro de Linguistica de Corpus.Investigação do léxico do corpo humano e anotação semântica de corpus. 2014. (Encontro).
    17. LogOnto 2014- Workshop on Logics and Ontologies for Natural Language. Review of Págico: Evaluating Wikipedia-based information retrieval in Portuguese. 2014. (Congresso).
    18. II SIMPÓSIO INTERNACIONAL DE LINGUÍSTICA FUNCIONAL.Computational processing of Portuguese, corpus and meaning. 2013. (Simpósio).
    19. Jornada de Estudos da Linguagem, Discurso e Pesquisa em Educação:Questões Metodológicas em Debate.O Processamento automático do texto e a pesquisa nas ciências humanas e sociais. 2013. (Outra).
    20. Encontro do Págico.O que é uma resposta? Notas de uns avaliadores estafados. 2012. (Encontro).
    21. Encontro do Págico.A lusofonia na wikipédia em 150 tópicos. 2012. (Encontro).
    22. XI ENCONTRO DE LINGUÍSTICA DE CORPUS - ELC 2012. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. 2012. (Congresso).
    23. ELC / EBRALC 2011 - X Encontro de Linguística de Corpus / V Escola Brasileira de Linguística Computacional.Corpos e cores: colorindo a descrição da língua portuguesa. 2011. (Encontro).
    24. Encontro sobre Estudos de Alfabetização e EJA da SECAD.Estudo avaliativo do material literário Coleção Literatura para Todos em turmas de alfabetização. 2010. (Encontro).
    25. IX Encontro de Linguística de Corpus.VARRA: Validação, Avaliação e Revisão de Relações semânticas no AC/DC. 2010. (Encontro).
    26. XXV Encontro Nacional da Associação Portuguesa de Linguística.O papel das relações semânticas em português: Comparando o TeP, o MWN.PT e o PAPEL. 2009. (Encontro).
    27. 8th International Conference on Computational Processing of the Portuguese Language - PROPOR. Floresta Sintá(c)tica: Bigger, Thicker and Easier. 2008. (Congresso).
    28. 8th Teaching and Language Corpora Conference. TaLC at TaLC: Teaching and Linguateca's (Portuguese language) Corpora. 2008. (Congresso).
    29. Encontro do Segundo HAREM.Segundo HAREM: Modelo geral, novidades e avaliação. 2008. (Encontro).
    30. Workshop on Language Resources for Teaching and Research.Exploring Portuguese Syntax with Floresta Sintáctica. 2008. (Oficina).
    31. V Congresso Internacional da Associação Brasileira de Linguística. Identificação automática de relações taxonômicas entre SNs. 2007. (Congresso).
    32. 7th International Workshop - Computational Processing of the Portuguese Language - PROPOR 2006. Corpus-based Compositionality. 2006. (Congresso).
    33. XI Simpósio Nacional de Letras e Lingüística / I Simpósio Internacional de Letras e Lingüística (SILEL). Como uma perspectiva relativista pode auxiliar a elaboração automática de ontologias. 2006. (Congresso).
    34. III Congresso da Pós-Graduação em Língua Portuguesa da UERJ. Linguística Computacional. 2005. (Congresso).
    35. III TIL - Workshop de Tecnologia da Informação e da Linguagem Humana. A anotação de um corpus para o aprendizado supervisionado de um modelo de SN. 2005. (Congresso).
    36. II Workshop de aplicações e tendências em TI.O Processamento linguístico da informação. 2005. (Oficina).
    37. IV Congresso Internacional da Abralin. Aprendendo Nomes Próprios. 2005. (Congresso).
    38. XIII Congresso da ASSEL-Rio. O aprendizado automático de ontologias. 2005. (Congresso).
    39. II Workshop de Tecnologia da Informação e da Linguagem Humana - TIL 2004. Um modelo de desambigüização de palavras e contextos.. 2004. (Congresso).
    40. III Congresso Internacional da ABRALIN. Seletividade no Desempenho Lingüístico de Portadores da Síndrome de Williams e do Déficit Especificamente Lingüístico (DEL). 2003. (Congresso).
    41. 5o Encontro Nacional sobre Aquisição da Linguagem / 1o Encontro Internacional sobre Aquisição da Linguagem.O que portadores da Síndrome de Williams podem informar sobre a aquisição do gênero gramatical?. 2000. (Encontro).
    42. IV Encontro de Portadores e Famílias da Síndrome de Williams.A Linguagem na Síndrome de Williams. 1999. (Encontro).

Organização de eventos

  • Total de organização de eventos (9)
    1. Freitas, C.. Jornada de Descrição do Português. 2023. (Congresso).. . 0.
    2. FREITAS, CLÁUDIA; FINATTO, M. J. B. ; REAL, L.. XV CELSUL - Círculo de Estudos Linguísticos do Sul. SIMPÓSIO XIX: Linguística computacional: práticas linguageiras e comunicacionais. 2022. Congresso
    3. CASELI, HELENA ; et al. ; CANDIDO JUNIOR, A.. VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (TILIC 2019). 2019. Congresso
    4. FREITAS, CLÁUDIA; ALVIM, L. ; SOUZA, R. R.. Grandes Acervos Textuais - Eixo 5 do I Congresso Internacional em Humanidades Digitais. 2018. Congresso
    5. FREITAS, CLÁUDIA; RADEMAKER, A.. STIL - Simpósio em Tecnologia da Informação e Linguagem Humana. 2015. Congresso
    6. Santos, D. ; FREITAS, C. ; Mota, C. ; SIMOES, A. ; COSTA, L.. Encontro do Págico. 2012. Outro
    7. Mota, C. ; SIMOES, A. ; FREITAS, C. ; COSTA, L. ; Santos, D.. Págico: avaliação conjunta na área de recolha de informação em português. 2012. Outro
    8. Santos, D. ; FREITAS, C. ; Oliveira, H. ; Carvalho, P. ; Mota, C.. Encontro do Segundo HAREM. 2008. Outro
    9. Santos, D. ; FREITAS, C. ; Oliveira, H. ; Carvalho, P. ; Mota, C.. Segundo HAREM. 2008. Outro

Lista de colaborações

  • Colaborações endôgenas (1)
    • Maria Cláudia de Freitas ⇔ Thiago Alexandre Salgueiro Pardo (1.0)
      1. Freitas, Cláudia; PARDO, THIAGO ALEXANDRE SALGUEIRO. PropBank e anotação de papéis semânticos para a língua portuguesa: O que há de novo?. Em: Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, v. 1, p. 118-128, 2024.




Data de processamento: 03/02/2025 11:00:32