O contexto da Linguística de Corpus e a escrita acadêmica: um panorama histórico

Fabiana Gomes da Silva

Doutoranda e mestra em Ciências da Educação (Christian Business School), especialista em Pesquisa Avançada em Educação (Alpha) em Supervisão Escolar, graduada em Pedagogia (UEG), professora da rede municipal de Niquelândia/GO

Cledir Rocha Pereira

Mestre em Ciências da Educação (Christian Business School), especialista em Informática na Educação (IFSuldeMinas), Orientação Educacional (IMES), Uso Educacional da Internet (UFLA), Educação 4.0 (IMES), Tecnologias Digitais em Sala de Aula (Facuminas), Pesquisa Avançada em Educação (Alpha), Mídias na Educação (UFRGS), Tecnologias em Educação (PUC-Rio), graduado em Pedagogia, com Habilitação em Supervisão Escolar (Ulbra), supervisor escolar na rede municipal de João Pessoa/PB

Rinaldo Vitorino de Freitas

Mestre em Educação (Universidad Europea Del Atlántico), especialista em Educação Musical (UCAM), graduado em Educação Artística - Música (UFPB), professor da rede municipal de João Pessoa/PB

Luan Vasconcelos Ramos

Licenciando em Pedagogia (Unifatecie), educador social voluntário na rede municipal de João Pessoa/PB

A linguagem é uma importante ferramenta humana e está presente desde os primórdios da história, sendo responsável por diversas transformações, descobertas e evoluções sociais. Agindo como um conjunto de sinais que o ser humano usa para expressar ou comunicar suas ideias, sentimentos e desejos, a linguagem foi capaz de dar voz ao pensamento humano, dar luz às descobertas e às invenções, acendendo a lâmpada do conhecimento e colocando em prática a sapiência humana empírica, além de inserir o trem da humanidade nos trilhos do progresso. Ela pode ser transmitida por meio de determinada língua e também por gestos e expressões, incluindo a música, a dança, as pinturas e a fotografia. Essa riqueza gerou muitos frutos, levando pesquisadores e eruditos a voltarem seus olhos não somente para os eventos que marcaram a história, mas também para a maneira como esse conhecimento foi transmitido, seus métodos, suas marcas e raízes, assim como de onde o estudo e o entendimento da linguagem vieram trazendo inúmeros avanços para as técnicas científicas no que se refere à produção do saber.

Essa atenção redobrada se aloca não somente nos campos linguísticos como também no campo historiográfico, onde a linguagem se faz fundamental para o historiador compreender determinada época, sociedade ou evento, fazendo uso correto de suas inúmeras fontes com distintas formas: documentos, cartas, livros, folhetos, inscrições, vestígios, obras de arte, entre outras. Para o geógrafo, isso é compreender a linguagem cartográfica, suas representações e os diversos outros ramos do conhecimento humano.

A circulação de informações na sociedade alcançou pela linguagem todos os âmbitos e lugares, com livros, panfletos, outdoors, quadros, desenhos e livros. Em todo lugar que olhamos é possível enxergar tipos de linguagem dos mais variados. Porém, discorrendo acerca da linguagem no século XXI, o principal meio pelo qual é transmitida se dá nas mídias digitais, especificamente do ciberespaço, como celulares, tablets e computadores. Essas máquinas tecnológicas revolucionaram as estruturas linguísticas, criando novos tipos de linguagem a cada dia, utilizando imagens, vídeos, gifs e/ou, por vezes, apenas textos simples, porém, com novos métodos, interfaces e designes que atravessam o globo em milésimos de segundo a toda hora. Isso gerou novos tipos de entretenimentos audiovisuais, como vlogs e youtubers, leituras de textos e imagens, como memes e tirinhas, e novos formatos de publicações editoriais, como as revistas eletrônicas e os e-books.

Assim sendo, este artigo trabalha a importância da Linguística de corpus para a escrita acadêmica. Iniciaremos fazendo uma abordagem sobre o que é linguística acadêmica, bem como suas interfaces e o desenvolvimento da área e o estudo de corpus.

Linguística de Corpus: caracterização e interfaces

Para Teubert (1996, p. 5), a Linguística de Corpus (LC) é “a face moderna da Linguística empírica”. Assim, segundo Oliveira (2009, p. 49),

a linguagem é vista como um fenômeno social e analisada a partir de atos concretos de comunicação, isto é, textos reais, buscando o significado onde este é negociado, ou seja, no discurso. Esta perspectiva própria sobre a linguagem, fenômeno que estuda, e uma maneira específica de fazer pesquisa, ou seja, através do estudo de textos reais, com o auxílio de programas de computador, visando extrair evidências linguísticas do corpus, levam-nos a considerar este campo de estudos como uma área do conhecimento com suas próprias bases teóricas e uma maneira específica de fazer análises linguísticas. Esta área representa uma nova abordagem filosófica para os estudos da linguagem. Svartvik (1996) concorda com Leech, que afirma que a linguística de corpus não define somente uma metodologia emergente para o estudo da linguagem, mas uma nova maneira de fazer pesquisa, e de fato uma nova abordagem filosófica para este assunto. O computador, como uma ferramenta tecnológica de poder indiscutível, tornou este novo tipo de linguística possível (Leech, 1992, p. 106 apud Svartvik, 1996, p. 12). Entretanto, cabe aos linguistas, com suas próprias intuições sobre a língua, instruir estes programas para extrair as evidências linguísticas com as quais irão trabalhar.

Assim, um corpo linguístico é uma base computacional que faz referência a coleções de textos que ocorrem naturalmente na língua. Ao transicionar Linguística de Corpus, julgamos necessário discutir o que é metalinguística, metalinguagem, metapoema e metanarrativa. Sendo o leitor aquele que recebe a obra, ele a (re)pluraliza de novos sentidos e novos significados.

Para Chalhub (2005, p. 25),

seja a existência de um poema um jogo de produção e recepção: alternam-se os lugares de poeta e de leitor, resiste a obra. No ato de leitura, que dá vida ao texto, percebe-se esse receptor, criando- de novo e desde sempre- os plurais sentidos ali expostos.

A metalinguística é uma função presente nos atos de comunicação verbal em que a preocupação do emissor está voltada para o próprio código, ou seja, para a própria linguagem, sendo este mesmo código (a língua) o centro da mensagem. Para melhor compreender esta função, analisemos atentamente um poema de João Cabral de Melo Neto intitulado Poema de desintoxicação. Nele, a poesia fala sobre si mesma, recurso que, dentro da metalinguagem, é chamado de metapoesia.

Figura 1: Poema de desintoxicação

Fonte: Perez, 2023, disponível em: https://brasilescola.uol.com.br/gramatica/funcao-metalinguistica.htm.

O poema dialoga com o próprio poema, como se fosse um autorretrato. Torna-se o centro de si mesmo, objeto principal de sua própria constituição. Esse tipo de função ocorre não somente na literatura, mas em diversas outras manifestações artísticas, como na pintura, cujo principal exemplo é a tela “Autorretrato”, de Vincent Van Gogh, quando o pintor retrata a si mesmo e a tela tem por objetivo a própria pintura.

Figura 2: Autorretrato, de Vincent Van Gogh

Fonte: Cartwright, 2022, disponível em: https://www.worldhistory.org/trans/pt/1-20649/vincent-van-gogh/.

A metalinguagem auxilia o interlocutor a melhor se expressar. Os processos de aquisição da linguagem estão diretamente relacionados às operações metalinguísticas. Ao explicarmos o significado de um termo, por exemplo, estamos fazendo metalinguística, a linguagem é usada para explicar a si mesma. Nesse aspecto, os dicionários apresentam uma importante contribuição para explicar a função à qual estamos nos referindo.

Mas, afinal, onde surgiu a metalinguística? Ela se encontra entre as seis funções da linguagem concebidas por Roman Jackobson (funções referencial, emotiva, poética, conativa, metalinguística e fática). Cada uma delas apresenta um papel específico para a comunicação. Para Jakobson (1975), “todo processo de aprendizado da linguagem, particularmente a aquisição pela criança da língua materna, faz largo uso das operações metalinguísticas”.

Falamos sobre a metalinguística como uma das funções da linguagem. Entretanto, nada falamos ainda sobre a função. Qual o significado do elemento? Como podemos trabalhá-lo dentro dos estudos literários (e por que trabalhá-lo)? Para Chalhub (2005), as mensagens deixam sua marca no efeito que provocam e essas mensagens não são neutras, mas têm o objetivo de transmitir conteúdos intelectuais, emitir emoções e desejos, hostilizar ou persuadir as pessoas, incentivar ações, publicar ou esconder fatos, evitar o silêncio etc.

Assim como ocorre a metapoesia na poesia, a narrativa contida dentro ou além da própria narrativa, como recurso de metalinguagem ou metalinguístico, recebe o nome de metanarrativa. Nas Histórias de tia Nastácia esse recurso é recorrente nos finais de cada história, a fim de transmitir as impressões e as considerações de Emília, Narizinho e Pedrinho a respeito das histórias contadas por tia Nastácia, bem como para transmitir os conhecimentos intelectuais de Dona Benta.

O sentido dessas mensagens advém, em parte, dos fatores de comunicação a ela dirigidos. Sendo assim, isso dependerá do elemento focalizado que pode variar entre o remetente, o destinatário, a mensagem, o código, o canal ou o referente. Desse modo, uma mensagem pode ter diferentes funções conforme o processo de comunicação focalizado. A sua função será entendida como a aplicabilidade do que está sendo transmitido.

Linguística de Corpus: conceito e contexto

O que é Língua? Como ela é pensada e articulada e como é ensinada? Esses questionamentos rodeiam o estudo da linguagem e acompanham a sua revolução, em constante evolução ao longo dos anos e cujo motor principal é a tecnologia, mais precisamente o computador.

Nesse contexto, a Linguística de Corpus é uma área interdisciplinar que trata do uso de corpora computadorizados, como coletâneas de textos mantidas em arquivos de computador com escritos ou transcrições de fala, portanto fundamental para as análises de linguagem que acompanham essa evolução.

Ela possui a capacidade de revelar uma formidável quantidade de evidências linguísticas provenientes de corpora eletrônicos e, não obstante, a Linguística de Corpus questiona os arquétipos estipulados dos estudos de linguagem e propõe novos caminhos para o linguista. Essa influência é perceptível com maior ênfase na elaboração de dicionários (Sardinha, 2004). 

A Linguística de Corpus vem ganhando força desde a década de 1980 na Europa e, posteriormente, no Brasil, mantendo desde então uma considerável ascensão. Suas aplicações são abrangentes, atingindo desde a Lexicografia até estudos sistemáticos da Língua, trabalhos de Tradução, Linguística Aplicada e Processamento de Língua Natural (PLN) (Sardinha, 2009).

A Linguística de Corpus é um campo dedicado à criação e à análise de corpora (plural latino de corpus): um conjunto de textos e transcrições de fala armazenados em arquivos de computador. Linguística de Corpus vem mudando a maneira como a linguagem é investigada em seus mais diversos níveis, disponibilizando quantidades de dados de analistas anteriormente inacessíveis. Um dos principais agentes dessa mudança é a tecnologia da informação, pois sem ela a Linguística de Corpus contemporânea não poderia existir (Sardinha, 2009).

Então o linguista de corpus depende de programas de computador para lidar com corpora. Entre os softwares que existem para ajudar o linguista do corpus, o WordSmith Tools se destaca. Esse programa foi criado em 1996 por Mike Scott, da Universidade de Liverpool, no Reino Unido. Hoje, o programa tem um grande número de usuários em todo o mundo e uma versão mais atualizada: WordSmith Tools 5.0.

No Brasil, multiplicam-se cursos, oficinas e palestras acerca da operação, passando a serem considerados facilitadores da disseminação da Linguística de Corpus no país (Sardinha, 2009). O Programa AntConc 3.2.1, criado por Laurence Anthony, da Universidade de Waseda (Japão), é usado para listar as ocorrências de uma palavra ou frase específica em uma quantidade de conjunto de contextos. Em geral, os concordantes também desempenham outras funções, como listar palavras em um texto ou corpus, extrair palavras-chave e local. AntConc é um software gratuito para sistemas Windows, Mac OS X e Linux.

Como o WordSmith Ferramentas, possui ferramentas para analisar grupos de palavras, n-gramas, frequência de palavras e palavras-chave. Com base na funcionalidade dos dois programas, trazemos a visão de Scott (2006, p. 12) das ferramentas computacionais, afirmando que “eles são úteis porque permitem que determinadas ações sejam executadas facilmente, e essa facilidade significa trabalhar mais de forma mais complexa”. Essas ferramentas tornam possível remodelar um conjunto de dados em um novo para identificar padrões.

Dentro do escopo deste estudo, abordaremos as ferramentas computacionais, não para compará-las, mas para apresentá-las como mais uma opção na área de pesquisa em Linguística de Corpus.

A Linguística de Corpus envolve Linguística Computacional (manipulação de dados virtuais) e as estatísticas, uma vez que trabalham com uma amostra da língua, constituindo, em certa medida, um novo método de pesquisa. Existem autores que consideram a Linguística de Corpus uma abordagem, como Berber Sardinha (2000), e outros. Leech (1991) se refere a ela como uma nova abordagem filosófica e não apenas como uma nova metodologia. Segundo Teixeira (2007), Linguística de Corpus compreende uma base metodológica inegável. Quando tratada pela metodologia, tem a possibilidade de expandir seu campo de ação.

Portanto, observando os dados do corpus, desenvolveu-se uma interpretação do fenômeno da linguagem estudada. Essa observação é feita com a ajuda de programas de computador que lidam com dados textuais e recursos matemáticos, permitindo interpretar dados e extrair significados a serem aplicados a um todo a partir da análise de uma peça (amostra) (Teixeira, 2007). Linguística de Corpus é uma metodologia relativamente nova nos estudos de idiomas e pode ser aplicada em muitas áreas linguísticas, como: sintaxe, semântica, fonética, sociolinguística, entre outras. Estudos linguísticos envolvendo corpus datam de 1897, embora alguns linguistas, incluindo estruturalistas, usaram um método baseado em corpus numa pesquisa na década de 1940 (McEnery; Wilson, 1997).

A Linguística de Corpus e a escrita acadêmica

A LC segue uma abordagem empirista da linguagem, entendida como um sistema probabilístico. Essa abordagem "significa primazia dos dados da observação da linguagem, geralmente reunidos na forma de um corpus” (Sardinha, 2004, p. 30). Segundo esse autor, a tradição empirista impulsionada por Halliday se opõe ao racionalismo em Linguística, como defendido por Chomsky. Para os empiristas, é preciso analisar a linguagem baseada na frequência de ocorrências que revelam as escolhas dos falantes em determinados contextos de uso. Enquanto isso, os racionalistas trabalham com as possibilidades que o sistema de uma língua coloca à disposição de seus falantes nativos.

Para fins pedagógicos, “isso implica obviamente que o professor de línguas precisa ter conhecimento aprofundado” (Peixoto, 2022, p. 1) a respeito da abordagem na qual respalda a sua prática educativa, pois é relevante considerar que as frequências de itens linguísticos não são aleatórias, mas dependentes do contexto (Biber, 1998). Pesquisas recentes têm investigado, por exemplo, quais são os pacotes lexicais (lexical bundles) mais frequentes na escrita acadêmica (Simpson-Vlach; Ellis, 2010), colaborando para um ensino mais efetivo àqueles que precisam ter sucesso acadêmico e onde “a aplicabilidade dessa perspectiva de análise poderia ser bastante profícua ao ensino da língua” (Silva, 2023, p. 2).

Há uma enorme quantidade de trabalho que se encaixa na Linguística de Corpus e o número cresce a cada ano. Segundo McEnery e Wilson (1997, p.18), 620 trabalhos teriam aparecido em 25 anos de atividade (de 1965 a 1991), mas quase a metade teria surgido apenas nos últimos cinco anos. Apesar de sua diversidade, os trabalhos de Linguística de Corpus compartilham algumas características:

(a) São empíricos e analisam os padrões reais de uso em textos naturais.
(b) Utilizam coletâneas grandes e criteriosas de textos naturais, conhecidas por corpus, como a base da análise.
(c) Fazem uso extensivo de computadores na análise, empregando técnicas automáticas e interativas.
(d) Dependem de técnicas quantitativas e qualitativas (Biber, 1998, p. 4).

Pode-se pensar em três paradigmas de pesquisa em Linguística de Corpus que compartilhariam as características acima em maior ou menor grau:

I. Paradigma informal baseado em concordância;
II. Paradigma estatístico baseado em modelos long-linear;
III. Paradigma estatístico fundamentado em Modelos Ocultos de Markov (Leech, 1991, p. 114).

O paradigma onde se concentra a maior parte da pesquisa é o primeiro, orientado pela descrição da linguagem com pouco ou nenhum suporte estatístico. Os outros paradigmas adotam uma perspectiva quantitativa mais sólida e fazem uso de técnicas estatísticas mais avançadas. Juntamente com a explosão no número de trabalhos na Linguística de Corpus há um aumento nas áreas de pesquisa privilegiadas. Kennedy (1998, p. 9) cita quatro concentrações principais:

I. Compilação de corpus;
II. Desenvolvimento de ferramentas;
III. Descrição de linguagens;
IV. Aplicação de corpora (ensino de línguas, reconhecimento de voz, tradução etc.) (Kennedy, 1998, p. 9).

A área em que há mais atividade é a terceira: da descrição. Há um número considerável de trabalhos que se concentram principalmente no léxico e na gramática do exame de um corpus. Esses trabalhos lidam com o que Kennedy (1991, p. 98) chama de "ecologia linguística", isto é, o comportamento de itens lexicais ou estruturas gramaticais em seu habitat natural (o ambiente linguístico que ocorre).

Considerações finais

A Linguística de Corpus evidencia a importância de programas como WordSmith Tools 5.0 e AntConc, 3.2.1. Eles podem ser usados para investigar problemas em áreas principais de Linguística e Linguística Aplicada.

Esses programas disponibilizam para o pesquisador ferramentas úteis nas etapas fundamentais de um projeto de pesquisa, especialmente durante as fases de coleta, triagem, análise de dados e casos relevantes. Dessa maneira, conquistamos um ensino de qualidade que “significa mudar métodos e hábitos didáticos, transformando informações de conhecimento em conhecimento de fato, aplicando a experiência prática e a prática teórica em cada disciplina.” (Rochaferreira, 2023, p. 2). Embora os dois programas tenham ferramentas similares, uma delas é gratuita (AntConc 3.2.1). De acordo com o seu criador (não tão rápido com grandes quantidades de dados), o WordSmith O Toolls 5.0 quando usado em versão demo apresenta limitações nas linhas de acordo.

A Linguística de Corpus é uma área em expansão. A atual história ainda é recente se comparada a de outras subáreas da Linguística. Há sim, no entanto, fatores que podem acelerar ou atrasar o seu desenvolvimento. A seu favor está o fato de a área estar altamente relacionada ao uso de computadores. Como a tecnologia vem se desenvolvendo aceleradamente, em breve poderemos contar com máquinas ainda mais robustas, capazes de armazenar quantidades crescentes de dados, tornando os corporas cada vez mais completos. No entanto, para analisá-los, precisaremos de programas cada vez mais sofisticados e isso dependerá de pesquisadores de diferentes áreas que trabalhem em colaboração. Isso é difícil, pois há exigências dentro de sua esfera de interesse. A interdisciplinaridade é, ainda, uma proposta e não uma realidade.

Referências

BIBER, D. Variation across speech and writing. Cambridge: Cambridge University Press, 1998.

CHALHUB, Samira. A metalinguagem. São Paulo: Ática, 2005.

CARTWRIGHT, Mark. Vicent van Gogh: definição. Trad. Joana P. Silveira. World History Encyclopedia, 17 mar. 2022. Disponível em: https://www.worldhistory.org/trans/pt/1-20649/vincent-van-gogh/. Acesso em: 20 set. 2023.

JAKOBSON, Roman. Linguística e comunicação. São Paulo: Cultrix, 1975.

KENNEDY, G. Between' and 'through: The company they keep and the functions they serve. In: AIJMER, K. ; ALTENBERG, B. (org.). English Corpus Linguistics – Studies in honour of Jan Svartvik. London/New York: Longman, 1998.

KENNEDY, G. An introduction to Corpus Linguistics. New York: Longman, 1991.

LEECH, G. Corpora and theories of linguistic performance. In: SVARTVIK, J. (org.). Directions in Corpus Linguistics. PROCEEDINGS OF NOBEL SYMPOSIUM 82, Stockholm, 4-8 august 1991. Berlin/New York: De Gruyter, 1991.

McENERY, T. ; WILSON, A. Corpus Linguistics. Edinburgh: Edinburgh University Press, 1997.

OLIVEIRA, Lúcia Pacheco de. Linguística de Corpus: teoria, interfaces e aplicações. Matraga: Estudos Linguísticos e Literários, Rio de Janeiro, v. 16, n° 24, 2009. Disponível em: https://www.e-publicacoes.uerj.br/index.php/matraga/article/ view/27796. Acesso em: 20 set. 2023.

PEIXOTO, Cleiliane Sisi. Resenha do texto “O conhecimento sobre a linguagem”. Revista Educação Pública, Rio de Janeiro, v. 22, n° 32, 30 de agosto de 2022. Disponível em: https://educacaopublica.cecierj.edu.br/artigos/22/32/resenha-do- texto-ro-conhecimento-sobre-a-linguagem. Acesso em: 5 set. 2023.

PEREZ, Luana Castro Alves. Função metalinguística. Brasil Escola. s/d. Disponível em: https://brasilescola.uol.com.br/gramatica/funcao-metalinguistica.htm. Acesso: 20 set. 2023.

ROCHAFERREIRA, Frederico. Reflexão sobre o vazio intelectual na sociedade brasileira provocado pelo sistema de ensino. Revista Educação Pública, Rio de Janeiro, v. 23, n° 35, 12 de setembro de 2023. Disponível em: https://educacaopublica.cecierj.edu.br/artigos/23/35/reflexao-sobre-o-vazio-intelectual-nasociedade-brasileira-provocado-pelo-sistema-de-ensino. Acesso em: 20 set. 2023.

SARDINHA, A. P. B. Linguística de Corpus: histórico e problemática. Revista D.E.L.T.A., São Paulo, v. 16, nº 2, p. 323-367, 2000.

SARDINHA, A. P. B. Linguística de Corpus. Barueri: Manole, 2004.

SARDINHA, A. P. B. Pesquisa em Linguística de Corpus com Wordsmith Tools. São Paulo: Mercado de Letras, 2009.

SCOTT, M.; TRIBBLE, C. Textual patterns: key words and corpus analysis in language education. Amsterdam: John Benjamins, 2006.

SILVA, Marcela Maria Almeida. Língua, colonização e ensino: a língua que ensinamos e a língua que precisamos desconstruir para ensinar. Revista Educação Pública, Rio de Janeiro, v. 23, n° 5, 7 de fevereiro de 2023. Disponível em: https://educacaopublica.cecierj.edu.br/artigos/23/5/lingua-colonizacao-e-ensino-alingua-que-ensinamos-e-a-lingua-que-precisamos-desconstruir-para-ensinar. Acesso em: 5 set. 2023.

SIMPSON-VLACH, R; ELLIS, N. Applied Linguistics, p. 1-26, 2010. DOI: 10.1093/applin/amp058), 2010.

TEIXEIRA, E. D. Etiquetagem em Linguística de Corpus: possibilidades de aplicação. In: GERBER, R. M.; VASILÉVSKI, V. Um percurso para pesquisas com base em corpus. Florianópolis: Editora da UFSC, 2007.

TEUBERT, W. Editorial. International Journal of Corpus Linguistics, v. 1, n° 1, III-X. 1996.

Publicado em 12 de fevereiro de 2025

Como citar este artigo (ABNT)

SILVA, Fabiana Gomes da; PEREIRA, Cledir Rocha; FREITAS, Rinaldo Vitorino de; RAMOS, Luan Vasconcelos. O contexto da Linguística de Corpus e a escrita acadêmica: um panorama histórico. Revista Educação Pública, Rio de Janeiro, v. 25, nº 6, 12 de fevereiro de 2025. Disponível em: https://educacaopublica.cecierj.edu.br/artigos/25/6/o-contexto-da-linguistica-de-corpus-e-a-escrita-academica-um-panorama-historico

Novidades por e-mail

Para receber nossas atualizações semanais, basta você se inscrever em nosso mailing

Este artigo ainda não recebeu nenhum comentário

Deixe seu comentário

Este artigo e os seus comentários não refletem necessariamente a opinião da revista Educação Pública ou da Fundação Cecierj.