Acesso a corpos de português: Projecto AC/DC: corpo Corpus Brasileiro

Corpus Brasileiro : AC/DC : Linguateca
O Corpus Brasileiro é uma coletânea de aproximadamente um bilhão de palavras de português brasileiro, resultado de projeto coordenado por Tony Berber Sardinha, (GELC, LAEL, Cepril, PUCSP), com financiamento da Fapesp. Devido a variados tipos de processamento automático, é possível que nem todo o material incorporado esteja disponível através do AC/DC.

Listas de frequências

As listas de frequência de palavras (unigramas) do corpus podem ser obtidas em:

Referências

Manual: Corpus Brasileiro.
Berber Sardinha, T. (2008). Léxico-gramática e corpus. II Ebralc - Escola Brasileira de Linguística Computacional, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2008). O Corpus Brasileiro. Comunicação apresentada em VII Encontro de Lingüística de Corpus, Unesp, São José do Rio Preto, SP, 6 e 7 de novembro de 2008.
Berber Sardinha, T. (2009). Applied Linguistics and Technology. Ames, Iowa State University, USA, January 20, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus: A one-billion word online resource. Comunicação apresentada em 5th Corpus Linguistics Conference, Liverpool, UK, July 21-23, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2009). The Brazilian Corpus. Comunicação apresentada em AACL 2009 - American Association for Corpus Linguistics, Alberta, Canadá, October 8-11, 2009.
Berber Sardinha, T., Moreira Filho, J. L., & Alambert, E. (2010). O Corpus Brasileiro. Comunicação apresentada em 13o Congresso Brasileiro De Língua Portuguesa e 4o Congresso Internacional De Lusofonia, PUCSP, São Paulo, SP, 30 de abril de 2010.
Berber Sardinha, T. (2010). Corpus Linguistics and Metaphor. Conferência plenária apresentada em 2nd International Conference on Corpus Linguistics (CILC), A Coruña, Spain, May 13-15, 2010.
Berber Sardinha, T. (2010). A Linguística de Corpus na Prática. Santiago de Compostela, Espanha: Universidade de Santiago de Compostela, Espanha, 2010.
Berber Sardinha, T. (2010). Corpus Linguistics. Murcia, Espanha: Universidade de Murcia, Espanha, 2010.

Estrutura do corpo

O corpo está apenas dividido em frases (s).

Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:

generoGêneroFonte
eiAcadêmicoArtigos
ejAcadêmicoTeses e dissertações
eqAcadêmicoAnais de congresso
enCinema e TVRoteiros
ee/efEducaçãoDiversos
ee/efEducaçãoDiversos
etEnciclopédiaWikipédia
faEsporteNarração de jogos de futebol
ekInformáticaManuais
edJornalismoRevistas
egJornalismoJornais
eoJornalismoHoróscopo
feJornalismoEntrevistas
em/exLegislaçãoDiversos
em/exLegislaçãoDiversos
ebLiteraturaContos
ecLiteraturaCrônicas
eh/ewLiteraturaVariados
eh/ewLiteraturaVariados
euLiteraturaBiografias
eaMedicinaBulas de remédio
epPolíticaAtas de assembléia legislativa
fbPolíticaDebates de TV
fcPolíticaPronunciamentos do presidente
fdPolíticaSessões do congresso
elReligiãoDiversos
evReligiãoBíblia
er/esTécnicoRelatórios e manuais diversos
er/esTécnicoRelatórios e manuais diversos

Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.

GéneroUnidades
ea 114.270
eb 60.799
ec 161.009
ed 494.263
ee 73.704.749
ef 3.024.039
eg 250.700.829
eh 1.373.051
ei 260.931.229
ej 296.344.947
ek 526.155
el 909.857
em 237.707
en 254.352
eo 4.304
ep 3.896.654
eq 5.966.725
er 3.728.806
es 6.479.948
et 37.853.048
eu 578.678
ev 836.900
ew 6.156.028
ex 7.606.564
fa 86.466
fb 22.040
fc 1.805.774
fd 76.690.106
fe 4.004.892

Versão do corpo

Corpus Brasileiro anotado, versão de 4 de julho de 2012, v. 2.2

Excerto do corpo


79051727 ea conseqüente conseqüente A
79051728 ea vazamento vazamento J
79051729 ea de de N
79051730 ea constituinte constituintes J
79051731 ea essencial essenciais A
79051732 ea de da S
79051733 ea célula célula J
79051734 ea de do S
79051735 ea fungo fungo J
79051736 ea . . 1

Dados quantitativos

Corpo CBRAS Número de formasNúmero de tipos
Unidades 12030117975749677
Total de palavras 9779448715153975
Palavras em minúscula 6740151681009460
Palavras com inicial maiúscula134509896967848
Palavras todas em maiúsculas 11900197270367
Números 23669390106214
Palavras com números2555080382493
Palavras mistas3017085550299
Pontuação67598635545614

Número de unidades estruturais

Atributo Número
p 49
s 42426586
mwe 14039617

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 69157417 116564629
Locuções 14039617 29600473
Palavras gráficas 977944903 977944903
Palavras simples 831779801 831779801
Palavras 914976835 977944903

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 218615970 26,28%
Verbos V.* 103505458 12,44%
Adjectivos ADJ.* 60257934 7,24%
Pronomes pessoais .*PERS.* 8856831 1,06%
Preposições PRP.* 152254896 18,30%
Conjunções K.* 38145530 4,59%
Advérbios ADV.* 32926597 3,96%
Determinantes .*DET.* 133494628 16,05%
Especificadores .*SPEC.* 10698736 1,29%
Numerais NUM.* 37989773 4,57%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões