Estrutura do corpo
O corpo está apenas dividido em frases (s).
Além disso, o Corpus Brasileiro contém os seguintes valores do atributo genero, em que o prefixo e indica português escrito e f português falado:
| genero | Gênero | Fonte |
| ei | Acadêmico | Artigos |
| ej | Acadêmico | Teses e dissertações |
| eq | Acadêmico | Anais de congresso |
| en | Cinema e TV | Roteiros |
| ee/ef | Educação | Diversos |
| ee/ef | Educação | Diversos |
| et | Enciclopédia | Wikipédia |
| fa | Esporte | Narração de jogos de futebol |
| ek | Informática | Manuais |
| ed | Jornalismo | Revistas |
| eg | Jornalismo | Jornais |
| eo | Jornalismo | Horóscopo |
| fe | Jornalismo | Entrevistas |
| em/ex | Legislação | Diversos |
| em/ex | Legislação | Diversos |
| eb | Literatura | Contos |
| ec | Literatura | Crônicas |
| eh/ew | Literatura | Variados |
| eh/ew | Literatura | Variados |
| eu | Literatura | Biografias |
| ea | Medicina | Bulas de remédio |
| ep | Política | Atas de assembléia legislativa |
| fb | Política | Debates de TV |
| fc | Política | Pronunciamentos do presidente |
| fd | Política | Sessões do congresso |
| el | Religião | Diversos |
| ev | Religião | Bíblia |
| er/es | Técnico | Relatórios e manuais diversos |
| er/es | Técnico | Relatórios e manuais diversos |
Como todos os corpos do AC/DC, o Corpus Brasileiro está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo.
| Género | Unidades |
| ea | 114.270 |
| eb | 60.799 |
| ec | 161.009 |
| ed | 494.263 |
| ee | 73.704.749 |
| ef | 3.024.039 |
| eg | 250.700.829 |
| eh | 1.373.051 |
| ei | 260.931.229 |
| ej | 296.344.947 |
| ek | 526.155 |
| el | 909.857 |
| em | 237.707 |
| en | 254.352 |
| eo | 4.304 |
| ep | 3.896.654 |
| eq | 5.966.725 |
| er | 3.728.806 |
| es | 6.479.948 |
| et | 37.853.048 |
| eu | 578.678 |
| ev | 836.900 |
| ew | 6.156.028 |
| ex | 7.606.564 |
| fa | 86.466 |
| fb | 22.040 |
| fc | 1.805.774 |
| fd | 76.690.106 |
| fe | 4.004.892 |
Versão do corpo
Corpus Brasileiro anotado, versão de 4 de julho de 2012, v. 2.2
Excerto do corpo
79051727 ea conseqüente conseqüente A 79051728 ea vazamento vazamento J 79051729 ea de de N 79051730 ea constituinte constituintes J 79051731 ea essencial essenciais A 79051732 ea de da S 79051733 ea célula célula J 79051734 ea de do S 79051735 ea fungo fungo J 79051736 ea . . 1
Dados quantitativos
| Corpo CBRAS
| Número de formas | Número de tipos |
| Unidades | 1203011797 | 5749677 |
| Total de palavras | 977944871 | 5153975 |
| Palavras em minúscula | 674015168 | 1009460 |
| Palavras com inicial maiúscula | 134509896 | 967848 |
| Palavras todas em maiúsculas | 11900197 | 270367 |
| Números | 23669390 | 106214 |
| Palavras com números | 2555080 | 382493 |
| Palavras mistas | 3017085 | 550299 |
| Pontuação | 67598635 | 545614 |
Número de unidades estruturais
| Atributo | Número |
| p | 49 |
| s | 42426586 |
| mwe | 14039617 |
Contabilização de multipalavras
| Número de entidades | Número de unidades |
| Nomes próprios | 69157417 | 116564629 |
| Locuções | 14039617 | 29600473 |
| Palavras gráficas | 977944903 | 977944903 |
| Palavras simples | 831779801 | 831779801 |
| Palavras | 914976835 | 977944903 |
Distribuição por categoria gramatical
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
| Substantivos | N|N[^U].* | 218615970 | 26,28% |
| Verbos | V.* | 103505458 | 12,44% |
| Adjectivos | ADJ.* | 60257934 | 7,24% |
| Pronomes pessoais | .*PERS.* | 8856831 | 1,06% |
| Preposições | PRP.* | 152254896 | 18,30% |
| Conjunções | K.* | 38145530 | 4,59% |
| Advérbios | ADV.* | 32926597 | 3,96% |
| Determinantes | .*DET.* | 133494628 | 16,05% |
| Especificadores | .*SPEC.* | 10698736 | 1,29% |
| Numerais | NUM.* | 37989773 | 4,57% |
Para informação sobre como foram obtidos este valores, consulte esta página
|