Unidades e palavras em língua portuguesa:
frequência e ordem

Projecto AC/DC, Linguateca

Information in English


A partir destas páginas, pode aceder à listagem de unidades (palavras e sinais de pontuação), com a respectiva frequência, calculadas com base quer nos distintos corpos de língua portuguesa disponibilizados pelo projecto AC/DC, quer com base nas colecções da rede em português também disponibilizadas pela Linguateca.

As listas referentes aos corpos do AC/DC foram obtidas com recurso à ferramenta cwb-lexdecode do Open CWB (antigo IMS-CWB da Universidade de Estugarda). Os lemas e as categorias gramaticais são apresentadas conforme a sua classificação em contexto pelo anotador sintáctico PALAVRAS, de Eckhard Bick. Todas estas listas foram calculadas a partir das versões anotadas automaticamente dos corpos, pelo que não podemos garantir a completa exactidão dos resultados.

Frequência e ordem de formas e lemas nos corpos AC/DC

Para consultar a ordem ("ranking") e a frequência de palavras ou expressões sublexicais (dentro de uma mesma palavra), desenvolvemos este serviço, que denominámos ordenador.

Alguns comentários:

Descrição do corpoLista de frequência
total das formas
no corpo
Lista de frequência
total dos lemas
no corpo
Todos os corpos 17,9 Mb 39,2 Mb
Todos os corpos portugueses 14,2 Mb 29,1 Mb
Todos os corpos brasileiros 7,1 Mb 12,8 Mb
AmostRA-NILC 280 kb 120 kb
ANCIB 1,3 Mb 1,2 Mb
Avante! 2,1 Mb 1,4 Mb
Corpus Brasileiro0 b0 b
CD HAREM 511 kb 263 kb
CETEMPúblico 16,4 Mb 24,7 Mb
CHAVE 12,2 Mb 16,1 Mb
Colonia0 b0 b
CONDIVport 2,5 Mb 1,5 Mb
CoNE 742 kb 570 kb
C-Oral-Brasil0 b0 b
DiaCLAV 1,8 Mb 1,7 Mb
Diáspora TL-PT0 b0 b
ECI-EBR 1022 kb 431 kb
ECI-EE 71 kb 30 kb
ENPCPUB (parte em português) 211 kb 83 kb
Floresta 3,0 Mb 2,5 Mb
FrasesPB 98 kb 44 kb
FrasesPP 83 kb 38 kb
Moçambula 136 kb 60 kb
Museu da Pessoa 352 kb 139 kb
Natura/Minho 1,1 Mb 925 kb
OBras0 b0 b
PANTERA, lado norueguês0 b0 b
PANTERA, lado português0 b0 b
ReLi0 b0 b
NILC/São Carlos 7,0 Mb 7,3 Mb
todos juntos 25,5 Mb 38,6 Mb
Tycho Brahe0 b0 b
Vercial 6,1 Mb 2,8 Mb

Procuras parciais, de poucas formas ou lemas:

Formas Lemas

  • Pode procurar usando expressões regulares da linguagem de programação Perl.
  • Para procurar lemas multipalavra, use o seguinte formato: Belo=Horizonte, Castelo=Branco.

    Frequência de formas em colecções da rede

    Para obter as frequências das colecções na rede, o seguinte algoritmo foi usado:
    • no caso do WBR99, foi usada a atomização vinda com a colecção;
    • no caso do WPT03, foi usada outra atomização.
    • no caso do WPT05, a atomização foi feita usando a função tokeniza incluída na biblioteca Lingua::PT::PLNbase.

    Não tentámos, em nenhum dos casos, retirar palavras estrangeiras da lista.

    ColecçãoNº documentosNº palavrasLista de frequência de formas amalgamando maiúsculas e minúsculasNº de formas distintas amalgamando maiúsculas e minúsculas Lista de frequência de formas fazendo a distinção entre maiúsculas e minúsculasNº de formas distintas fazendo a distinção entre maiúsculas e minúsculas
    Colecção WPT-05 9.501.202 5.856.585.035 187M (gz) 25.237.118 206M (gz) 27.861.391
    Colecção WPT-03 1.529.758 1.059.436.086 55,1M (tar.gz) 6.834.451
    Colecção WBR-99 5.939.061 1.915.526.098 14M (tar.gz) 2.669.965

    Frequência de formas e lemas por categoria gramatical nos corpos AC/DC

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    AmostRA-NILC 67 kb 30 kb 4 kb 64 kb 1 kb 5 kb 280 kb 52 kb 21 kb 3 kb 20 kb 2 kb 19 kb 1 kb 120 kb 134 kb
    ANCIB 348 kb 101 kb 13 kb 197 kb 57 kb 9 kb 1,3 Mb 265 kb 56 kb 10 kb 43 kb 58 kb 778 kb 3 kb 1,2 Mb 1,3 Mb
    Avante! 384 kb 232 kb 31 kb 572 kb 41 kb 12 kb 2,1 Mb 243 kb 114 kb 24 kb 65 kb 49 kb 956 kb 3 kb 1,4 Mb 1,5 Mb
    Corpus Brasileiro0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b
    CD HAREM 111 kb 48 kb 7 kb 97 kb 7 kb 7 kb 511 kb 77 kb 30 kb 5 kb 23 kb 7 kb 119 kb 2 kb 263 kb 291 kb
    CETEMPúblico 2,5 Mb 1,2 Mb 108 kb 2,8 Mb 995 kb 42 kb 16,4 Mb 1,8 Mb 677 kb 91 kb 329 kb 1,1 Mb 20,4 Mb 8 kb 24,7 Mb 26,2 Mb
    CHAVE 2,0 Mb 976 kb 88 kb 2,2 Mb 827 kb 38 kb 12,2 Mb 1,4 Mb 532 kb 67 kb 255 kb 884 kb 13,0 Mb 7 kb 16,1 Mb 17,1 Mb
    Colonia0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b
    CONDIVport 439 kb 280 kb 35 kb 612 kb 34 kb 17 kb 2,5 Mb 290 kb 150 kb 27 kb 74 kb 40 kb 782 kb 3 kb 1,5 Mb 1,6 Mb
    CoNE 189 kb 56 kb 7 kb 97 kb 38 kb 7 kb 742 kb 135 kb 30 kb 5 kb 24 kb 40 kb 334 kb 2 kb 570 kb 615 kb
    C-Oral-Brasil0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b
    DiaCLAV 356 kb 189 kb 21 kb 478 kb 44 kb 11 kb 1,8 Mb 222 kb 93 kb 16 kb 57 kb 49 kb 1,2 Mb 3 kb 1,7 Mb 1,8 Mb
    Diáspora TL-PT0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b
    ECI-EBR 218 kb 119 kb 16 kb 272 kb 5 kb 9 kb 1022 kb 151 kb 68 kb 12 kb 45 kb 8 kb 145 kb 2 kb 431 kb 478 kb
    ECI-EE 15 kb 10 kb 2 kb 14 kb 1 kb 3 kb 71 kb 11 kb 6 kb 2 kb 5 kb 1 kb 3 kb 1 kb 30 kb 34 kb
    ENPCPUB (parte em português) 45 kb 21 kb 5 kb 55 kb933 b 5 kb 211 kb 35 kb 14 kb 4 kb 15 kb 1 kb 10 kb 1 kb 83 kb 94 kb
    Floresta 631 kb 301 kb 33 kb 641 kb 56 kb 20 kb 3,0 Mb 428 kb 155 kb 28 kb 87 kb 59 kb 1,7 Mb 8 kb 2,5 Mb 2,7 Mb
    FrasesPB 27 kb 10 kb 2 kb 18 kb442 b 3 kb 98 kb 22 kb 8 kb 2 kb 8 kb407 b 2 kb 1 kb 44 kb 50 kb
    FrasesPP 21 kb 9 kb 2 kb 15 kb499 b 3 kb 83 kb 17 kb 7 kb 2 kb 6 kb467 b 2 kb 1 kb 38 kb 42 kb
    Moçambula 39 kb 18 kb 4 kb 41 kb 1 kb 5 kb 136 kb 30 kb 12 kb 3 kb 13 kb 1 kb 13 kb 1 kb 60 kb 67 kb
    Museu da Pessoa 162 kb 70 kb 9 kb 195 kb 4 kb 8 kb 352 kb 112 kb 41 kb 7 kb 34 kb 5 kb 138 kb 2 kb 139 kb 156 kb
    Natura/Minho 231 kb 121 kb 14 kb 254 kb 34 kb 9 kb 1,1 Mb 148 kb 65 kb 11 kb 42 kb 38 kb 621 kb 2 kb 925 kb 998 kb
    OBras 210 kb 126 kb 17 kb 372 kb 3 kb 33 kb0 b 147 kb 67 kb 14 kb 51 kb 4 kb 61 kb 4 kb0 b0 b
    PANTERA, lado norueguês0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b
    PANTERA, lado português0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b
    ReLi 68 kb 39 kb 7 kb 81 kb 2 kb 46 kb0 b 51 kb 23 kb 5 kb 20 kb 2 kb 22 kb 2 kb0 b0 b
    NILC/São Carlos 1,2 Mb 589 kb 55 kb 1,3 Mb 567 kb 24 kb 7,0 Mb 804 kb 314 kb 43 kb 173 kb 598 kb 5,5 Mb 5 kb 7,3 Mb 7,9 Mb
    todos juntos 4,5 Mb 2,3 Mb 164 kb 6,5 Mb 1,7 Mb 141 kb 25,5 Mb 3,3 Mb 1,1 Mb 138 kb 757 kb 1,8 Mb 31,8 Mb 16 kb 38,6 Mb 41,4 Mb
    Tycho Brahe0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b0 b
    Vercial 1023 kb 504 kb 60 kb 2,0 Mb 27 kb 351 kb 6,1 Mb 709 kb 258 kb 49 kb 223 kb 32 kb 1,6 Mb 5 kb 2,8 Mb 3,1 Mb
    todos 4,4 Mb 1,9 Mb 161 kb 4,9 Mb 1,7 Mb 477 kb 17,9 Mb 3,3 Mb 1,1 Mb 134 kb 624 kb 1,9 Mb 32,3 Mb 15 kb 39,2 Mb 53,8 Mb
    todos/pt 3,4 Mb 1,6 Mb 140 kb 4,4 Mb 1,1 Mb 401 kb 17,9 Mb 2,5 Mb 908 kb 116 kb 525 kb 1,2 Mb 23,6 Mb 11 kb 29,1 Mb 39,6 Mb
    todos/br 1,9 Mb 886 kb 78 kb 2,0 Mb 824 kb 99 kb 7,1 Mb 1,4 Mb 494 kb 62 kb 257 kb 867 kb 9,9 Mb 10 kb 12,8 Mb 17,6 Mb

    Foram classificadas como palavras gramaticais todas as palavras que não tenham sido classificadas em nenhuma das outras categorias apresentadas. Por essa razão, as listas de palavras gramaticais incluem uma coluna extra, indicando a respectiva categoria.

    Nos casos em que os corpos estão caracterizados por variante, apresentamos também as listas por variante, em que o sufixo br e pt indicam respetivamente a variante brasileira e a portuguesa.

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    chavebr945 1,2 Mb 598 kb 56 kb 1,3 Mb 503 kb 22 kb 4,7 Mb 794 kb 312 kb 42 kb 158 kb 524 kb 6,1 Mb 5 kb 7,8 Mb 8,4 Mb
    chavept945 1,4 Mb 703 kb 70 kb 1,7 Mb 399 kb 25 kb 5,7 Mb 981 kb 366 kb 53 kb 177 kb 442 kb 7,7 Mb 5 kb 9,7 Mb 10,3 Mb
    cdharembr 69 kb 28 kb 4 kb 56 kb 3 kb 6 kb 195 kb 50 kb 18 kb 3 kb 16 kb 4 kb 55 kb 1 kb 147 kb0 b
    cdharempt 67 kb 29 kb 5 kb 59 kb 4 kb 6 kb 202 kb 48 kb 19 kb 4 kb 16 kb 4 kb 63 kb 1 kb 157 kb0 b
    enpcpubbr 33 kb 14 kb 4 kb 36 kb814 b 4 kb 96 kb 27 kb 10 kb 3 kb 12 kb 1 kb 8 kb 1 kb 63 kb0 b
    enpcpubpt 20 kb 9 kb 3 kb 26 kb315 b 3 kb 63 kb 16 kb 7 kb 2 kb 8 kb284 b 2 kb 1 kb 38 kb0 b
    museudapessoabr 126 kb 58 kb 8 kb 140 kb 3 kb 7 kb 42 kb 89 kb 34 kb 6 kb 28 kb 4 kb 105 kb 2 kb 26 kb0 b
    museudapessoapt 75 kb 25 kb 5 kb 96 kb 2 kb 6 kb 215 kb 54 kb 16 kb 3 kb 17 kb 2 kb 34 kb 1 kb 130 kb0 b

    Finalmente, apresentamos também as listas do Vercial separadas em antes do século XIX (sufixo "ant") e depois(sufixo "mod").

    CorpoFormasLemas
    NADJADVVNUMGRAMtodosNADJADVVNUMPROPGRAMtodostodos/pos
    vercialant 296 kb 165 kb 15 kb 611 kb 5 kb 23 kb 950 kb 208 kb 82 kb 11 kb 120 kb 6 kb 200 kb 3 kb 591 kb 747 kb
    vercialmod 541 kb 323 kb 33 kb 1,2 Mb 17 kb 27 kb 1,9 Mb 333 kb 127 kb 26 kb 133 kb 18 kb 595 kb 4 kb 1,2 Mb 1,4 Mb

    Veja-se também informação semelhante relativa à parte portuguesa do COMPARA e do CorTrad:

    CorpoFormasLemas
    NADJADVVtodosNADJADVVPrópriostodos
    COMPARA (parte portuguesa) 545 kb 276 kb 42 kb 774 kb 1,7 Mb 327 kb 141 kb 37 kb 202 kb 219 kb 937 kb
    CorTrad jornalístico (original em português) 174 kb 102 kb 10 kb 200 kb 793 kb 117 kb 52 kb 7 kb 36 kb 234 kb 455 kb
    CorTrad literário (tradução final em português) 58 kb 31 kb 6 kb 93 kb 290 kb 45 kb 19 kb 4 kb 21 kb 17 kb 108 kb
    CorTrad culinário (original em português) 30 kb 15 kb 1 kb 31 kb 120 kb 23 kb 8 kb 1 kb 10 kb 4 kb 48 kb

    [ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


    Última actualização: 22 Julho 2011.
    Perguntas, comentários e sugestões.