Acesso a corpos de português: Projecto AC/DC: corpo todos juntos

todos juntos : AC/DC : Linguateca
O corpo TODOS foi criado pela Linguateca de forma a permitir que todos os corpos da Linguateca pudessem ser interrogadas duma só vez, evitando ao mesmo tempo que sobreposições de material produzissem repetição escusada e enganadora de concordâncias ou frequências. É portanto especialmente apropriado para investigações relacionadas com género textual ou com anotação semântica. Porque é automaticamente produzido a partir de todos os outros corpos do AC/DC, contém apenas os atributos estruturais e posicionais que pertençam à interseção de todos os corpos, além dos atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas de corpos individuais.

O corpo contém cerca de 1300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.

No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.

Estrutura do corpo

Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

Versão do corpo

Corpus todos, criado a 5 de julho de 2014, v. 4.2

Excerto do corpo


<ext id=1 gen=«literatura»>
<p par=1>
<s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s>
</p>
<p par=2>
<s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s>
<s> A intervenção de Silvio, porém, foi imediata: </s>
</p>
(...)
</ext>

Dados quantitativos

Corpo TODOS Número de formasNúmero de tipos
Unidades 15704327536527535
Total de palavras 12679763105896708
Palavras em minúscula 8909749441487321
Palavras com inicial maiúscula1710686861267126
Palavras todas em maiúsculas 13617505300915
Números 26550573109507
Palavras com números2887252466299
Palavras mistas3325839290787
Pontuação87411084577200

Número de unidades estruturais

Atributo Número
TEXTO 0
CATEGORY 208390
0
art 26762
assinatura 1741
assunto 4872
autor 50601
caixa 315
capitulo 678
cita 81
div 2902
entrevista 220
ext 1073958
fala 43168
introd 5
legenda 827
li 136428
marca 10727
mens 4951
mwe 19482533
nota 289
obra 389
p 5539851
parte 12634
pergunta 11260
personagem 44105
resposta 11569
s 55673863
situacao 561
subtitulo 3767
t 1138897
texto 7001
titulo 710
tituloobra 387
u 793136
v 251380
a 179699
data 208931
indic 2049

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 84581080 143224602
Locuções 19482533 41106904
Palavras gráficas 1267976310 1267976310
Palavras simples 1083644804 1083644804
Palavras 1187708417 1267976310

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 278113550 25,66%
Verbos V.* 141170048 13,03%
Adjectivos ADJ.* 77623148 7,16%
Pronomes pessoais .*PERS.* 13842137 1,28%
Preposições PRP.* 200950995 18,54%
Conjunções K.* 50638040 4,67%
Advérbios ADV.* 47968120 4,43%
Determinantes .*DET.* 184951405 17,07%
Especificadores .*SPEC.* 15260771 1,41%
Numerais NUM.* 44129827 4,07%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões