Acesso a corpos de português: Projecto AC/DC: corpo CHAVE

CHAVE : AC/DC : Linguateca
O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Pode obter o corpus completo em formato texto requerendo-o nesta página.

Estrutura do corpo

Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

Versão do corpo

Corpus CHAVE, anotado a30 de abril de 2014, v. 6.4

Excerto do corpo


<DOC>
<DOCNO valor=FSP941101-001>
<DOCID valor=FSP941101-001>
<DATE valor=941101>
<TEXT>
<s> O país que o presidente eleito Fernando Henrique Cardoso encontrou na volta de sua viagem à Europa Oriental apresenta algumas diferenças
substanciais com relação àquele que havia deixado cerca de duas semanas antes . </s>
<s> E não são diferenças muito animadoras . </s>
<s> A inflação subiu <96>passou de 1,99% na segunda quadrissemana de outubro para 2,68% na terceira e está em ascensão, segundo a Fipe . </s>
<s> O compulsório sobre empréstimos causou espanto e decepção ao dificultar um aumento da produção, em vez de estimulá-lo . </s>
...

Dados quantitativos

Corpo CHAVE Número de formasNúmero de tipos
Unidades 124095306722690
Total de palavras 97884763696775
Palavras em minúscula 72221133229100
Palavras com inicial maiúscula12850848231949
Palavras todas em maiúsculas 61892616698
Números 10983277533
Palavras com números1070749980
Palavras mistas14808615018
Pontuação678235225596

Número de unidades estruturais

Atributo Número
s 4680462
t 573249
p 2246878
mwe 1778731
data 208390
DOC 208390
CATEGORY 208390
EM 0

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 5430724 9428184
Locuções 1778731 3762834
Palavras gráficas 97884763 97884763
Palavras simples 84693745 84693745
Palavras 91903200 97884763

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 20699744 24,44%
Verbos V.* 12745355 15,05%
Adjectivos ADJ.* 5911581 6,98%
Pronomes pessoais .*PERS.* 1484683 1,75%
Preposições PRP.* 16746982 19,77%
Conjunções K.* 4123231 4,87%
Advérbios ADV.* 4937784 5,83%
Determinantes .*DET.* 17460712 20,62%
Especificadores .*SPEC.* 1472857 1,74%
Numerais NUM.* 2272460 2,68%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões