Acesso a corpos de português: Projecto AC/DC: corpo OBras

OBras : AC/DC : Linguateca
O corpo OBras (Obras Brasileiras) é um corpo de textos brasileiros que já alcançaram o domínio público, criado numa colaboração entre a Linguateca, a Universidade de Oslo, a PUC-Rio e Anya Campos, iniciada em julho de 2013. Para mais informações veja-se a página do projeto.

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra). As obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), e data (que quando é desconhecida tem o valor "desc").

Versão do corpo

Corpus OBras, criado e anotado em 30 de dezembro de 2013, v. 2.1

Excerto do corpo


...

Dados quantitativos

Corpo OBRAS Número de formasNúmero de tipos
Unidades 152227679667
Total de palavras 120178778581
Palavras em minúscula 94792054021
Palavras com inicial maiúscula926399489
Palavras todas em maiúsculas 21648
Números 1161327
Palavras com números215180
Palavras mistas663510
Pontuação92924130

Número de unidades estruturais

Atributo Número
p 1736
s 40517
v 0
obra 25
capitulo 0
parte 0
tit 0
autor 25
tituloobra 25
div 46
mwe 25327

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 27384 36545
Locuções 25327 54809
Palavras gráficas 1201787 1201787
Palavras simples 1110433 1110433
Palavras 1163144 1201787

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 240626 21,67%
Verbos V.* 193810 17,45%
Adjectivos ADJ.* 80200 7,22%
Pronomes pessoais .*PERS.* 31441 2,83%
Preposições PRP.* 174773 15,74%
Conjunções K.* 61402 5,53%
Advérbios ADV.* 77705 7,00%
Determinantes .*DET.* 176993 15,94%
Especificadores .*SPEC.* 24457 2,20%
Numerais NUM.* 10431 0,94%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões