Acesso a corpos de português: Projecto AC/DC: corpo Colonia

Colonia : AC/DC : Linguateca
O Colonia é um corpo eletrônico anotado compilado para pesquisa sobre a história da língua portuguesa, com textos escritos entre 1500 e 1936, desenvolvido pela Universidade de Colónia (Köln). A sua página principal é http://corporavm.uni-koeln.de/colonia/ onde todas as informações estão disponíveis. Veja também Zampieri & Becker (2013). (Nota: À versão do AC/DC faltam ainda cinco textos.)

Estrutura do corpo

Utilizámos como marcadores estruturais para todas as obras obra (que contém o identificador original do projeto Colonia), tituloobra (o nome da obra), autor (o autor da obra) e dataobra. Também se encontram marcados, nas obras em que são relevantes, partes como parte, além dos marcadores estruturais comuns a todo o projeto AC/DC t (indicando título) e s [frase].

Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), data, variante e seculo, contendo o século em que a obra foi publicada.

Versão do corpo

Corpus COLONIA, criado e anotado a 26 de Junho de 2014, v. 2.3

Excerto do corpo


<s>
CAROLINA
ADEUS ! Na estrada que conduz de Lisboa a *** erguia-se há poucos anos uma casa de bonita aparência , com sua vinha verdejante , seu pomar odorífero , seu jardim pequeno , mas bonito , suas alamedas , curtas mas frondosas .
</s>
<s>
O muro da quinta era alto bastante , e contudo os ramos das faias e dos choupos gigantes debruçavam-se sobre ele , assombrando com sua folhagem majestosa a estrada , que o mesmo muro flanqueava para um pequeno espaço .
</s>
...

Dados quantitativos

Corpo COLONIA Número de formasNúmero de tipos
Unidades 6434590174067
Total de palavras 5027890173519
Palavras em minúscula 3907414110446
Palavras com inicial maiúscula46827329838
Palavras todas em maiúsculas 3491498
Números 70861056
Palavras com números5238
Palavras mistas72911834
Pontuação367817414

Número de unidades estruturais

Atributo Número
p 0
s 207517
texto 0
parte 1728
mwe 95559

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 177438 234459
Locuções 95559 206383
Palavras gráficas 5027890 5027890
Palavras simples 4587048 4587048
Palavras 4860045 5027890

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 934300 20,37%
Verbos V.* 823633 17,96%
Adjectivos ADJ.* 279338 6,09%
Pronomes pessoais .*PERS.* 168818 3,68%
Preposições PRP.* 695861 15,17%
Conjunções K.* 288886 6,30%
Advérbios ADV.* 334217 7,29%
Determinantes .*DET.* 848217 18,49%
Especificadores .*SPEC.* 121675 2,65%
Numerais NUM.* 41179 0,90%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões