Acesso a corpos de português: Projecto AC/DC: corpo ANCIB

ANCIB : AC/DC : Linguateca
O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Versão do corpo

Corpus ANCIB, versão texto de Junho de 2009, anotado a 26 de Junho de 2014, criado a 22 de Junho de 2013, v. 7.7

Excerto do corpo


<mens dt=1998-08-04>
<assunto> Perspectivas da Arquivologia </assunto>
<autor> jmjardim@cruiser.com.br </autor>
<titulo> PERSPECTIVAS DA ARQUIVOLOGIA: A EXPERIÊNCIA ESPANHOLA </titulo>
<p>
<s> O NÚCLEO INTERDISCIPLINAR DE ESTUDOS DA INFORMAÇÃO (NEINFO) da Universidade Federal Fluminense estará recebendo nos dias 12 e 13 de agosto a
visita da Profa. Maria Luisa Conde, Diretora do Arquivo Geral da Administração (Sub-Direção de Arquivos Estatais da Espanha) e Professora do
Departamento de Ciências da
Computação da Universidade de Alcala de Henares . </s>
<s> Arquivista com extensa produção intelectual e experiência internacional, a Professora Maria Luisa Conde realizará duas conferências: </s>
</p>
<p>
<s> Dia 12 de agosto, quarta-feira, às 18:30 . </s>
...

Dados quantitativos

Corpo ANCIB Número de formasNúmero de tipos
Unidades 170775876637
Total de palavras 125710973645
Palavras em minúscula 84066234803
Palavras com inicial maiúscula22670921842
Palavras todas em maiúsculas 191653503
Números 200821337
Palavras com números2715801
Palavras mistas2728628
Pontuação1159762978

Número de unidades estruturais

Atributo Número
p 60047
s 83189
mwe 14587
autor 3007
mens 3012
assunto 2978
li 0
titulo 0
cita 81

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 97212 202649
Locuções 14587 31186
Palavras gráficas 1257109 1257109
Palavras simples 1023274 1023274
Palavras 1135073 1257109

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 293306 28,66%
Verbos V.* 125785 12,29%
Adjectivos ADJ.* 72934 7,13%
Pronomes pessoais .*PERS.* 13845 1,35%
Preposições PRP.* 194505 19,01%
Conjunções K.* 59387 5,80%
Advérbios ADV.* 39981 3,91%
Determinantes .*DET.* 190701 18,64%
Especificadores .*SPEC.* 12427 1,21%
Numerais NUM.* 32620 3,19%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões