Acesso a corpos de português: Projecto AC/DC: corpo ECI-EBR

ECI-EBR : AC/DC : Linguateca
O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

GéneroUnidadesTextos
Literatura 368.024 151
Informativo 201.425 285
Jornalismo 88.070 536
Oral 66.565 29
Outros 16.061 33
Indef 16.774 81
AssuntosUnidadesTextos
Agricultura 3458 8
Arqueologia 1669 3
Arte 4193 4
Astrologia 1292 1
Biologia 3660 3
Botânica 6082 4
Ciência 7375 9
Clima 302 1
Crónica 3716 11
Culinária 1316 1
Cultura 5698 44
Desporto 8173 39
Direito 1703 4
Ecologia 326 2
Economia 18360 60
Edição 821 1
Educação 1092 1
Entretenimento 4988 31
Escutismo 422 1
Estatística 1237 1
Filatelia 1109 1
Filosofia 3382 3
Física 627 1
Fotografia 1056 2
Generalidades 5476 45
Geografia 3685 6
Geologia 77 1
Gestão 2300 3
Hidrografia 1276 1
História 35076 30
Indef 482747 1
Indústria 1375 3
Internacional 8098 57
Jornalismo 277 536
Linguística 8066 12
Literatura 8180 14
Maternidade 344 1
Medicina 16837 18
Música 1689 3
Oceanografia 302 1
País 44537 206
Política 19620 36
Psicologia 2388 5
Religião 20977 32
Reportagem 1275 3
Saúde 4460 18
Sociedade 7286 58
Sociologia 10347 15
Título 173 12
Turismo 188 1
Zoologia 2985 15

Estrutura do corpo

A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).

A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

Marcadores estruturais: s, p, ext e marca.

Versão do corpo

Corpus ECI-EBR, versão texto de Abril de 2002, anotado a 30 de Junho de 2014, criado a 7 de julho de 2014, v. 10.0

Excerto do corpo


<ext id=1 gen=«literatura»>
<p par=1>
<s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s>
</p>
<p par=2>
<s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s>
<s> A intervenção de Silvio, porém, foi imediata: </s>
</p>
(...)
</ext>

Dados quantitativos

Corpo ECI-EBR Número de formasNúmero de tipos
Unidades 92245860399
Total de palavras 72399560204
Palavras em minúscula 56899642157
Palavras com inicial maiúscula7342812232
Palavras todas em maiúsculas 19246
Números 1994459
Palavras com números5340
Palavras mistas193119
Pontuação52933195

Número de unidades estruturais

Atributo Número
ext 1107
p 12116
s 43543
marca 3
mwe 15154

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 19410 32991
Locuções 15154 32557
Palavras gráficas 723995 723995
Palavras simples 658447 658447
Palavras 693011 723995

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 149897 22,77%
Verbos V.* 114484 17,39%
Adjectivos ADJ.* 45310 6,88%
Pronomes pessoais .*PERS.* 25054 3,81%
Preposições PRP.* 108566 16,49%
Conjunções K.* 35199 5,35%
Advérbios ADV.* 46862 7,12%
Determinantes .*DET.* 125972 19,13%
Especificadores .*SPEC.* 13685 2,08%
Numerais NUM.* 9136 1,39%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões