Acesso a corpos de português: Projecto AC/DC: corpo ReLi

ReLi : AC/DC : Linguateca
O corpus ReLi é um corpo de 1601 resenhas de treze livros (de sete autores diferentes), compiladas de um sítio brasileiro de resenhas de livros, pela PUC-Rio, e acessível daqui. Essas resenhas foram anotadas em relação à opinião, ao objeto da opinião, e à sua polaridade, veja-se Freitas et al. (2012).

O corpus ReLi é composto de 7 arquivos, com as resenhas das obras de cada autor. Foram manualmente marcadas as seguintes informações:

object - indica segmento alvo de opinião. É designado por OBJXX, onde XX é o identificador do objeto no escopo da resenha, sendo 00 o objeto implícito livro

opinion - indica segmento que expressa opinião sobre um OBJXX. Tem a forma opXXS, onde S={-,+} para indicar a polaridade da opinião e XX é o ponteiro para o objeto

polarity - indica frase com opinião. Pode assumir os valores + e -.

Como citar o corpus ReLi: Freitas, C.; Motta, E.; Milidiú, R.; Cesar, J. Vampiro que brilha... rá! Desafios na anotação de opinião em um corpus de resenhas de livros. In: XI Encontro de Linguística de Corpus (ELC 2012), São Paulo, Brasil, 2012.

Estrutura do corpo

Marcadores posicionais: objeto, opiniao, polaridade Marcadores estruturais: livro [nome do livro resenhado], resenha, p [parágrafo], s [frase].

Versão do corpo

Corpus ReLi, versão do texto de Maio de 2013, anotado a 17 de Maio de 2013, v. 3.3

Excerto do corpo


<resenha id="1" nota="5.0">
<s>Quem tem pavor só de ouvir o nome Capitães da Areia , por causa da Fuvest , ficaria admirado com quão bom é esse livro .</s>
<s>Jorge Amado escreve de forma envolvente , e nos faz sentir vontade de ajudar cada um dos personagens .</s>
<s>Li , reli , e vou ler mais uma vez , porque vale a pena !</s>
</resenha>
...

Dados quantitativos

Corpo RELI Número de formasNúmero de tipos
Unidades 17568813246
Total de palavras 13417113209
Palavras em minúscula 9635010686
Palavras com inicial maiúscula108541889
Palavras todas em maiúsculas 8857
Números 43082
Palavras com números3519
Palavras mistas84602
Pontuação890332

Número de unidades estruturais

Atributo Número
mwe 2868
p 3794
t 737
s 8256
livro 0
rev 1

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 7129 5958
Locuções 2868 6147
Palavras gráficas 134171 134171
Palavras simples 122066 122066
Palavras 132063 134171

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 25058 20,53%
Verbos V.* 22947 18,80%
Adjectivos ADJ.* 9104 7,46%
Pronomes pessoais .*PERS.* 4470 3,66%
Preposições PRP.* 18238 14,94%
Conjunções K.* 7466 6,12%
Advérbios ADV.* 9876 8,09%
Determinantes .*DET.* 23371 19,15%
Especificadores .*SPEC.* 3714 3,04%
Numerais NUM.* 1301 1,07%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões