Acesso a corpos de português: Projecto AC/DC: corpo FrasesPB

FrasesPB : AC/DC : Linguateca
O corpus FrasesPB é um conjunto de frases em português brasileiro.

O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

Estrutura do corpo

Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

Marcadores estruturais: s, p.

Versão do corpo

Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado a 6 de Março de 2011, criado a 22 de Junho de 2013, v. 5.6

Excerto do corpo


<p par=31>
<s> Eis que, próximo, na cancha, arma-se uma peleia, coisa comum, aliás, em dia de carreira, entrando em cena facões, adagas, cabo de relho, argolas
de rabo
de tatu e outras armas campeiras . </s>
</p>
<p par=74>
<s> Queria viajar, conhecer outras cidades e as histórias que envolviam golfinhos ou sereias . </s>
</p>

Dados quantitativos

Corpo FRASESPB Número de formasNúmero de tipos
Unidades 233556020
Total de palavras 191626008
Palavras em minúscula 164225265
Palavras com inicial maiúscula1051526
Palavras todas em maiúsculas 1414
Números 4935
Palavras com números
Palavras mistas55
Pontuação73112

Número de unidades estruturais

Atributo Número
p 648
s 653
mwe 430

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 251 410
Locuções 430 923
Palavras gráficas 19162 19162
Palavras simples 17829 17829
Palavras 18510 19162

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 4622 25,92%
Verbos V.* 2893 16,23%
Adjectivos ADJ.* 1429 8,02%
Pronomes pessoais .*PERS.* 358 2,01%
Preposições PRP.* 3269 18,34%
Conjunções K.* 1015 5,69%
Advérbios ADV.* 1051 5,89%
Determinantes .*DET.* 3639 20,41%
Especificadores .*SPEC.* 347 1,95%
Numerais NUM.* 166 0,93%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões