Acesso a corpos de português: Projecto AC/DC: corpo CETEMPúblico

CETEMPúblico : AC/DC : Linguateca
O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

Estrutura do corpo

Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

semestretamanhocltclt-soccomdesecondopipolsoc
91a743868765426918869608864215230102905212010109641270115
91b142980451257934215680014424049510825770903021676092492433
92a1537614025170775355710152891815327342105994039399183215928
92b115489802228320439928013247851307012510736027160563022143
93a152812873182036903110014990251691448601275034197843984609
93b1219088822663545840050127798612736461084029025760303128838
94a1541543430363998734910152435215885451478117033083933606137
94b1489863227785498738380161442915858321735878029239143386192
95a16679581277084110898060182384716227991935381030905874346320
95b1571616522270519382000162166214307552070295032736994154503
96a1197553716381960132981435401972402121290462849221436063931238
96b116682311604184001553403799945124730762043419099103933048
97a99413261368435017103132749067832592607662483116490993349967
97b997515313616110245061124443565935794452456883118154363135898
98a12955412146005903897671528837799921177215864587219845954374203
98b899388410503120279008105651257221386160843030516522563091670
Todos 31401627664232594423722689907179890262716239735187653958185654423242

Versão do corpo

Corpus CETEMPúblico anotado: versão 1.7 do texto, criada a 18 de Setembro de 2001, anotada em Abril-Julho de 2011, versão na rede criada a 23 de Junho de 2013, v. 7.6

Excerto do corpo


<ext n=1 sec=clt sem=92b>
<t> Um revivalismo refrescante </t>
<p> <s> O 7 e Meio é um ex-libris da noite algarvia .</s> <s> É uma das mais antigas discotecas do Algarve , situada em Albufeira , que continua a manter os traços decorativos e as clientelas de sempre .</s> <s>É um pouco a versão de uma espécie de « outro lado » da noite , a meio caminho entre os devaneios de uma fauna periférica , seja de Lisboa , Londres , Dublin ou Faro e Portimão , e a postura circunspecta dos fiéis da casa , que dela esperam a música « geracionista » dos 60 ou dos 70 .</s> <s>Não deixa de ser , nos tempos que correm , um certo « very typical » algarvio , cabeça de cartaz para os que querem fugir a algumas movimentações nocturnas já a caminho da ritualização de massas , do género « vamos todos ao Calypso e encontramo-nos na Locomia » .</s> </p>
</ext>

Dados quantitativos

Corpo CETEMPUBLICO Número de formasNúmero de tipos
Unidades 240529924958113
Total de palavras 191322361927387
Palavras em minúscula 144268222270858
Palavras com inicial maiúscula24083648309215
Palavras todas em maiúsculas 112977922117
Números 184464310640
Palavras com números26240216257
Palavras mistas12125730001
Pontuação1307880030644

Número de unidades estruturais

Atributo Número
p 3614076
s 8129979
ext 1523041
t 703075
a 247703
mwe 3753261
marca 3839

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 10523676 18610452
Locuções 3753261 7915312
Palavras gráficas 191322361 191322361
Palavras simples 164796597 164796597
Palavras 179073534 191322361

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 39343419 23,87%
Verbos V.* 24631947 14,95%
Adjectivos ADJ.* 11658990 7,07%
Pronomes pessoais .*PERS.* 2923383 1,77%
Preposições PRP.* 33556524 20,36%
Conjunções K.* 8100674 4,92%
Advérbios ADV.* 10123326 6,14%
Determinantes .*DET.* 34980733 21,23%
Especificadores .*SPEC.* 3038874 1,84%
Numerais NUM.* 4186444 2,54%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões