Estrutura do corpo
Marcadores estruturais:
ext [identificador do extracto, com informação sobre secção e semestre],
s [frase],
t [título ou subtítulo],
a [identificação do autor],
li [elemento de lista],
marca.
Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]:
e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em
Rocha &
Santos (2000) sobre a forma da atribuição deste último.
| semestre | tamanho | clt | clt-soc | com | des | eco | nd | opi | pol | soc
| | 91a | 7438687 | 654269 | 188696 | 0 | 886421 | 523010 | 2905212 | 0 | 1010964 | 1270115
| | 91b | 14298045 | 1257934 | 215680 | 0 | 1442404 | 951082 | 5770903 | 0 | 2167609 | 2492433
| | 92a | 15376140 | 2517077 | 535571 | 0 | 1528918 | 1532734 | 2105994 | 0 | 3939918 | 3215928
| | 92b | 11548980 | 2228320 | 439928 | 0 | 1324785 | 1307012 | 510736 | 0 | 2716056 | 3022143
| | 93a | 15281287 | 3182036 | 903110 | 0 | 1499025 | 1691448 | 601275 | 0 | 3419784 | 3984609
| | 93b | 12190888 | 2266354 | 584005 | 0 | 1277986 | 1273646 | 1084029 | 0 | 2576030 | 3128838
| | 94a | 15415434 | 3036399 | 873491 | 0 | 1524352 | 1588545 | 1478117 | 0 | 3308393 | 3606137
| | 94b | 14898632 | 2778549 | 873838 | 0 | 1614429 | 1585832 | 1735878 | 0 | 2923914 | 3386192
| | 95a | 16679581 | 2770841 | 1089806 | 0 | 1823847 | 1622799 | 1935381 | 0 | 3090587 | 4346320
| | 95b | 15716165 | 2227051 | 938200 | 0 | 1621662 | 1430755 | 2070295 | 0 | 3273699 | 4154503
| | 96a | 11975537 | 1638196 | 0 | 13298 | 1435401 | 972402 | 1212904 | 628492 | 2143606 | 3931238
| | 96b | 11668231 | 1604184 | 0 | 0 | 1553403 | 799945 | 1247307 | 620434 | 1909910 | 3933048
| | 97a | 9941326 | 1368435 | 0 | 17103 | 1327490 | 678325 | 926076 | 624831 | 1649099 | 3349967
| | 97b | 9975153 | 1361611 | 0 | 245061 | 1244435 | 659357 | 944524 | 568831 | 1815436 | 3135898
| | 98a | 12955412 | 1460059 | 0 | 389767 | 1528837 | 799921 | 1772158 | 645872 | 1984595 | 4374203
| | 98b | 8993884 | 1050312 | 0 | 279008 | 1056512 | 572213 | 861608 | 430305 | 1652256 | 3091670
| | Todos |
| 31401627 | 6642325 | 944237 | 22689907 | 17989026 | 27162397 | 3518765 | 39581856 | 54423242
|
Versão do corpo
Corpus CETEMPúblico anotado: versão 1.7 do texto, criada a 18 de Setembro de 2001, anotada em Abril-Julho de 2011, versão na rede criada a 23 de Junho de 2013, v. 7.6
Excerto do corpo
<ext n=1 sec=clt sem=92b> <t> Um revivalismo refrescante </t> <p> <s> O 7 e Meio é um ex-libris da noite algarvia .</s> <s> É uma das mais antigas discotecas do Algarve , situada em Albufeira , que continua a manter os traços decorativos e as clientelas de sempre .</s> <s>É um pouco a versão de uma espécie de « outro lado » da noite , a meio caminho entre os devaneios de uma fauna periférica , seja de Lisboa , Londres , Dublin ou Faro e Portimão , e a postura circunspecta dos fiéis da casa , que dela esperam a música « geracionista » dos 60 ou dos 70 .</s> <s>Não deixa de ser , nos tempos que correm , um certo « very typical » algarvio , cabeça de cartaz para os que querem fugir a algumas movimentações nocturnas já a caminho da ritualização de massas , do género « vamos todos ao Calypso e encontramo-nos na Locomia » .</s> </p> </ext>
Dados quantitativos
| Corpo CETEMPUBLICO
| Número de formas | Número de tipos |
| Unidades | 240529924 | 958113 |
| Total de palavras | 191322361 | 927387 |
| Palavras em minúscula | 144268222 | 270858 |
| Palavras com inicial maiúscula | 24083648 | 309215 |
| Palavras todas em maiúsculas | 1129779 | 22117 |
| Números | 1844643 | 10640 |
| Palavras com números | 262402 | 16257 |
| Palavras mistas | 121257 | 30001 |
| Pontuação | 13078800 | 30644 |
Número de unidades estruturais
| Atributo | Número |
| p | 3614076 |
| s | 8129979 |
| ext | 1523041 |
| t | 703075 |
| a | 247703 |
| mwe | 3753261 |
| marca | 3839 |
Contabilização de multipalavras
| Número de entidades | Número de unidades |
| Nomes próprios | 10523676 | 18610452 |
| Locuções | 3753261 | 7915312 |
| Palavras gráficas | 191322361 | 191322361 |
| Palavras simples | 164796597 | 164796597 |
| Palavras | 179073534 | 191322361 |
Distribuição por categoria gramatical
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
| Substantivos | N|N[^U].* | 39343419 | 23,87% |
| Verbos | V.* | 24631947 | 14,95% |
| Adjectivos | ADJ.* | 11658990 | 7,07% |
| Pronomes pessoais | .*PERS.* | 2923383 | 1,77% |
| Preposições | PRP.* | 33556524 | 20,36% |
| Conjunções | K.* | 8100674 | 4,92% |
| Advérbios | ADV.* | 10123326 | 6,14% |
| Determinantes | .*DET.* | 34980733 | 21,23% |
| Especificadores | .*SPEC.* | 3038874 | 1,84% |
| Numerais | NUM.* | 4186444 | 2,54% |
Para informação sobre como foram obtidos este valores, consulte esta página
|