Acesso a corpos de português: Projecto AC/DC: corpo NILC/São Carlos

NILC/São Carlos : AC/DC : Linguateca
O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

Estrutura do corpo

Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 11.4, é a seguinte:

TipoDescriçãoTamanho
DI texto didáctico 426.766
ENC enciclopédia 286.559
ENS ensaio 2.193.806
EP texto epistolar 3.350
JO.* jornalístico 29.821.113
JOCF jornalístico só CETENFolha 27.741.981
JO jornalístico sem CETENFolha 2.079.132
LE texto legal 1.111.864
LI literário 921.361
RE revista 153.786

O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

  • Procurar a palavra punhal no CETENFolha: [word="punhal" & classe="JOCF"]
  • Procurar palavras acabadas em ornada no CETENFolha: ".*ornada" [classe="JOCF"]

Versão do corpo

Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; anotado em 22 de Junho de 2013, v. 11.4

Excerto do corpo


<t> AYRTON ; Nicolau ; Toledo . Ciências- ECOLOGIA E Educação Ambiental . ( Corpo Humano E Biosfera ) . São Paulo . SCIPIONE . 1992 . 7a Série .</t>
<p par=1> <s> Células , Hereditariedade E Funções Vitais .</s> </p>
<p par=2> <s> O homem é o mamífero mais evoluído da escala zoológica .</s> <s> Apresenta postura ereta e cérebro bastante evoluído , capaz de aprender , memorizar , desenvolver e transmitir aquilo que aprende .</s> </p>
<p par=3> <s> O corpo humano é constituído por vários órgãos que , em conjunto , formam o que denominamos organismo .</s> <s> O organismo humano apresenta uma integração entre a forma e a função de seus órgãos , ambas interligadas com a parte emocional .</s> <s> Essa integração e interligação diferem de indivíduo para indivíduo , mesmo que pertençam a uma mesma família .</s> <s> Por exemplo , uma criança cresce ou engorda mais que sua irmã , tem gostos diferentes , reações alérgicas a determinadas substâncias etc .</s> <s> No entanto , características como a cor dos cabelos e dos olhos , o formato do nariz e da boca são próprias de cada indivíduo , que as herda de seus pais e transmite-as a seus filhos .</s></p>
...

Dados quantitativos

Corpo SAOCARLOS Número de formasNúmero de tipos
Unidades 42914896420723
Total de palavras 32461799399763
Palavras em minúscula 22979887157037
Palavras com inicial maiúscula4793842129622
Palavras todas em maiúsculas 30713010458
Números 5475473384
Palavras com números445734818
Palavras mistas904545318
Pontuação245680620885

Número de unidades estruturais

Atributo Número
mwe 502759
p 825922
s 1977211
texto 349622
subtitulo 3767
assinatura 13
artigo 0
caixa 20722
situacao 5031
t 161179
a 80375
li 62279

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 323412 3540365
Locuções 502759 1065298
Palavras gráficas 32461799 32461799
Palavras simples 27856136 27856136
Palavras 28682307 32461799

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 7113650 25,54%
Verbos V.* 4298530 15,43%
Adjectivos ADJ.* 1842594 6,61%
Pronomes pessoais .*PERS.* 469797 1,69%
Preposições PRP.* 5298623 19,02%
Conjunções K.* 1264416 4,54%
Advérbios ADV.* 1455573 5,23%
Determinantes .*DET.* 5520746 19,82%
Especificadores .*SPEC.* 409265 1,47%
Numerais NUM.* 949774 3,41%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões