Acesso a corpos de português: Projecto AC/DC: corpo ENPCPUB (parte em português)

ENPCPUB (parte em português) : AC/DC : Linguateca
O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
CódigoAutorObraEditoraAnoTradutor(a)Título original
JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

Estrutura do corpo

Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

Versão do corpo

Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado a 14 de maio de 2014, v. 7.7

Excerto do corpo


<texto Ah1tp-4.txt>
<parte 1>
Prólogo : 1985
<p par=1>
<s frase=1>
No 747 , na primeira classe e meia hora depois da partida de Londres, o Dr. Andrew Jordan pegou a mão da mulher.
</s>
</p>
<p par=2>
<s frase=2>
-- Não se preocupe -- recomendeu ele .
</s>

Dados quantitativos

Corpo ENPCPUB Número de formasNúmero de tipos
Unidades 9316412895
Total de palavras 7237412874
Palavras em minúscula 5762110250
Palavras com inicial maiúscula70771689
Palavras todas em maiúsculas 4119
Números 13778
Palavras com números11
Palavras mistas1613
Pontuação536321

Número de unidades estruturais

Atributo Número
p 1682
s 4369
texto 5
parte 8
capitulo 25
mwe 1639

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 2542 3305
Locuções 1639 3567
Palavras gráficas 72374 72374
Palavras simples 65502 65502
Palavras 69683 72374

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 13273 20,26%
Verbos V.* 12774 19,50%
Adjectivos ADJ.* 3853 5,88%
Pronomes pessoais .*PERS.* 3101 4,73%
Preposições PRP.* 10737 16,39%
Conjunções K.* 3963 6,05%
Advérbios ADV.* 5434 8,30%
Determinantes .*DET.* 12183 18,60%
Especificadores .*SPEC.* 1562 2,38%
Numerais NUM.* 775 1,18%

Para informação sobre como foram obtidos este valores, consulte esta página

[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]


Última actualização: 14 de Julho de 2014
Perguntas, comentários e sugestões