Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.
Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:
Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.
Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.
Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).
O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.
Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:
| Género | Unidades | Textos |
| Literatura | 368.024 | 151 |
| Informativo | 201.425 | 285 |
| Jornalismo | 88.070 | 536 |
| Oral | 66.565 | 29 |
| Outros | 16.061 | 33 |
| Indef | 16.774 | 81 |
| Assuntos | Unidades | Textos |
| Agricultura | 3458 | 8 |
| Arqueologia | 1669 | 3 |
| Arte | 4193 | 4 |
| Astrologia | 1292 | 1 |
| Biologia | 3660 | 3 |
| Botânica | 6082 | 4 |
| Ciência | 7375 | 9 |
| Clima | 302 | 1 |
| Crónica | 3716 | 11 |
| Culinária | 1316 | 1 |
| Cultura | 5698 | 44 |
| Desporto | 8173 | 39 |
| Direito | 1703 | 4 |
| Ecologia | 326 | 2 |
| Economia | 18360 | 60 |
| Edição | 821 | 1 |
| Educação | 1092 | 1 |
| Entretenimento | 4988 | 31 |
| Escutismo | 422 | 1 |
| Estatística | 1237 | 1 |
| Filatelia | 1109 | 1 |
| Filosofia | 3382 | 3 |
| Física | 627 | 1 |
| Fotografia | 1056 | 2 |
| Generalidades | 5476 | 45 |
| Geografia | 3685 | 6 |
| Geologia | 77 | 1 |
| Gestão | 2300 | 3 |
| Hidrografia | 1276 | 1 |
| História | 35076 | 30 |
| Indef | 482747 | 1 |
| Indústria | 1375 | 3 |
| Internacional | 8098 | 57 |
| Jornalismo | 277 | 536 |
| Linguística | 8066 | 12 |
| Literatura | 8180 | 14 |
| Maternidade | 344 | 1 |
| Medicina | 16837 | 18 |
| Música | 1689 | 3 |
| Oceanografia | 302 | 1 |
| País | 44537 | 206 |
| Política | 19620 | 36 |
| Psicologia | 2388 | 5 |
| Religião | 20977 | 32 |
| Reportagem | 1275 | 3 |
| Saúde | 4460 | 18 |
| Sociedade | 7286 | 58 |
| Sociologia | 10347 | 15 |
| Título | 173 | 12 |
| Turismo | 188 | 1 |
| Zoologia | 2985 | 15 |
Estrutura do corpoA partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. Marcadores estruturais: s, p, ext e marca. Versão do corpoCorpus ECI-EBR, versão texto de Abril de 2002, anotado a 30 de Junho de 2014, criado a 7 de julho de 2014, v. 10.0Excerto do corpo<ext id=1 gen=«literatura»> <p par=1> <s> Foi entre a sopa e a galinha de molho pardo -- especialidade do restaurante Mickey Mouse -- que Sergio falou (voz forte, porém pouco firme, dir-se-ia: trôpega): </s> </p> <p par=2> <s> Sergio não hesitou em se mostrar desarvorado com o protesto . </s> <s> A intervenção de Silvio, porém, foi imediata: </s> </p> (...) </ext> Dados quantitativos
Número de unidades estruturais
Contabilização de multipalavras
Distribuição por categoria gramatical
Para informação sobre como foram obtidos este valores, consulte esta página |
[ Exemplos | Atomização | Anotação | Corpos | Agradecimentos ]