Corpus del castellano medieval (OLDES)

Descripción del corpus

Este corpus diacrónico del castellano, desarrollado por Cristina Sánchez-Marco, incluye 674 textos que cubren desde el siglo XII hasta el siglo XX y que suman un total de 44.470.288 palabras. Los textos proceden de repositorios abiertos y de colecciones consultables en distintas bibliotecas universitarias. Se ha procurado que los textos sean rePresenteativos y equilibrados en cuanto a géneros y presencia de material de los distintos siglos cubiertos. Los géneros que se hallan rePresenteados son: poesía, historia, leyes, didáctica, prosa, religión, medicina, cartas, teatro y prensa. El objetivo del proyecto es desarrollar una herramienta que sirva para entender el cambio lingüístico en general y la evolución del castellano peninsular en particular; todos los textos pertenecen, pues, a esa variedad.

Etiquetado del corpus

El corpus ha sido etiquetado con un analizador lingüístico ya existente, Freeling (http://nlp.lsi.upc.edu/freeling/). Esta herramienta está pensada para el castellano contemporáneo, y ha sido necesario ampliarla para que pudiera gestionar la variabilidad léxica y ortográfica de un corpus diacrónico. Aquí se explica cómo se llevó a cabo ese proceso.

Freeling utiliza el etiquetario Parole, desarrollado por el grupo EAGLES como una herramienta común para el tratamiento informatizado de las distintas lenguas europeas (http://www.lsi.upc.edu/~nlp/tools/parole-sp.html). Sin embargo, en algunos aspectos las etiquetas utilizadas en este corpus difieren de las originales del Parole. Se han introducido algunos cambios por dos motivos principales: por un lado, para adaptar el etiquetario a las diferentes fases del castellano; y, por el otro, se han implementado nuevas etiquetas para que el resultado del análisis pueda funcionar como input adecuado para un analizador sintáctico, cuyo desarrollo es el siguiente paso de este proyecto. Aquí se puede consultar la lista de las etiquetas utilizadas en este corpus. Si se encuentra ya familiarizado con el sistema Parole, consulte la lista para ver los cambios que se han introducido.

Consultar el corpus

El corpus puede ser consultado a través del Corpus Query Processor (cqp), tanto en su versión para línea de comandos como en su versión con interfaz gráfica CQPweb. En cualquier caso, CQP permite llevar a cabo búsquedas por patrones complejos utilizando atributos posicionales, relacionados con un solo ítem (palabra, lema, etiqueta), o bien atributos estructurales, relacionados con frases (longitud, posición en en el texto...) o textos (fecha, título, autor, género...). Los atributos disponibles se pueden consultar aquí. Estos atributos se pueden utilizar para refinar las búsquedas a través de la opción 'Restricted Query', en vez de 'Standard Query', en la interfaz del CQPweb. En el actual estado de desarrollo, la interfaz CQPweb permite restringir automáticamente la búsqueda por siglo, género y autor.

CQPweb permite utilitzar la sintaxis cqp, como se haría en una terminal, o en un lenguaje simplificado llamado 'Simple Query'. El manual de cqp, con la descripción de su sintaxis, se puede encontrar aquí, una breve guía para realizar búsquedas utilizando 'Simple Query' se encuentra aquí. Si usted desea acceder al corpus, por favor pida la información necesaria a través de este formulario.

Etiquetario

1. Adjetivos

Posición Atributo Valor Código
1 Categoría Adjetivo A
2 Tipo Calificativo Q
Ordinal O
Posesivo X
3 Grado - 0
Apreciativo A
4 Género Masculino M
Femenino F
Común C
5 Número Singular S
Plural P
Invariable N
6 Persona - 0
Primera 1
Segunda 2
Tercera 3
7 Poseedor - 0
Singular 3
Plural P

Los adjetivos calificativos y ordinales están etiquetados siguiendo el sistema Parole. Hay, sin embargo, una nueva categoría: adjetivo posesivo (AX). Ésta incluye las palabras etiquetadas como Pronombres posesivos en el Parole original. Los motivos para ello son básicamente distribucionales: Freeling etiqueta secuencias muy frecuentes como 'la mía', con una categoría nominal nula, como determinante + Pronombre; sin embargo, estas combinaciones deben en principio ser evitadas en la lengua (*el las, *el tú), y un analizador sintáctico debería ser capaz de reconocer la agramaticalidad de una secuencia así. Como distribucionalmente estos elementos (mío, tuya, nuestra...) se comportan como adjetivos (e incluso podría aducirse que, semánticamente, lo son), hemos tomado la decisión de etiquetarlos como adjetivos posesivos.

Otro cambio que debe ser tenido en cuenta en cuanto a los elementos con morfología de participio (-ado/ada/ados/adas) es que todos ellos forman ahora una nueva categoría separada (T; ver abajo).

 

2. Adverbios

Posición Atributo Valor Código
1 Categoría Adverbio R
2 Tipo General G
Negativo N

No hay cambios respecto al etiquetario Parole original.

 

3. Determinantes

Posición Atributo Valor Código
1 Categoría Determinante D
2 Tipo Demostrativo D
Posesivo P
Interrogativo T
Exclamativo E
Indefinido I
Artículo A
Relativo R
Numeral N
3 Persona Primera 1
Segunda 2
Tercera 3
4 Género Masculino M
Femenino F
Común C
Neutro N
5 Número Singular S
Plural P
Invariable N
6 Poseedor Singular S
Plural P

No hay cambios respecto al etiquetario Parole original.

 

4. Cuantificadores

Posición Atributo Valor Código
1 Categoría Cuantificador Q
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
Invariable N

Esta categoría no existía en el Parole original. Incluye, como lemas, mucho, todo y cada. A pesar de sus diferencias, estos tres elementos tienen rasgos en común:

  • Pueden legitimar un sinEtiquetama nominal: cada niño, todo niño, muchos niñosos.
  • Algunos pueden combinarse con un determinante: todos los niños, los muchos niñosos.
  • Algunos pueden comportarse como adjetivos predicativos o Adverbios: son muchos, me gusta mucho.
  • Son muy frecuentes.
  • Tanto la gramática tradicional como el etiquetario Parole tienen problemas para tratarlos, y deben recurrir a asignarles múltiples categorías gramaticales (D, P, A, Adv...).

La etiqueta Q está pensada para darles un tratamiento unificado y para generar un input adecuado para el analizador sintáctico. Hay que tener un cuenta que todas las ocurrencias de todo, cada y mucho son analizadas como cuantificadores. Sin embargo, la definición exacta de esta categoría y la extensión de la etiqueta Q a otros elementos similares se irá definiendo en la siguiente fase del proyecto.

 

5. Nombres

Posición Atributo Valor Código
1 Categoría Nombre N
2 Tipo Común C
Propio P
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
Invariable N
5-6 Clasificación Semántica Ser-Persona SP
Organización O0
Lugar G0
7 Grado Apreciativo A

No hay cambios respecto al etiquetario Parole original.

 

6. Verbos

Posición Atributo Valor Código
1 Categoría Verbo V
2 Tipo Principal M
Auxiliar A
Semiauxiliar S
3 Modo Indicativo I
Subjuntivo S
Imperativo M
Infinitivo N
Gerundio G
   
4 Tiempo Presente P
Imperfecto I
Futuro F
Pasado S
Condicional C
- 0
5 Persona Primera 1
Segunda 2
Tercera 3
6 Número Singular S
Plural P
7 Género Masculino M
Femenino F

 

Ejemplos de paradigmas verbales completos:

 
Verbos Principales

Tiempo Forma Lema Etiqueta
Presente de Indicativo canto cantar VMIP1S0
cantas cantar VMIP2S0
canta cantar VMIP3S0
cantamos cantar VMIP1P0
cantáis cantar VMIP2P0
cantan cantar VMIP3P0
Pretérito Imperfecto cantaba cantar VMII1S0
cantabas cantar VMII2S0
cantaba cantar VMII3S0
cantábamos cantar VMII1P0
cantabais cantar VMII2P0
cantaban cantar VMII3P0
Pretérito Perfecto Simple canté cantar VMIS1S0
cantaste cantar VMIS2S0
cantó cantar VMIS3S0
cantamos cantar VMIS1P0
cantasteis cantar VMIS2P0
cantaron cantar VMIS3P0
Futuro de Indicativo cantaré cantar VMIF1S0
cantarás cantar VMIF2S0
cantará cantar VMIF3S0
cantaremos cantar VMIF1P0
cantaréis cantar VMIF2P0
cantarán cantar VMIF3P0
Condicional cantaría cantar VMCP1S0
cantarías cantar VMCP2S0
cantaría cantar VMCP3S0
cantaríamos cantar VMCP1P0
cantaríais cantar VMCP2P0
cantarían cantar VMCP3P0
Presente de Subjuntivo cante cantar VMSP1S0
cantes cantar VMSP2S0
cante cantar VMSP3S0
cantemos cantar VMSP1P0
cantéis cantar VMSP2P0
canten cantar VMSP3P0
Pretérito Imperfecto cantara cantar VMSI1S0
cantaras cantar VMSI2S0
cantara cantar VMSI3S0
cantáramos cantar VMSI1P0
cantarais cantar VMSI2P0
cantaran cantar VMSI3P0
cantase cantar VMSI1S0
cantases cantar VMSI2S0
cantase cantar VMSI3S0
cantásemos cantar VMSI1P0
cantaseis cantar VMSI2P0
cantasen cantar VMSI3P0
Futuro de Subjuntivo cantare cantar VMSF1S0
cantares cantar VMSF2S0
cantare cantar VMSF3S0
cantáremos cantar VMSF1P0
cantareis cantar VMSF2P0
cantaren cantar VMSF3P0
Gerundio cantando cantar VMG0000
Imperativo canta cantar VMMP2S0
cante cantar VMMP3S0
cantemos cantar VMMP1P0
cantad cantar VMMP2P0
canten cantar VMMP3P0
Infinitivo cantar cantar VMN0000
Verbos Auxiliares
Forma Lema Etiqueta
soy ser VAIP1S0
eres ser VAIP2S0
es ser VAIP3S0
somos ser VAIP1P0
sois ser VAIP2P0
son ser VAIP3P0
era ser VAII1S0
eras ser VAII2S0
era ser VAII3S0
éramos ser VAII1P0
erais ser VAII2P0
eran ser VAII3P0
fui ser VAIS1S0
fuiste ser VAIS2S0
fue ser VAIS3S0
fuimos ser VAIS1P0
fuisteis ser VAIS2P0
fueron ser VAIS3P0
seré ser VAIF1S0
serás ser VAIF2S0
será ser VAIF3S0
seremos ser VAIF1P0
seréis ser VAIF2P0
serán ser VAIF3P0
sería ser VACP1S0
serías ser VACP2S0
sería ser VACP3S0
seríamos ser VACP1P0
seríais ser VACP2P0
serían ser VACP3P0
sea ser VASP1S0
seas ser VASP2S0
sea ser VASP3S0
seamos ser VASP1P0
seáis ser VASP2P0
sean ser VASP3P0
fuera ser VASI1S0
fueras ser VASI2S0
fuera ser VASI3S0
fuéramos ser VASI1P0
fuerais ser VASI2P0
fueran ser VASI3P0
fuese ser VASI1S0
fueses ser VASI2S0
fuese ser VASI3S0
fuésemos ser VASI1P0
fueseis ser VASI2P0
fuesen ser VASI3P0
fuere ser VASF1S0
fueres ser VASF2S0
fuere ser VASF3S0
fuéremos ser VASF1P0
fuereis ser VASF2P0
fueren ser VASF3P0
siendo ser VAG0000
ser VAMP2S0
sea ser VAMP3S0
seamos ser VAMP1P0
sed ser VAMP2P0
sean ser VAMP3P0
ser ser VAN0000

El etiquetado de los verbos sigue los criterios del Parole, excepto en un punto importante: el tratamiento de los participios pasados, que han sido trasladados a una nueva categoría, T (ver abajo).

 

7. Participios

Posición Atributo Valor Código
1 Categoría Participio T
2 Tipo Principal M
Auxiliar A
Semiauxiliar S
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
Invariable N

 

Ejemplos:

Forma Lema Etiqueta
cantada cantar TPSF
estado estar TPSM
cantado cantar TPSM
cantadas cantar TPPF
cantados cantar TPPM

Como se ha dicho arriba, todos los elementos con morfología participial, originalmente incluidos en las categorías adjetivos y verbos en el Parole, se han reunido dentro de esta nueva categoría. La razón de este cambio es que nuestro etiquetario debe ser capaz de cubrir los primeros estadios de una lengua romántica, el castellano, en los que no siempre es fácil averiguar si un elemento con la morfología -ado/ada/ados/adas se comporta como un verbo o como un adjetivo. Hemos decidido unificar su tratamiento, de modo que hay que tener en cuenta que todos los usos de estos elementos (incluso cuando su función es claramente verbal o adjetival según el criterio tradicional) quedan etiquetados como T.

 

8. Pronombres

Posición Atributo Valor Código
1 Categoría Pronombre P
2 Tipo Persona P
Demostrativo D
Posesivo X
Indefinido I
Interrogativo T
Relativo R
Numeral N
Exclamativo E
3 Persona Primera 1
Segunda 2
Tercera 3
4 Género Masculino M
Femenino F
Común C
Neutro N
5 Número Singular S
Plural P
Invariable N
6 Caso Nominativo N
Acusativo A
Dativo D
Oblicuo O
7 Poseedor Singular S
Plural P
8 Politeness (cortesía) Polite (cortés) P

En esta categoría se ha introducido un cambio muy significativo en comparación con el etiquetario Parole original: la categoría pronombres personales se ha dividido en pronombres personales (normalmente llamados ‘pronombres fuertes’) y clíticoss (o ‘pronombres débiles’). Los clíticos forman ahora una categoría separada (L). La tabla siguiente muestra la nueva distribución. Téngase en cuenta que aquí no están representados todos los elementos que conforman las dos categorías.

Pronombres Personales (PP) Clíticos (L)
Yo
mi
nosotros
nosotras
conmigo
ti

usted
ustedes
vos
vosotras
vosotros
contigo
él
ella
ellas
ello
ellos
me
nos
te
os
le
las
yo
lo
lo
los
les
se
y (arcaico)
en (arcaico)

 

9. Clíticos

Posición Atributo Valor Código
1 Categoría Clítico L
2 Persona Primera 1
Segunda 2
Tercera 3
Neutro 0
3 Género Masculino M
Femenino F
Común C
Neutro N
4 Número Singular S
Plural P
Neutro N
5 Caso Acusativo A
Dativo D
Otros (distintas formas de SE, etc.) O

 

Ejemplos:

Forma Lema Etiqueta
me (me preocupo) me L1CSO
se (... se vino a la corte) se L3CNO
se (...conseio de se defender ...) se L0CNO
lo (lo vio) lo L3MSA
lo (lo siento mucho) lo L3CNA
os (os dio un caballo) te L2CPD
las (las vio) lo L3FPA

Todos los clíticos (pronombres débiles) quedan ubicados dentro de esta nueva categoría L, que no existía en el Parole original. Los clíticos pueden ser un objeto de estudio importante en la investigación en diacronía. En el sistema Parole no se distinguen claramente del resto de pronombres personales, y la longitud de las etiquetas resultantes hace que trabajar con ellas sea a veces engorroso. Para simplificarlo, hemos creado esta nueva categoría, aunque ello conlleve que unos cuantos elementos que son pronombres queden fuera de la categoría ‘pronombres’. Los lemas son siempre la versión masculina singular de cada clítico.

 

10. Conjunciones

Posición Atributo Valor Código
1 Categoría Conjunción C
2 Tipo Coordinada C
Subordinada S

No hay cambios respecto al etiquetario Parole original.

 

11. Interjecciones

Posición Atributo Valor Código
1 Categoría Interjección I

No hay cambios respecto al etiquetario Parole original.

 

12. Preposiciones

Posición Atributo Valor Código
1 Categoría Adposición S
2 Tipo Preposición P
3 Forma Simple S
Compuesta C
3 Género Masculino 0
2 Tipo Preposición 0
4 Número Singular 0
Plural 0

No hay cambios respecto al etiquetario Parole original.

 

13. Signos de Puntuación

Posición Atributo Valor Código
1 Categoría Signo de Puntuación F

No hay cambios respecto al etiquetario Parole original.

 

14. Cifras

Posición Atributo Valor Código
1 Categoría Cifra Z
2 Tipo Moneda m

No hay cambios respecto al etiquetario Parole original.