Corpus del catalán medieval (OLDCA)

Descripción del corpus

Este corpus diacrónico del catalán, desarrollado por el grupo de investigación GLIF de la Universitat Pompeu Fabra, comprende 222 textos desde el siglo XI hasta el XVII, que suman un total de 5.020.237 palabras. La selección de los textos se ha hecho con criterios de representatividad en cuanto al género, fecha y origen geográfico.

Etiquetado del corpus

El corpus ha sido etiquetado con un analizador lingüístico ya existente, Freeling (http://nlp.lsi.upc.edu/freeling/). Esta herramienta está pensada para el catalán contemporáneo, y ha sido necesario ampliarla para que pudiera gestionar la variabilidad léxica y ortográfica de un corpus diacrónico. Para ello se ha aprovechado la técnica desarrollada por Cristina Sánchez-Marco para habilitar la versión de Freeling para el español contemporáneo a un corpus diacrónico. Aquí se explica cómo se llevó a cabo ese proceso.

Freeling utiliza el etiquetario Parole, desarrollado por el grupo EAGLES como una herramienta común para el tratamiento informatizado de las distintas lenguas europeas (http://www.lsi.upc.edu/~nlp/tools/parole-sp.html). Sin embargo, en algunos aspectos las etiquetas utilizadas en este corpus difieren de las originales del Parole. Se han introducido algunos cambios por dos motivos principales: por un lado, para adaptar el etiquetario a las diferentes fases de la evolución del catalán; y, por el otro, se han implementado nuevas etiquetas ara que el resultado del análisis pueda funcionar como input adecuado a un analizador sintáctico, cuyo desarrollo es el siguiente paso de este proyecto. Aquí se puede consultar la lista de las etiquetas utilizadas en este corpus. Si se encuentra ya familiarizado con el sistema Parole, consulte la lista para ver los cambios que se han introducido.

Consultar el corpus

El corpus puede ser consultado a través del Corpus Query Processor (CQP), tanto en su versión para línea de comandos como en su versión con interfaz gráfica CQPweb. En cualquiera de los dos casos, CQP permite llevar a cabo búsquedas por patrones complejos utilizando atributos posicionales, relacionados con un solo ítem (palabra, lema, etiqueta), o bien atributos estructurales, relacionados con frases (longitud, posición en en el texto...) o textos (fecha, título, autor, género...). Los atributos disponibles se pueden consultar aquí. Estos atributos se pueden utilizar para refinar las búsquedas a través de la opción 'Restricted Query', en vez de 'Standard Query', en la interfaz del CQPweb. En el actual estado de desarrollo, la interfaz CQPweb permite restringuir automáticamente la búsqueda por siglo, medio siglo, y longitud de frase.

CQPweb permite utilitzar la sintaxis CQP, como se haría en una terminal, o en un lenguaje simplificado llamado 'Simple Query'. El manual de CQP, con la descripción de su sintaxis, se puede encontrar aquí; una breve guía para realizar búsquedas utilizando 'Simple Query' se encuentra aquí. Si usted desea acceder al corpus, por favor pida la información necesaria a través de este formulario.

Etiquetas

1. Adjetivos

Posición Atributo Valor Código
1 Categoría Adjetivo A
2 Tipo Calificativo Q
Ordinal O
Posesivo X
3 Grado - 0
Apreciativo A
4 Género Masculino M
Femenino F
Común C
5 Número Singular S
Plural P
Invariable N
6 Persona - 0
Primera 1
Segunda 2
Tercera 3
7 Poseedor - 0
Singular 3
Plural P

Los adjetivos calificativos y ordinales están etiquetados siguiendo el sistema Parole. Hay, sin embargo, una nueva categoría: adjectiu possessiu (AX). Ésta incluye las palabras etiquetadas como pronombres posesivos en el Parole original. Los motivos para ello son básicamente distribucionales: Freeling etiqueta secuencias muy frecuentes como ‘la meva’, con una categoría nominal nula, como determinante + pronombre; sin embargo, estas combinaciones deben en principio ser evitadas en la lengua (*el les, *el tu), y un analizador sintáctico debería ser capaz de reconocer la agramaticalidad de una secuencia así. Como distribucionalmente estos elementos (meva, teva, nostra...) se comportan como adjetivos (e incluso podría aducirse que, semánticamente, lo son), hemos tomado la decisión de etiquetarlos como adjetivos posesivos.

Otro cambio que debe ser tenido en cuenta respecto a los elementos con morfología de participio (-at/ada/ats/ades) es que todos ellos forman ahora una nueva categoría separada (T; ver abajo).

 

2. Adverbios

Posición Atributo valor Código
1 Categoría Adverbio R
2 Tipo General G
Negativo N

No hay cambios respecto al etiquetario Parole original.

 

3. Determinantes

Posición Atributo Valor Código
1 Categoría Determinante D
2 Tipo Demostrativo D
Posesivo P
Interrogativo T
Exclamativo E
Indefinido I
Artículo A
Relativo R
Numeral N
3 Persona Primera 1
Segunda 2
Tercera 3
4 Género Masculino M
Femenino F
Común C
Neutro N
5 Número Singular S
Plural P
Invariable N
6 Poseedor Singular S
Plural P

Hemos presentado arriba la categoría adjectiu possessiu (AX). Esta categoria no ha reemplazado del todo la categoría determinant possessiu. Los casos que no van precedidos de artículo y además van seguidos de nombre continúan siendo etiquetados como determinant possessiu (ma, ton, sa, nostre…).

 

4. Cuantificadores

Posición Atributo Valor Código
1 Categoría Cuantificador Q
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
Invariable N

Esta categoría no existía en el Parole original. Incluye, como lemas, molt, tot i cada. A pesar de sus diferencias, estos tres elementos tienen rasgos en común:

  • Pueden legitimar un sintagma nominal: cada nen, tot nen, molts nens.
  • Algunos pueden combinarse con un determinante: tots els nens, els molts nens.
  • Algunos pueden comportarse como adjetivos predicativos o adverbios: són molts, m’agrada molt..
  • Son muy frecuentes.
  • Tanto la gramática tradicional como el etiquetario Parole tienen problemas para tratarlos, y deben recurrir a asignarles múltiples categorías gramaticales (D, P, A, Adv...).

La etiqueta Q está pensada para darles un tratamiento unificado y para generar un input adecuado para el analizador sintáctico. Hay que tener un cuenta que todas las ocurrencias de tot, cada y mold son analizadas como cuantificadores. Sin embargo, la definición exacta de esta categoría y la extensión de la etiqueta Q a otros elementos similares se irá definiendo en la siguiente fase del proyecto.

 

5. Nombres

Posición Atributo Valor Código
1 Categoría Nombre N
2 Tipo Común C
Propio P
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
Invariable N
5-6 Clasificación semántica Ser-Persona SP
Organización O0
Lugar G0
7 Grado Apreciativo A

Aquí se muestra el etiquetario Parole original. En el momento actual, los valores de classificació semántica y grauau no están todavía implementados. Los nombres propios, en este momento, reciben todos la etiqueta NP00000.

 

6. Verbos

Posición Atributo Valor Código
1 Categoría Verbo V
2 Tipo Principal M
Auxiliar A
Semiauxiliar S
3 Modo Indicativo I
Subjuntivo S
Imperativo M
Infinitivo N
Gerundio G
   
4 Tiempo Presente P
Imperfecto I
Futuro F
Pasado S
Condicional C
- 0
5 Persona Primera 1
Segunda 2
Tercera 3
6 Número Singular S
Plural P
7 Género Masculino M
Femenino F
  Verbos principales
Tiempos Forma Lema Etiqueta
Presente de Indicativo canto cantar VMIP1S0
cantes cantar VMIP2S0
canta cantar VMIP3S0
cantem cantar VMIP1P0
canteu cantar VMIP2P0
canten cantar VMIP3P0
Pretérito Imperfecto cantava cantar VMII1S0
cantaves cantar VMII2S0
cantava cantar VMII3S0
cantàvem cantar VMII1P0
cantàveu cantar VMII2P0
cantaven cantar VMII3P0
Pretérito Perfecto cantí cantar VMIS1S0
cantares cantar VMIS2S0
cantà cantar VMIS3S0
cantàrem cantar VMIS1P0
cantàreu cantar VMIS2P0
cantaren cantar VMIS3P0
Futuro de Indicativo cantaré cantar VMIF1S0
cantaràs cantar VMIF2S0
cantarà cantar VMIF3S0
cantarem cantar VMIF1P0
cantareu cantar VMIF2P0
cantaran cantar VMIF3P0
Condicional cantaria cantar VMIC1S0
cantaries cantar VMIC2S0
cantaria cantar VMIC3S0
cantaríem cantar VMIC1P0
cantaríeu cantar VMIC2P0
cantarien cantar VMIC3P0
Presente de Subjuntivo canti cantar VMSP1S0
cantis cantar VMSP2S0
canti cantar VMSP3S0
cantem cantar VMSP1P0
canteu cantar VMSP2P0
cantin cantar VMSP3P0
Pretérito Imperfecto cantés cantar VMSI1S0
cantessis cantar VMSI2S0
cantés cantar VMSI3S0
cantéssim cantar VMSI1P0
cantéssiu cantar VMSI2P0
cantessin cantar VMSI3P0
Gerundio cantant cantar VMG0000
Imperativo canta cantar VMM02S0
canti cantar VMM03S0
cantem cantar VMM01P0
canteu cantar VMM02P0
cantin cantar VMM03P0
Infinitivo cantar cantar VMN0000

 
Verbo semiauxiliar

Forma Lema Etiqueta
sóc ser VSIP1S0
ets ser VSIP2S0
és ser VSIP3S0
som ser VSIP1P0
sou ser VSIP2P0
són ser VSIP3P0
era ser VSII1S0
eres ser VSII2S0
era ser VSII3S0
érem ser VSII1P0
éreu ser VSII2P0
eren ser VSII3P0
fui ser VSIS1S0
fores ser VSIS2S0
fou ser VSIS3S0
fórem ser VSIS1P0
fóreu ser VSIS2P0
foren ser VSIS3P0
seré ser VSIF1S0
seràs ser VSIF2S0
serà ser VSIF3S0
serem ser VSIF1P0
sereu ser VSIF2P0
seran ser VSIF3P0
seria ser VSIC1S0
series ser VSIC2S0
seria ser VSIC3S0
seríem ser VSIC1P0
seríeu ser VSIC2P0
serien ser VSIC3P0
sigui ser VSSP1S0
siguis ser VSSP2S0
sigui ser VSSP3S0
siguem ser VSSP1P0
sigueu ser VSSP2P0
siguin ser VSSP3P0
fos ser VSSI1S0
fossis ser VSSI2S0
fos ser VSSI3S0
fóssim ser VSSI1P0
fóssiu ser VSSI2P0
fossin ser VSSI3P0
essent ser VSG0000
sigues ser VSM02S0
sigui ser VSM03S0
siguem ser VSM01P0
sigueu ser VSM02P0
siguin ser VSM03P0
ser ser VSN0000

El etiquetado de los verbos sigue los criterios del Parole, excepto en un punto importante: el tratamiento de los participios pasados, que han sido trasladados a una nueva categoría, T (ver abajo).

 

7. Participios

Posición Atributo Valor Código
1 Categoría Participio T
2 Tipo Principal M
Auxiliar A
Semiauxiliar S
3 Género Masculino M
Femenino F
Común C
4 Número Singular S
Plural P
Invariable N

 

Ejemplos:

Forma Lema Etiqueta
cantada cantar TPSF
estat ser TPSM
cantat cantar TPSM
cantades cantar TPPF
cantats cantar TPPM

Como se ha dicho arriba, todos los elementos con morfología participial, originalmente incluidos en las categorías adjetivos y verbos en el Parole, se han reunido dentro de esta nueva categoría. La razón de este cambio es que nuestro etiquetario debe ser capaz de cubrir los primeros estadios de una lengua romántica, el catalán, en los que no siempre es fácil averiguar si un elemento con la morfología -at/ada/ats/ades se comporta como un verbo o como un adjetivo. Hemos decidido unificar su tratamiento, de modo que hay que tener en cuenta que todos los usos de estos elementos (incluso cuando su función es claramente verbal o adjetival según el criterio tradicional) quedan etiquetados como T.

 

8. Pronombres

Posición Atributo Valor Código
1 Categoría Pronombre P
2 Tipo Personal P
Demostrativo D
Posesivo X
Indefinido I
Interrogativo T
Relativo R
Numeral N
Exclamativo E
3 Persona Primera 1
Segunda 2
Tercera 3
4 Género Masculino M
Femenino F
Común C
Neutro N
5 Número Singular S
Plural P
Invariable N
6 Caso Nominativo N
Acusativo A
Dativo D
Oblicuo O
7 Poseedor Singular S
Plural P
8 Politeness (cortesía) Polite (cortés) P

En esta categoría se ha introducido un cambio muy significativo en comparación con el etiquetario Parole original: la categoría pronoms personals se haa dividido en pronoms personals (normalmente llamados pronoms forts) y clíticos (o pronoms febles).. Los clíticos forman ahora una categoría separada (L). La tabla siguiente muestra la nueva distribución (con los lemas entre paréntesis). Téngase en cuenta que aquí no están representados todos los elementos que conforman las dos categorías.

Pronombres personales (PP) Clíticos (L)
Jo (jo)
mi (jo)
nosaltres (jo)
nós (jo)
tu (tu)
vostè (tu)
vostès (tu)
vós (tu)
vosaltres (tu)
ella (ell)
ell (ell)
ells (ell)
elles (ell)
Em (em)
et (et)
el (el)
la (el)
l' (el)
li (li)
es (es)
ens (em)
us (et)
els (els)
les (el)
ho (ho)
hi (hi)
en (en)

 

9. Clíticos

Posición Atributo Valor Código
1 Categoría Clítico L
2 Persona Primera 1
Segunda 2
Tercera 3
3 Género Masculino M
Femenino F
Común C
Neutro N
4 Número Singular M
Plural F
Neutro N
5 Caso - 0
Acusativo A
Dativo D

 

Ejemplos:

Forma Lema Etiqueta
m’ em L1CS0
la el L3FSA
els els L3CP0
ho ho L3NN0
hi hi L3CN0
se es L3CN0

Todos los clíticos (pronombres átonos) quedan ubicados dentro de esta nueva categoría L, que no existía en el Parole original. Los clíticos pueden ser un objeto de estudio importante en la investigación en diacronía. En el sistema Parole no se distinguen claramente del resto de pronombres personales, y la longitud de las etiquetas resultantes hace que trabajar con ellas sea a veces poco ágil. Para simplificarlo, hemos creado esta nueva categoría, aunque ello conlleve que unos cuantos elementos que son pronombres queden fuera de la categoría llamada ‘pronombres’. Los lemas son siempre la versión masculina singular de cada clítico. Hay una excepción: els, quee puede ser dativo (li en singular) o acusativo (el en singular), tiene els como lema.

 

10. Conjunciones

Posición Atributo Valor Código
1 Categoría Conjunción C
2 Tipo Coordinada C
Subordinada S

No hay cambios respecto al etiquetario Parole original.

 

11. Interjecciones

Posición Atributo Valor Código
1 Categoría Interjección I

No hay cambios respecto al etiquetario Parole original.

 

12. Preposiciones

Posición Atributo Valor Código
1 Categoría Adposición S
2 Tipo Preposición P
3 Forma Simple S
Compuesta C
3 Género Masculino 0
2 Tipo Preposición 0
4 Número Singular 0
Plural 0

No hay cambios respecto al etiquetario Parole original.

 

13. Signos de puntuación

Posición Atributo Valor Código
1 Categoría Puntuación F

No hay cambios respecto al etiquetario Parole original.

 

14. Cifras

Posición Atributo Valor Código
1 Categoría Cifra Z
2 Tipo Moneda m

No hay cambios respecto al etiquetario Parole original.