Descripción del corpus
Este corpus diacrónico del catalán, desarrollado por el grupo de investigación GLIF de la Universitat Pompeu Fabra, comprende 222 textos desde el siglo XI hasta el XVII, que suman un total de 5.020.237 palabras. La selección de los textos se ha hecho con criterios de representatividad en cuanto al género, fecha y origen geográfico.
Etiquetado del corpus
El corpus ha sido etiquetado con un analizador lingüístico ya existente, Freeling (http://nlp.lsi.upc.edu/freeling/). Esta herramienta está pensada para el catalán contemporáneo, y ha sido necesario ampliarla para que pudiera gestionar la variabilidad léxica y ortográfica de un corpus diacrónico. Para ello se ha aprovechado la técnica desarrollada por Cristina Sánchez-Marco para habilitar la versión de Freeling para el español contemporáneo a un corpus diacrónico. Aquí se explica cómo se llevó a cabo ese proceso.
Freeling utiliza el etiquetario Parole, desarrollado por el grupo EAGLES como una herramienta común para el tratamiento informatizado de las distintas lenguas europeas (http://www.lsi.upc.edu/~nlp/tools/parole-sp.html). Sin embargo, en algunos aspectos las etiquetas utilizadas en este corpus difieren de las originales del Parole. Se han introducido algunos cambios por dos motivos principales: por un lado, para adaptar el etiquetario a las diferentes fases de la evolución del catalán; y, por el otro, se han implementado nuevas etiquetas ara que el resultado del análisis pueda funcionar como input adecuado a un analizador sintáctico, cuyo desarrollo es el siguiente paso de este proyecto. Aquí se puede consultar la lista de las etiquetas utilizadas en este corpus. Si se encuentra ya familiarizado con el sistema Parole, consulte la lista para ver los cambios que se han introducido.
Consultar el corpus
El corpus puede ser consultado a través del Corpus Query Processor (CQP), tanto en su versión para línea de comandos como en su versión con interfaz gráfica CQPweb. En cualquiera de los dos casos, CQP permite llevar a cabo búsquedas por patrones complejos utilizando atributos posicionales, relacionados con un solo ítem (palabra, lema, etiqueta), o bien atributos estructurales, relacionados con frases (longitud, posición en en el texto...) o textos (fecha, título, autor, género...). Los atributos disponibles se pueden consultar aquí. Estos atributos se pueden utilizar para refinar las búsquedas a través de la opción 'Restricted Query', en vez de 'Standard Query', en la interfaz del CQPweb. En el actual estado de desarrollo, la interfaz CQPweb permite restringuir automáticamente la búsqueda por siglo, medio siglo, y longitud de frase.
CQPweb permite utilitzar la sintaxis CQP, como se haría en una terminal, o en un lenguaje simplificado llamado 'Simple Query'. El manual de CQP, con la descripción de su sintaxis, se puede encontrar aquí; una breve guía para realizar búsquedas utilizando 'Simple Query' se encuentra aquí. Si usted desea acceder al corpus, por favor pida la información necesaria a través de este formulario.
Etiquetas
1. Adjetivos
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Adjetivo | A |
2 | Tipo | Calificativo | Q |
Ordinal | O | ||
Posesivo | X | ||
3 | Grado | - | 0 |
Apreciativo | A | ||
4 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
5 | Número | Singular | S |
Plural | P | ||
Invariable | N | ||
6 | Persona | - | 0 |
Primera | 1 | ||
Segunda | 2 | ||
Tercera | 3 | ||
7 | Poseedor | - | 0 |
Singular | 3 | ||
Plural | P |
Los adjetivos calificativos y ordinales están etiquetados siguiendo el sistema Parole. Hay, sin embargo, una nueva categoría: adjectiu possessiu (AX). Ésta incluye las palabras etiquetadas como pronombres posesivos en el Parole original. Los motivos para ello son básicamente distribucionales: Freeling etiqueta secuencias muy frecuentes como ‘la meva’, con una categoría nominal nula, como determinante + pronombre; sin embargo, estas combinaciones deben en principio ser evitadas en la lengua (*el les, *el tu), y un analizador sintáctico debería ser capaz de reconocer la agramaticalidad de una secuencia así. Como distribucionalmente estos elementos (meva, teva, nostra...) se comportan como adjetivos (e incluso podría aducirse que, semánticamente, lo son), hemos tomado la decisión de etiquetarlos como adjetivos posesivos.
Otro cambio que debe ser tenido en cuenta respecto a los elementos con morfología de participio (-at/ada/ats/ades) es que todos ellos forman ahora una nueva categoría separada (T; ver abajo).
2. Adverbios
Posición | Atributo | valor | Código |
---|---|---|---|
1 | Categoría | Adverbio | R |
2 | Tipo | General | G |
Negativo | N |
No hay cambios respecto al etiquetario Parole original.
3. Determinantes
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Determinante | D |
2 | Tipo | Demostrativo | D |
Posesivo | P | ||
Interrogativo | T | ||
Exclamativo | E | ||
Indefinido | I | ||
Artículo | A | ||
Relativo | R | ||
Numeral | N | ||
3 | Persona | Primera | 1 |
Segunda | 2 | ||
Tercera | 3 | ||
4 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
Neutro | N | ||
5 | Número | Singular | S |
Plural | P | ||
Invariable | N | ||
6 | Poseedor | Singular | S |
Plural | P |
Hemos presentado arriba la categoría adjectiu possessiu (AX). Esta categoria no ha reemplazado del todo la categoría determinant possessiu. Los casos que no van precedidos de artículo y además van seguidos de nombre continúan siendo etiquetados como determinant possessiu (ma, ton, sa, nostre…).
4. Cuantificadores
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Cuantificador | Q |
3 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
4 | Número | Singular | S |
Plural | P | ||
Invariable | N |
Esta categoría no existía en el Parole original. Incluye, como lemas, molt, tot i cada. A pesar de sus diferencias, estos tres elementos tienen rasgos en común:
- Pueden legitimar un sintagma nominal: cada nen, tot nen, molts nens.
- Algunos pueden combinarse con un determinante: tots els nens, els molts nens.
- Algunos pueden comportarse como adjetivos predicativos o adverbios: són molts, m’agrada molt..
- Son muy frecuentes.
- Tanto la gramática tradicional como el etiquetario Parole tienen problemas para tratarlos, y deben recurrir a asignarles múltiples categorías gramaticales (D, P, A, Adv...).
La etiqueta Q está pensada para darles un tratamiento unificado y para generar un input adecuado para el analizador sintáctico. Hay que tener un cuenta que todas las ocurrencias de tot, cada y mold son analizadas como cuantificadores. Sin embargo, la definición exacta de esta categoría y la extensión de la etiqueta Q a otros elementos similares se irá definiendo en la siguiente fase del proyecto.
5. Nombres
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Nombre | N |
2 | Tipo | Común | C |
Propio | P | ||
3 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
4 | Número | Singular | S |
Plural | P | ||
Invariable | N | ||
5-6 | Clasificación semántica | Ser-Persona | SP |
Organización | O0 | ||
Lugar | G0 | ||
7 | Grado | Apreciativo | A |
Aquí se muestra el etiquetario Parole original. En el momento actual, los valores de classificació semántica y grauau no están todavía implementados. Los nombres propios, en este momento, reciben todos la etiqueta NP00000.
6. Verbos
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Verbo | V |
2 | Tipo | Principal | M |
Auxiliar | A | ||
Semiauxiliar | S | ||
3 | Modo | Indicativo | I |
Subjuntivo | S | ||
Imperativo | M | ||
Infinitivo | N | ||
Gerundio | G | ||
4 | Tiempo | Presente | P |
Imperfecto | I | ||
Futuro | F | ||
Pasado | S | ||
Condicional | C | ||
- | 0 | ||
5 | Persona | Primera | 1 |
Segunda | 2 | ||
Tercera | 3 | ||
6 | Número | Singular | S |
Plural | P | ||
7 | Género | Masculino | M |
Femenino | F |
|
|
El etiquetado de los verbos sigue los criterios del Parole, excepto en un punto importante: el tratamiento de los participios pasados, que han sido trasladados a una nueva categoría, T (ver abajo).
7. Participios
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Participio | T |
2 | Tipo | Principal | M |
Auxiliar | A | ||
Semiauxiliar | S | ||
3 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
4 | Número | Singular | S |
Plural | P | ||
Invariable | N |
Ejemplos:
Forma | Lema | Etiqueta |
---|---|---|
cantada | cantar | TPSF |
estat | ser | TPSM |
cantat | cantar | TPSM |
cantades | cantar | TPPF |
cantats | cantar | TPPM |
Como se ha dicho arriba, todos los elementos con morfología participial, originalmente incluidos en las categorías adjetivos y verbos en el Parole, se han reunido dentro de esta nueva categoría. La razón de este cambio es que nuestro etiquetario debe ser capaz de cubrir los primeros estadios de una lengua romántica, el catalán, en los que no siempre es fácil averiguar si un elemento con la morfología -at/ada/ats/ades se comporta como un verbo o como un adjetivo. Hemos decidido unificar su tratamiento, de modo que hay que tener en cuenta que todos los usos de estos elementos (incluso cuando su función es claramente verbal o adjetival según el criterio tradicional) quedan etiquetados como T.
8. Pronombres
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Pronombre | P |
2 | Tipo | Personal | P |
Demostrativo | D | ||
Posesivo | X | ||
Indefinido | I | ||
Interrogativo | T | ||
Relativo | R | ||
Numeral | N | ||
Exclamativo | E | ||
3 | Persona | Primera | 1 |
Segunda | 2 | ||
Tercera | 3 | ||
4 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
Neutro | N | ||
5 | Número | Singular | S |
Plural | P | ||
Invariable | N | ||
6 | Caso | Nominativo | N |
Acusativo | A | ||
Dativo | D | ||
Oblicuo | O | ||
7 | Poseedor | Singular | S |
Plural | P | ||
8 | Politeness (cortesía) | Polite (cortés) | P |
En esta categoría se ha introducido un cambio muy significativo en comparación con el etiquetario Parole original: la categoría pronoms personals se haa dividido en pronoms personals (normalmente llamados pronoms forts) y clíticos (o pronoms febles).. Los clíticos forman ahora una categoría separada (L). La tabla siguiente muestra la nueva distribución (con los lemas entre paréntesis). Téngase en cuenta que aquí no están representados todos los elementos que conforman las dos categorías.
Pronombres personales (PP) | Clíticos (L) |
---|---|
Jo (jo) mi (jo) nosaltres (jo) nós (jo) tu (tu) vostè (tu) vostès (tu) vós (tu) vosaltres (tu) ella (ell) ell (ell) ells (ell) elles (ell) |
Em (em) et (et) el (el) la (el) l' (el) li (li) es (es) ens (em) us (et) els (els) les (el) ho (ho) hi (hi) en (en) |
9. Clíticos
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Clítico | L |
2 | Persona | Primera | 1 |
Segunda | 2 | ||
Tercera | 3 | ||
3 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
Neutro | N | ||
4 | Número | Singular | M |
Plural | F | ||
Neutro | N | ||
5 | Caso | - | 0 |
Acusativo | A | ||
Dativo | D |
Ejemplos:
Forma | Lema | Etiqueta |
---|---|---|
m’ | em | L1CS0 |
la | el | L3FSA |
els | els | L3CP0 |
ho | ho | L3NN0 |
hi | hi | L3CN0 |
se | es | L3CN0 |
Todos los clíticos (pronombres átonos) quedan ubicados dentro de esta nueva categoría L, que no existía en el Parole original. Los clíticos pueden ser un objeto de estudio importante en la investigación en diacronía. En el sistema Parole no se distinguen claramente del resto de pronombres personales, y la longitud de las etiquetas resultantes hace que trabajar con ellas sea a veces poco ágil. Para simplificarlo, hemos creado esta nueva categoría, aunque ello conlleve que unos cuantos elementos que son pronombres queden fuera de la categoría llamada ‘pronombres’. Los lemas son siempre la versión masculina singular de cada clítico. Hay una excepción: els, quee puede ser dativo (li en singular) o acusativo (el en singular), tiene els como lema.
10. Conjunciones
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Conjunción | C |
2 | Tipo | Coordinada | C |
Subordinada | S |
No hay cambios respecto al etiquetario Parole original.
11. Interjecciones
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Interjección | I |
No hay cambios respecto al etiquetario Parole original.
12. Preposiciones
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Adposición | S |
2 | Tipo | Preposición | P |
3 | Forma | Simple | S |
Compuesta | C | ||
3 | Género | Masculino | 0 |
2 | Tipo | Preposición | 0 |
4 | Número | Singular | 0 |
Plural | 0 |
No hay cambios respecto al etiquetario Parole original.
13. Signos de puntuación
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Puntuación | F |
No hay cambios respecto al etiquetario Parole original.
14. Cifras
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Cifra | Z |
2 | Tipo | Moneda | m |
No hay cambios respecto al etiquetario Parole original.