Descripción del corpus
Este corpus diacrónico del castellano, desarrollado por Cristina Sánchez-Marco, incluye 674 textos que cubren desde el siglo XII hasta el siglo XX y que suman un total de 44.470.288 palabras. Los textos proceden de repositorios abiertos y de colecciones consultables en distintas bibliotecas universitarias. Se ha procurado que los textos sean rePresenteativos y equilibrados en cuanto a géneros y presencia de material de los distintos siglos cubiertos. Los géneros que se hallan rePresenteados son: poesía, historia, leyes, didáctica, prosa, religión, medicina, cartas, teatro y prensa. El objetivo del proyecto es desarrollar una herramienta que sirva para entender el cambio lingüístico en general y la evolución del castellano peninsular en particular; todos los textos pertenecen, pues, a esa variedad.
Etiquetado del corpus
El corpus ha sido etiquetado con un analizador lingüístico ya existente, Freeling (http://nlp.lsi.upc.edu/freeling/). Esta herramienta está pensada para el castellano contemporáneo, y ha sido necesario ampliarla para que pudiera gestionar la variabilidad léxica y ortográfica de un corpus diacrónico. Aquí se explica cómo se llevó a cabo ese proceso.
Freeling utiliza el etiquetario Parole, desarrollado por el grupo EAGLES como una herramienta común para el tratamiento informatizado de las distintas lenguas europeas (http://www.lsi.upc.edu/~nlp/tools/parole-sp.html). Sin embargo, en algunos aspectos las etiquetas utilizadas en este corpus difieren de las originales del Parole. Se han introducido algunos cambios por dos motivos principales: por un lado, para adaptar el etiquetario a las diferentes fases del castellano; y, por el otro, se han implementado nuevas etiquetas para que el resultado del análisis pueda funcionar como input adecuado para un analizador sintáctico, cuyo desarrollo es el siguiente paso de este proyecto. Aquí se puede consultar la lista de las etiquetas utilizadas en este corpus. Si se encuentra ya familiarizado con el sistema Parole, consulte la lista para ver los cambios que se han introducido.
Consultar el corpus
El corpus puede ser consultado a través del Corpus Query Processor (cqp), tanto en su versión para línea de comandos como en su versión con interfaz gráfica CQPweb. En cualquier caso, CQP permite llevar a cabo búsquedas por patrones complejos utilizando atributos posicionales, relacionados con un solo ítem (palabra, lema, etiqueta), o bien atributos estructurales, relacionados con frases (longitud, posición en en el texto...) o textos (fecha, título, autor, género...). Los atributos disponibles se pueden consultar aquí. Estos atributos se pueden utilizar para refinar las búsquedas a través de la opción 'Restricted Query', en vez de 'Standard Query', en la interfaz del CQPweb. En el actual estado de desarrollo, la interfaz CQPweb permite restringir automáticamente la búsqueda por siglo, género y autor.
CQPweb permite utilitzar la sintaxis cqp, como se haría en una terminal, o en un lenguaje simplificado llamado 'Simple Query'. El manual de cqp, con la descripción de su sintaxis, se puede encontrar aquí, una breve guía para realizar búsquedas utilizando 'Simple Query' se encuentra aquí. Si usted desea acceder al corpus, por favor pida la información necesaria a través de este formulario.
Etiquetario
1. Adjetivos
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Adjetivo | A |
2 | Tipo | Calificativo | Q |
Ordinal | O | ||
Posesivo | X | ||
3 | Grado | - | 0 |
Apreciativo | A | ||
4 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
5 | Número | Singular | S |
Plural | P | ||
Invariable | N | ||
6 | Persona | - | 0 |
Primera | 1 | ||
Segunda | 2 | ||
Tercera | 3 | ||
7 | Poseedor | - | 0 |
Singular | 3 | ||
Plural | P |
Los adjetivos calificativos y ordinales están etiquetados siguiendo el sistema Parole. Hay, sin embargo, una nueva categoría: adjetivo posesivo (AX). Ésta incluye las palabras etiquetadas como Pronombres posesivos en el Parole original. Los motivos para ello son básicamente distribucionales: Freeling etiqueta secuencias muy frecuentes como 'la mía', con una categoría nominal nula, como determinante + Pronombre; sin embargo, estas combinaciones deben en principio ser evitadas en la lengua (*el las, *el tú), y un analizador sintáctico debería ser capaz de reconocer la agramaticalidad de una secuencia así. Como distribucionalmente estos elementos (mío, tuya, nuestra...) se comportan como adjetivos (e incluso podría aducirse que, semánticamente, lo son), hemos tomado la decisión de etiquetarlos como adjetivos posesivos.
Otro cambio que debe ser tenido en cuenta en cuanto a los elementos con morfología de participio (-ado/ada/ados/adas) es que todos ellos forman ahora una nueva categoría separada (T; ver abajo).
2. Adverbios
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Adverbio | R |
2 | Tipo | General | G |
Negativo | N |
No hay cambios respecto al etiquetario Parole original.
3. Determinantes
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Determinante | D |
2 | Tipo | Demostrativo | D |
Posesivo | P | ||
Interrogativo | T | ||
Exclamativo | E | ||
Indefinido | I | ||
Artículo | A | ||
Relativo | R | ||
Numeral | N | ||
3 | Persona | Primera | 1 |
Segunda | 2 | ||
Tercera | 3 | ||
4 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
Neutro | N | ||
5 | Número | Singular | S |
Plural | P | ||
Invariable | N | ||
6 | Poseedor | Singular | S |
Plural | P |
No hay cambios respecto al etiquetario Parole original.
4. Cuantificadores
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Cuantificador | Q |
3 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
4 | Número | Singular | S |
Plural | P | ||
Invariable | N |
Esta categoría no existía en el Parole original. Incluye, como lemas, mucho, todo y cada. A pesar de sus diferencias, estos tres elementos tienen rasgos en común:
- Pueden legitimar un sinEtiquetama nominal: cada niño, todo niño, muchos niñosos.
- Algunos pueden combinarse con un determinante: todos los niños, los muchos niñosos.
- Algunos pueden comportarse como adjetivos predicativos o Adverbios: son muchos, me gusta mucho.
- Son muy frecuentes.
- Tanto la gramática tradicional como el etiquetario Parole tienen problemas para tratarlos, y deben recurrir a asignarles múltiples categorías gramaticales (D, P, A, Adv...).
La etiqueta Q está pensada para darles un tratamiento unificado y para generar un input adecuado para el analizador sintáctico. Hay que tener un cuenta que todas las ocurrencias de todo, cada y mucho son analizadas como cuantificadores. Sin embargo, la definición exacta de esta categoría y la extensión de la etiqueta Q a otros elementos similares se irá definiendo en la siguiente fase del proyecto.
5. Nombres
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Nombre | N |
2 | Tipo | Común | C |
Propio | P | ||
3 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
4 | Número | Singular | S |
Plural | P | ||
Invariable | N | ||
5-6 | Clasificación Semántica | Ser-Persona | SP |
Organización | O0 | ||
Lugar | G0 | ||
7 | Grado | Apreciativo | A |
No hay cambios respecto al etiquetario Parole original.
6. Verbos
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Verbo | V |
2 | Tipo | Principal | M |
Auxiliar | A | ||
Semiauxiliar | S | ||
3 | Modo | Indicativo | I |
Subjuntivo | S | ||
Imperativo | M | ||
Infinitivo | N | ||
Gerundio | G | ||
4 | Tiempo | Presente | P |
Imperfecto | I | ||
Futuro | F | ||
Pasado | S | ||
Condicional | C | ||
- | 0 | ||
5 | Persona | Primera | 1 |
Segunda | 2 | ||
Tercera | 3 | ||
6 | Número | Singular | S |
Plural | P | ||
7 | Género | Masculino | M |
Femenino | F |
Ejemplos de paradigmas verbales completos:
|
|
El etiquetado de los verbos sigue los criterios del Parole, excepto en un punto importante: el tratamiento de los participios pasados, que han sido trasladados a una nueva categoría, T (ver abajo).
7. Participios
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Participio | T |
2 | Tipo | Principal | M |
Auxiliar | A | ||
Semiauxiliar | S | ||
3 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
4 | Número | Singular | S |
Plural | P | ||
Invariable | N |
Ejemplos:
Forma | Lema | Etiqueta |
---|---|---|
cantada | cantar | TPSF |
estado | estar | TPSM |
cantado | cantar | TPSM |
cantadas | cantar | TPPF |
cantados | cantar | TPPM |
Como se ha dicho arriba, todos los elementos con morfología participial, originalmente incluidos en las categorías adjetivos y verbos en el Parole, se han reunido dentro de esta nueva categoría. La razón de este cambio es que nuestro etiquetario debe ser capaz de cubrir los primeros estadios de una lengua romántica, el castellano, en los que no siempre es fácil averiguar si un elemento con la morfología -ado/ada/ados/adas se comporta como un verbo o como un adjetivo. Hemos decidido unificar su tratamiento, de modo que hay que tener en cuenta que todos los usos de estos elementos (incluso cuando su función es claramente verbal o adjetival según el criterio tradicional) quedan etiquetados como T.
8. Pronombres
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Pronombre | P |
2 | Tipo | Persona | P |
Demostrativo | D | ||
Posesivo | X | ||
Indefinido | I | ||
Interrogativo | T | ||
Relativo | R | ||
Numeral | N | ||
Exclamativo | E | ||
3 | Persona | Primera | 1 |
Segunda | 2 | ||
Tercera | 3 | ||
4 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
Neutro | N | ||
5 | Número | Singular | S |
Plural | P | ||
Invariable | N | ||
6 | Caso | Nominativo | N |
Acusativo | A | ||
Dativo | D | ||
Oblicuo | O | ||
7 | Poseedor | Singular | S |
Plural | P | ||
8 | Politeness (cortesía) | Polite (cortés) | P |
En esta categoría se ha introducido un cambio muy significativo en comparación con el etiquetario Parole original: la categoría pronombres personales se ha dividido en pronombres personales (normalmente llamados ‘pronombres fuertes’) y clíticoss (o ‘pronombres débiles’). Los clíticos forman ahora una categoría separada (L). La tabla siguiente muestra la nueva distribución. Téngase en cuenta que aquí no están representados todos los elementos que conforman las dos categorías.
Pronombres Personales (PP) | Clíticos (L) |
---|---|
Yo mi nosotros nosotras conmigo ti tú usted ustedes vos vosotras vosotros contigo él ella ellas ello ellos |
me nos te os le las yo lo lo los les se y (arcaico) en (arcaico) |
9. Clíticos
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Clítico | L |
2 | Persona | Primera | 1 |
Segunda | 2 | ||
Tercera | 3 | ||
Neutro | 0 | ||
3 | Género | Masculino | M |
Femenino | F | ||
Común | C | ||
Neutro | N | ||
4 | Número | Singular | S |
Plural | P | ||
Neutro | N | ||
5 | Caso | Acusativo | A |
Dativo | D | ||
Otros (distintas formas de SE, etc.) | O |
Ejemplos:
Forma | Lema | Etiqueta |
---|---|---|
me (me preocupo) | me | L1CSO |
se (... se vino a la corte) | se | L3CNO |
se (...conseio de se defender ...) | se | L0CNO |
lo (lo vio) | lo | L3MSA |
lo (lo siento mucho) | lo | L3CNA |
os (os dio un caballo) | te | L2CPD |
las (las vio) | lo | L3FPA |
Todos los clíticos (pronombres débiles) quedan ubicados dentro de esta nueva categoría L, que no existía en el Parole original. Los clíticos pueden ser un objeto de estudio importante en la investigación en diacronía. En el sistema Parole no se distinguen claramente del resto de pronombres personales, y la longitud de las etiquetas resultantes hace que trabajar con ellas sea a veces engorroso. Para simplificarlo, hemos creado esta nueva categoría, aunque ello conlleve que unos cuantos elementos que son pronombres queden fuera de la categoría ‘pronombres’. Los lemas son siempre la versión masculina singular de cada clítico.
10. Conjunciones
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Conjunción | C |
2 | Tipo | Coordinada | C |
Subordinada | S |
No hay cambios respecto al etiquetario Parole original.
11. Interjecciones
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Interjección | I |
No hay cambios respecto al etiquetario Parole original.
12. Preposiciones
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Adposición | S |
2 | Tipo | Preposición | P |
3 | Forma | Simple | S |
Compuesta | C | ||
3 | Género | Masculino | 0 |
2 | Tipo | Preposición | 0 |
4 | Número | Singular | 0 |
Plural | 0 |
No hay cambios respecto al etiquetario Parole original.
13. Signos de Puntuación
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Signo de Puntuación | F |
No hay cambios respecto al etiquetario Parole original.
14. Cifras
Posición | Atributo | Valor | Código |
---|---|---|---|
1 | Categoría | Cifra | Z |
2 | Tipo | Moneda | m |
No hay cambios respecto al etiquetario Parole original.