1.1 ¿Qué es un corpus?
Tratando de sintetizar las numerosas definiciones que se han dado de los corpus textuales, podemos partir de la siguiente: Un corpus es un conjunto de (fragmentos de) textos, orales o escritos, producidos en condiciones naturales, conjuntamente representativos de una lengua o una variedad lingüística, en su totalidad o en alguno(s) de sus componentes, que se almacenan en formato electrónico y se codifican con la intención de que puedan ser analizados científicamente (cf. Rojo 2014a, 371). Veamos con más detalle cada uno de los rasgos utilizados en la definición.
Los textos que integran el corpus deben haber sido producidos en situaciones naturales. Es decir, antes de su inclusión en el corpus, los textos (o fragmentos de textos, cf. Sinclair 1996) fueron creados como una novela, una obra de teatro, una noticia de un periódico, una carta personal, un mensaje de correo electrónico si se trata de textos escritos o bien una conversación en una cafetería, una tertulia radiofónica, una conferencia, un discurso parlamentario o una clase si se trabaja con textos orales. Se trata, pues, de textos generados con intención real de comunicar algo, no concebidos para ilustrar un determinado fenómeno lingüístico, como sucede con los ejemplos creados expresamente para ejemplificar una acepción en un diccionario o un esquema sintáctico en una gramática.
Los textos que componen el corpus deben ser conjuntamente representativos de una lengua o una variedad lingüística en un momento determinado de su historia o bien a lo largo de un cierto período. Como veremos en el apartado 6.4, el concepto de representatividad es bastante complejo, de modo que tenemos que limitarnos aquí a la idea de que el análisis del conjunto de textos integrados en un corpus debe dar una visión adecuada de aquello que pretende representar. Una consecuencia inmediata de lo anterior consiste en que el corpus debe estar equilibrado, esto es, debe contener un número suficiente de textos de los diferentes tipos que integra: textos orales y escritos; de ficción, ensayos, periodísticos, etc.; novelas, obras de teatro, relatos, guiones, etc. en el bloque de los textos de ficción; noticias, reportajes, editoriales, cartas al director, etc. en el bloque de los textos periodísticos; textos mexicanos, argentinos, venezolanos, españoles, etc. en el caso de la lengua española. Naturalmente, no todos los corpus tienen textos de todos los tipos, pero sí deben poseer un volumen adecuado de aquellos sectores incluidos en su ámbito de competencia.
Dado que los corpus con los que trabajamos actualmente están formados por cientos o miles de millones de formas, es evidente que el único modo en que se puede recuperar la información necesaria para su estudio pasa por convertir los textos a formato electrónico (si no lo están ya previamente, como sucede, por ejemplo, con la prensa digital). No hay otro modo de recuperar con rapidez y comodidad los casos de, por ejemplo, una determinada expresión en un corpus de trescientos millones de formas. Así pues, aunque conceptualmente pueda pensarse que el formato electrónico no es un rasgo constitutivo de la definición de los corpus,1 la realidad es que solo pueden ser manejados si poseen este carácter.
El rasgo anterior implica, además, que los textos que forman un corpus deben estar codificados de modo que sea posible lograr la recuperación selectiva de la información. Por poner un ejemplo perteneciente a un terreno distinto al nuestro, si introducimos en un buscador cualquiera Uruguay, nos devolverá las páginas en las que se localiza esa palabra, pero no aquellas que hayan sido creadas en este país o estén alojadas en servidores situados en él. Para lograr esto último, algunos buscadores habilitan opciones de búsqueda que se basan en las direcciones IP de los servidores que contienen las páginas; es decir, manejan una información que no forma parte del texto, sino que está asociada a él. Es preciso, pues, añadir a la simple versión electrónica de lo que antes fue una noticia periodística, los metadatos que contienen la información acerca del periódico en que fue publicado, el día, la empresa editorial, el país al que pertenece, el nombre del autor, la indicación de que es una noticia y no un editorial, etc.
La inclusión de los metadatos y, en general, la codificación adecuada de todos y cada uno de los textos que componen un corpus hace posible su estudio científico y, más concretamente, la recuperación selectiva de la información que contiene. Para decirlo en muy pocas palabras, podemos consultar un corpus para conocer la frecuencia general de una cierta expresión o un determinado fenómeno lingüístico. Los datos obtenidos serán de interés para conocer cómo se comporta en ese punto la lengua en cuestión. Sin embargo, su mayor relevancia vendrá de la posibilidad de comparar la frecuencia que presenta en una determinada clase de textos frente a la que muestra en otra clase (países diferentes, tipos de texto distintos, escrito frente a oral, etc.). Como es evidente, esta extracción selectiva de datos de diferentes subcorpus solo es posible si esa información, que no forma parte del texto pero está asociada a él, ha sido codificada de modo que pueda ser utilizada por la aplicación de consulta para obtener, en cada caso, la información correspondiente al subcorpus deseado.
Por otro lado, el análisis científico de un corpus incrementa considerablemente sus posibilidades si los textos que lo integran han sido sometidos también a un proceso de anotación lingüística. En efecto, aunque en las definiciones se insiste en la referencia a los textos, la mayoría de los corpus actuales añaden a cada una de las formas que contienen una serie de informaciones referidas a sus características léxicas y gramaticales. Con un ejemplo ilustrativo (cf. 3.6), a la “palabra” ortográfica diciéndomelo debe asociarse la información formalizada que permita saber (a programas informáticos) que esa forma contiene tres elementos gramaticales diferentes, que el primero de ellos es un verbo, está en gerundio y pertenece al paradigma del verbo decir, mientras que los otros dos son pronombres personales, de primera singular y tercera singular, respectivamente, etc. Este complejísimo proceso, que, dado el tamaño de los corpus, tiene que ser realizado de forma totalmente automática, permite hacer consultas en las que no se maneje simplemente la configuración ortográfica de una forma, sino sus características morfosintácticas. De un corpus anotado morfosintácticamente se pueden obtener, en una única consulta, todos los casos de un determinado lema (aunque sea un verbo irregular, como es el caso de decir), los casos de un verbo cualquiera seguido de una preposición cualquiera, los ejemplos de la perífrasis verbal ir a + infinitivo, etc. Como veremos en 3.6, la anotación morfosintáctica es solo el primer paso, absolutamente necesario, para llegar a corpus anotados con informaciones sintácticas, semánticas o pragmáticas y, para referirnos a algunas aplicaciones externas que pueden ser ilustrativas, en la traducción automática. La referencia a los textos que componen un corpus debe, pues, ser complementada con la alusión a las informaciones léxicas, gramaticales y pragmáticas que se asocian a las formas y secuencias de diferentes niveles y tipos que los constituyen.
Para terminar esta presentación sucinta de las características de un corpus textual, es conveniente hacer una alusión a un elemento que está implícito en la definición que estamos analizando, pero que es necesario poner de relieve. Un corpus está formado por textos, pero es mucho más que un simple agregado de textos. La palabra clave en este punto es diseño. En efecto, dado que un corpus se crea para facilitar el estudio de una lengua en general o en alguno de sus componentes, este debe contener textos de los tipos, clases y categorías que sean congruentes con ese objetivo. Si, por ejemplo, se pretende construir un corpus del español periodístico, parece evidente que solo puede contener textos periodísticos. Aceptada esta primera característica, habrá que decidir luego si se piensa en periodismo oral o en periodismo escrito, si debe incluir semanarios, si se pretende abarcar todos los países hispánicos o solo alguno(s) de ellos, cuál es la horquilla temporal con la que se quiere trabajar, etc. Dado que el corpus debe ser representativo y además estar equilibrado, el cruce de todas las características tiene que dar lugar a una configuración general en la que se indique qué porcentaje del total corresponde a cada una de las celdas resultantes. Lo mismo, mutatis mutandis, ...