Introducción a la lingüística de corpus en español
eBook - ePub

Introducción a la lingüística de corpus en español

Guillermo Rojo

Compartir libro
  1. 480 páginas
  2. Spanish
  3. ePUB (apto para móviles)
  4. Disponible en iOS y Android
eBook - ePub

Introducción a la lingüística de corpus en español

Guillermo Rojo

Detalles del libro
Vista previa del libro
Índice
Citas

Información del libro

Introducción a la lingüística de corpus en español es la primera obra concebida desde la óptica del español para investigar los corpus textuales existentes en la actualidad. Destinada a conjugar armónicamente la exposición de cuestiones teóricas y metodológicas, proporciona información detallada sobre las tareas necesarias en el diseño, construcción y explotación de un corpus a partir de numerosos ejemplos de obtención de datos sobre diferentes cuestiones léxicas y gramaticales.

Características principales:

• Exposición de cuestiones teóricas y metodológicas combinada con el tratamiento de casos prácticos de extracción y análisis de datos procedentes de corpus textuales de español;

• Análisis de fenómenos léxicos y gramaticales del español desde diferentes perspectivas y con atención a la variabilidad diacrónica, diatópica y diastrática;

• Indicación detallada del modo de obtener los datos necesarios para la investigación en diferentes corpus del español;

• Inclusión de un resumen inicial, actividades de investigación en cada capítulo y lecturas complementarias recomendadas;

• Presentación de un capítulo final con herramientas informáticas útiles para el análisis de textos no incluidos en corpus textuales;

• Recopilación de los principales términos usados en la lingüística de corpus en un glosario bilingüe (español e inglés).

Introducción a la lingüística de corpus en español es una obra con un enfoque marcadamente didáctico, y dirigida fundamentalmente a estudiantes avanzados de grado y posgrado, profesores que necesiten hacer uso de corpus en sus clases, investigadores que precisen un conocimiento más profundo de la lingüística de corpus o expertos en otras disciplinas que deseen familiarizarse con una perspectiva técnica de los fenómenos lingüísticos.

Introducción a la lingüística de corpus en español provides the first complete overview of corpus linguistics in Spanish. Combining the discussion of theoretical and methodological issues, it provides detailed information on the design, construction and use of a corpus, with numerous examples of obtaining data on different lexical and grammatical issues.

This is an ideal resource for undergraduate and graduate students, teachers who need to make use of corpora in their classes, researchers who need a deeper knowledge of corpus linguistics, or experts in other disciplines who wish to become familiar with a technical perspective of linguistic phenomena.

Preguntas frecuentes

¿Cómo cancelo mi suscripción?
Simplemente, dirígete a la sección ajustes de la cuenta y haz clic en «Cancelar suscripción». Así de sencillo. Después de cancelar tu suscripción, esta permanecerá activa el tiempo restante que hayas pagado. Obtén más información aquí.
¿Cómo descargo los libros?
Por el momento, todos nuestros libros ePub adaptables a dispositivos móviles se pueden descargar a través de la aplicación. La mayor parte de nuestros PDF también se puede descargar y ya estamos trabajando para que el resto también sea descargable. Obtén más información aquí.
¿En qué se diferencian los planes de precios?
Ambos planes te permiten acceder por completo a la biblioteca y a todas las funciones de Perlego. Las únicas diferencias son el precio y el período de suscripción: con el plan anual ahorrarás en torno a un 30 % en comparación con 12 meses de un plan mensual.
¿Qué es Perlego?
Somos un servicio de suscripción de libros de texto en línea que te permite acceder a toda una biblioteca en línea por menos de lo que cuesta un libro al mes. Con más de un millón de libros sobre más de 1000 categorías, ¡tenemos todo lo que necesitas! Obtén más información aquí.
¿Perlego ofrece la función de texto a voz?
Busca el símbolo de lectura en voz alta en tu próximo libro para ver si puedes escucharlo. La herramienta de lectura en voz alta lee el texto en voz alta por ti, resaltando el texto a medida que se lee. Puedes pausarla, acelerarla y ralentizarla. Obtén más información aquí.
¿Es Introducción a la lingüística de corpus en español un PDF/ePUB en línea?
Sí, puedes acceder a Introducción a la lingüística de corpus en español de Guillermo Rojo en formato PDF o ePUB, así como a otros libros populares de Languages & Linguistics y Languages. Tenemos más de un millón de libros disponibles en nuestro catálogo para que explores.

Información

Editorial
Routledge
Año
2021
ISBN
9781000364576
Edición
1
Categoría
Languages

Capítulo 1
La explotación básica de los corpus

Resumen

Este capítulo pretende proporcionar una idea general de las grandes áreas y temas de la lingüística en las que el uso de corpus textuales puede ser de utilidad. Este primer análisis ha de ser forzosamente superficial, de modo que muchas de las cuestiones mencionadas aquí son retomadas y analizadas posteriormente con mayor profundidad. La intención básica es la de mostrar, en diferentes áreas, que los corpus constituyen el modo más adecuado de llevar a cabo estudios de carácter empírico (con datos objetivos, replicables y pertinentes con relación al fenómeno estudiado).
Frente a la técnica adoptada en capítulos posteriores, en este no hay descripción de los procedimientos necesarios para obtener los datos expuestos, por lo que, en algunos casos, se remite la descripción que se hace en apartados posteriores.

1.1 ¿Qué es un corpus?

Tratando de sintetizar las numerosas definiciones que se han dado de los corpus textuales, podemos partir de la siguiente: Un corpus es un conjunto de (fragmentos de) textos, orales o escritos, producidos en condiciones naturales, conjuntamente representativos de una lengua o una variedad lingüística, en su totalidad o en alguno(s) de sus componentes, que se almacenan en formato electrónico y se codifican con la intención de que puedan ser analizados científicamente (cf. Rojo 2014a, 371). Veamos con más detalle cada uno de los rasgos utilizados en la definición.
Los textos que integran el corpus deben haber sido producidos en situaciones naturales. Es decir, antes de su inclusión en el corpus, los textos (o fragmentos de textos, cf. Sinclair 1996) fueron creados como una novela, una obra de teatro, una noticia de un periódico, una carta personal, un mensaje de correo electrónico si se trata de textos escritos o bien una conversación en una cafetería, una tertulia radiofónica, una conferencia, un discurso parlamentario o una clase si se trabaja con textos orales. Se trata, pues, de textos generados con intención real de comunicar algo, no concebidos para ilustrar un determinado fenómeno lingüístico, como sucede con los ejemplos creados expresamente para ejemplificar una acepción en un diccionario o un esquema sintáctico en una gramática.
Los textos que componen el corpus deben ser conjuntamente representativos de una lengua o una variedad lingüística en un momento determinado de su historia o bien a lo largo de un cierto período. Como veremos en el apartado 6.4, el concepto de representatividad es bastante complejo, de modo que tenemos que limitarnos aquí a la idea de que el análisis del conjunto de textos integrados en un corpus debe dar una visión adecuada de aquello que pretende representar. Una consecuencia inmediata de lo anterior consiste en que el corpus debe estar equilibrado, esto es, debe contener un número suficiente de textos de los diferentes tipos que integra: textos orales y escritos; de ficción, ensayos, periodísticos, etc.; novelas, obras de teatro, relatos, guiones, etc. en el bloque de los textos de ficción; noticias, reportajes, editoriales, cartas al director, etc. en el bloque de los textos periodísticos; textos mexicanos, argentinos, venezolanos, españoles, etc. en el caso de la lengua española. Naturalmente, no todos los corpus tienen textos de todos los tipos, pero sí deben poseer un volumen adecuado de aquellos sectores incluidos en su ámbito de competencia.
Dado que los corpus con los que trabajamos actualmente están formados por cientos o miles de millones de formas, es evidente que el único modo en que se puede recuperar la información necesaria para su estudio pasa por convertir los textos a formato electrónico (si no lo están ya previamente, como sucede, por ejemplo, con la prensa digital). No hay otro modo de recuperar con rapidez y comodidad los casos de, por ejemplo, una determinada expresión en un corpus de trescientos millones de formas. Así pues, aunque conceptualmente pueda pensarse que el formato electrónico no es un rasgo constitutivo de la definición de los corpus,1 la realidad es que solo pueden ser manejados si poseen este carácter.
El rasgo anterior implica, además, que los textos que forman un corpus deben estar codificados de modo que sea posible lograr la recuperación selectiva de la información. Por poner un ejemplo perteneciente a un terreno distinto al nuestro, si introducimos en un buscador cualquiera Uruguay, nos devolverá las páginas en las que se localiza esa palabra, pero no aquellas que hayan sido creadas en este país o estén alojadas en servidores situados en él. Para lograr esto último, algunos buscadores habilitan opciones de búsqueda que se basan en las direcciones IP de los servidores que contienen las páginas; es decir, manejan una información que no forma parte del texto, sino que está asociada a él. Es preciso, pues, añadir a la simple versión electrónica de lo que antes fue una noticia periodística, los metadatos que contienen la información acerca del periódico en que fue publicado, el día, la empresa editorial, el país al que pertenece, el nombre del autor, la indicación de que es una noticia y no un editorial, etc.
La inclusión de los metadatos y, en general, la codificación adecuada de todos y cada uno de los textos que componen un corpus hace posible su estudio científico y, más concretamente, la recuperación selectiva de la información que contiene. Para decirlo en muy pocas palabras, podemos consultar un corpus para conocer la frecuencia general de una cierta expresión o un determinado fenómeno lingüístico. Los datos obtenidos serán de interés para conocer cómo se comporta en ese punto la lengua en cuestión. Sin embargo, su mayor relevancia vendrá de la posibilidad de comparar la frecuencia que presenta en una determinada clase de textos frente a la que muestra en otra clase (países diferentes, tipos de texto distintos, escrito frente a oral, etc.). Como es evidente, esta extracción selectiva de datos de diferentes subcorpus solo es posible si esa información, que no forma parte del texto pero está asociada a él, ha sido codificada de modo que pueda ser utilizada por la aplicación de consulta para obtener, en cada caso, la información correspondiente al subcorpus deseado.
Por otro lado, el análisis científico de un corpus incrementa considerablemente sus posibilidades si los textos que lo integran han sido sometidos también a un proceso de anotación lingüística. En efecto, aunque en las definiciones se insiste en la referencia a los textos, la mayoría de los corpus actuales añaden a cada una de las formas que contienen una serie de informaciones referidas a sus características léxicas y gramaticales. Con un ejemplo ilustrativo (cf. 3.6), a la “palabra” ortográfica diciéndomelo debe asociarse la información formalizada que permita saber (a programas informáticos) que esa forma contiene tres elementos gramaticales diferentes, que el primero de ellos es un verbo, está en gerundio y pertenece al paradigma del verbo decir, mientras que los otros dos son pronombres personales, de primera singular y tercera singular, respectivamente, etc. Este complejísimo proceso, que, dado el tamaño de los corpus, tiene que ser realizado de forma totalmente automática, permite hacer consultas en las que no se maneje simplemente la configuración ortográfica de una forma, sino sus características morfosintácticas. De un corpus anotado morfosintácticamente se pueden obtener, en una única consulta, todos los casos de un determinado lema (aunque sea un verbo irregular, como es el caso de decir), los casos de un verbo cualquiera seguido de una preposición cualquiera, los ejemplos de la perífrasis verbal ir a + infinitivo, etc. Como veremos en 3.6, la anotación morfosintáctica es solo el primer paso, absolutamente necesario, para llegar a corpus anotados con informaciones sintácticas, semánticas o pragmáticas y, para referirnos a algunas aplicaciones externas que pueden ser ilustrativas, en la traducción automática. La referencia a los textos que componen un corpus debe, pues, ser complementada con la alusión a las informaciones léxicas, gramaticales y pragmáticas que se asocian a las formas y secuencias de diferentes niveles y tipos que los constituyen.
Para terminar esta presentación sucinta de las características de un corpus textual, es conveniente hacer una alusión a un elemento que está implícito en la definición que estamos analizando, pero que es necesario poner de relieve. Un corpus está formado por textos, pero es mucho más que un simple agregado de textos. La palabra clave en este punto es diseño. En efecto, dado que un corpus se crea para facilitar el estudio de una lengua en general o en alguno de sus componentes, este debe contener textos de los tipos, clases y categorías que sean congruentes con ese objetivo. Si, por ejemplo, se pretende construir un corpus del español periodístico, parece evidente que solo puede contener textos periodísticos. Aceptada esta primera característica, habrá que decidir luego si se piensa en periodismo oral o en periodismo escrito, si debe incluir semanarios, si se pretende abarcar todos los países hispánicos o solo alguno(s) de ellos, cuál es la horquilla temporal con la que se quiere trabajar, etc. Dado que el corpus debe ser representativo y además estar equilibrado, el cruce de todas las características tiene que dar lugar a una configuración general en la que se indique qué porcentaje del total corresponde a cada una de las celdas resultantes. Lo mismo, mutatis mutandis, ...

Índice