eBook - ePub

Introducción a la lingüística de corpus en español

Name: Introducción a la lingüística de corpus en español
ISBN: 9781000364576

Guillermo Rojo,

480 páginas
Spanish
ePUB (apto para móviles)
Disponible en iOS y Android

eBook - ePub

Introducción a la lingüística de corpus en español

Guillermo Rojo,

Descripción del libro

Introducción a la lingüística de corpus en español es la primera obra concebida desde la óptica del español para investigar los corpus textuales existentes en la actualidad. Destinada a conjugar armónicamente la exposición de cuestiones teóricas y metodológicas, proporciona información detallada sobre las tareas necesarias en el diseño, construcción y explotación de un corpus a partir de numerosos ejemplos de obtención de datos sobre diferentes cuestiones léxicas y gramaticales.

Características principales:

• Exposición de cuestiones teóricas y metodológicas combinada con el tratamiento de casos prácticos de extracción y análisis de datos procedentes de corpus textuales de español;

• Análisis de fenómenos léxicos y gramaticales del español desde diferentes perspectivas y con atención a la variabilidad diacrónica, diatópica y diastrática;

• Indicación detallada del modo de obtener los datos necesarios para la investigación en diferentes corpus del español;

• Inclusión de un resumen inicial, actividades de investigación en cada capítulo y lecturas complementarias recomendadas;

• Presentación de un capítulo final con herramientas informáticas útiles para el análisis de textos no incluidos en corpus textuales;

• Recopilación de los principales términos usados en la lingüística de corpus en un glosario bilingüe (español e inglés).

Introducción a la lingüística de corpus en español es una obra con un enfoque marcadamente didáctico, y dirigida fundamentalmente a estudiantes avanzados de grado y posgrado, profesores que necesiten hacer uso de corpus en sus clases, investigadores que precisen un conocimiento más profundo de la lingüística de corpus o expertos en otras disciplinas que deseen familiarizarse con una perspectiva técnica de los fenómenos lingüísticos.

Introducción a la lingüística de corpus en español provides the first complete overview of corpus linguistics in Spanish. Combining the discussion of theoretical and methodological issues, it provides detailed information on the design, construction and use of a corpus, with numerous examples of obtaining data on different lexical and grammatical issues.

This is an ideal resource for undergraduate and graduate students, teachers who need to make use of corpora in their classes, researchers who need a deeper knowledge of corpus linguistics, or experts in other disciplines who wish to become familiar with a technical perspective of linguistic phenomena.

Cuenta con la confianza de 375,005 estudiantes

Acceso a más de 1 millón de títulos por un precio mensual asequible.

Estudia de forma más eficiente usando nuestras herramientas de estudio.

Editorial

Routledge

Año

2021

ISBN de la versión impresa

9780367635855

ISBN del libro electrónico

9781000364576

Categoría

Languages & Linguistics

Categoría

Languages

Capítulo 1
La explotación básica de los corpus

Resumen

Este capítulo pretende proporcionar una idea general de las grandes áreas y temas de la lingüística en las que el uso de corpus textuales puede ser de utilidad. Este primer análisis ha de ser forzosamente superficial, de modo que muchas de las cuestiones mencionadas aquí son retomadas y analizadas posteriormente con mayor profundidad. La intención básica es la de mostrar, en diferentes áreas, que los corpus constituyen el modo más adecuado de llevar a cabo estudios de carácter empírico (con datos objetivos, replicables y pertinentes con relación al fenómeno estudiado).

Frente a la técnica adoptada en capítulos posteriores, en este no hay descripción de los procedimientos necesarios para obtener los datos expuestos, por lo que, en algunos casos, se remite la descripción que se hace en apartados posteriores.

1.1 ¿Qué es un corpus?

Tratando de sintetizar las numerosas definiciones que se han dado de los corpus textuales, podemos partir de la siguiente: Un corpus es un conjunto de (fragmentos de) textos, orales o escritos, producidos en condiciones naturales, conjuntamente representativos de una lengua o una variedad lingüística, en su totalidad o en alguno(s) de sus componentes, que se almacenan en formato electrónico y se codifican con la intención de que puedan ser analizados científicamente (cf. Rojo 2014a, 371). Veamos con más detalle cada uno de los rasgos utilizados en la definición.

Los textos que integran el corpus deben haber sido producidos en situaciones naturales. Es decir, antes de su inclusión en el corpus, los textos (o fragmentos de textos, cf. Sinclair 1996) fueron creados como una novela, una obra de teatro, una noticia de un periódico, una carta personal, un mensaje de correo electrónico si se trata de textos escritos o bien una conversación en una cafetería, una tertulia radiofónica, una conferencia, un discurso parlamentario o una clase si se trabaja con textos orales. Se trata, pues, de textos generados con intención real de comunicar algo, no concebidos para ilustrar un determinado fenómeno lingüístico, como sucede con los ejemplos creados expresamente para ejemplificar una acepción en un diccionario o un esquema sintáctico en una gramática.

Los textos que componen el corpus deben ser conjuntamente representativos de una lengua o una variedad lingüística en un momento determinado de su historia o bien a lo largo de un cierto período. Como veremos en el apartado 6.4, el concepto de representatividad es bastante complejo, de modo que tenemos que limitarnos aquí a la idea de que el análisis del conjunto de textos integrados en un corpus debe dar una visión adecuada de aquello que pretende representar. Una consecuencia inmediata de lo anterior consiste en que el corpus debe estar equilibrado, esto es, debe contener un número suficiente de textos de los diferentes tipos que integra: textos orales y escritos; de ficción, ensayos, periodísticos, etc.; novelas, obras de teatro, relatos, guiones, etc. en el bloque de los textos de ficción; noticias, reportajes, editoriales, cartas al director, etc. en el bloque de los textos periodísticos; textos mexicanos, argentinos, venezolanos, españoles, etc. en el caso de la lengua española. Naturalmente, no todos los corpus tienen textos de todos los tipos, pero sí deben poseer un volumen adecuado de aquellos sectores incluidos en su ámbito de competencia.

Dado que los corpus con los que trabajamos actualmente están formados por cientos o miles de millones de formas, es evidente que el único modo en que se puede recuperar la información necesaria para su estudio pasa por convertir los textos a formato electrónico (si no lo están ya previamente, como sucede, por ejemplo, con la prensa digital). No hay otro modo de recuperar con rapidez y comodidad los casos de, por ejemplo, una determinada expresión en un corpus de trescientos millones de formas. Así pues, aunque conceptualmente pueda pensarse que el formato electrónico no es un rasgo constitutivo de la definición de los corpus,¹ la realidad es que solo pueden ser manejados si poseen este carácter.

El rasgo anterior implica, además, que los textos que forman un corpus deben estar codificados de modo que sea posible lograr la recuperación selectiva de la información. Por poner un ejemplo perteneciente a un terreno distinto al nuestro, si introducimos en un buscador cualquiera Uruguay, nos devolverá las páginas en las que se localiza esa palabra, pero no aquellas que hayan sido creadas en este país o estén alojadas en servidores situados en él. Para lograr esto último, algunos buscadores habilitan opciones de búsqueda que se basan en las direcciones IP de los servidores que contienen las páginas; es decir, manejan una información que no forma parte del texto, sino que está asociada a él. Es preciso, pues, añadir a la simple versión electrónica de lo que antes fue una noticia periodística, los metadatos que contienen la información acerca del periódico en que fue publicado, el día, la empresa editorial, el país al que pertenece, el nombre del autor, la indicación de que es una noticia y no un editorial, etc.

La inclusión de los metadatos y, en general, la codificación adecuada de todos y cada uno de los textos que componen un corpus hace posible su estudio científico y, más concretamente, la recuperación selectiva de la información que contiene. Para decirlo en muy pocas palabras, podemos consultar un corpus para conocer la frecuencia general de una cierta expresión o un determinado fenómeno lingüístico. Los datos obtenidos serán de interés para conocer cómo se comporta en ese punto la lengua en cuestión. Sin embargo, su mayor relevancia vendrá de la posibilidad de comparar la frecuencia que presenta en una determinada clase de textos frente a la que muestra en otra clase (países diferentes, tipos de texto distintos, escrito frente a oral, etc.). Como es evidente, esta extracción selectiva de datos de diferentes subcorpus solo es posible si esa información, que no forma parte del texto pero está asociada a él, ha sido codificada de modo que pueda ser utilizada por la aplicación de consulta para obtener, en cada caso, la información correspondiente al subcorpus deseado.

Por otro lado, el análisis científico de un corpus incrementa considerablemente sus posibilidades si los textos que lo integran han sido sometidos también a un proceso de anotación lingüística. En efecto, aunque en las definiciones se insiste en la referencia a los textos, la mayoría de los corpus actuales añaden a cada una de las formas que contienen una serie de informaciones referidas a sus características léxicas y gramaticales. Con un ejemplo ilustrativo (cf. 3.6), a la “palabra” ortográfica diciéndomelo debe asociarse la información formalizada que permita saber (a programas informáticos) que esa forma contiene tres elementos gramaticales diferentes, que el primero de ellos es un verbo, está en gerundio y pertenece al paradigma del verbo decir, mientras que los otros dos son pronombres personales, de primera singular y tercera singular, respectivamente, etc. Este complejísimo proceso, que, dado el tamaño de los corpus, tiene que ser realizado de forma totalmente automática, permite hacer consultas en las que no se maneje simplemente la configuración ortográfica de una forma, sino sus características morfosintácticas. De un corpus anotado morfosintácticamente se pueden obtener, en una única consulta, todos los casos de un determinado lema (aunque sea un verbo irregular, como es el caso de decir), los casos de un verbo cualquiera seguido de una preposición cualquiera, los ejemplos de la perífrasis verbal ir a + infinitivo, etc. Como veremos en 3.6, la anotación morfosintáctica es solo el primer paso, absolutamente necesario, para llegar a corpus anotados con informaciones sintácticas, semánticas o pragmáticas y, para referirnos a algunas aplicaciones externas que pueden ser ilustrativas, en la traducción automática. La referencia a los textos que componen un corpus debe, pues, ser complementada con la alusión a las informaciones léxicas, gramaticales y pragmáticas que se asocian a las formas y secuencias de diferentes niveles y tipos que los constituyen.

Para terminar esta presentación sucinta de las características de un corpus textual, es conveniente hacer una alusión a un elemento que está implícito en la definición que estamos analizando, pero que es necesario poner de relieve. Un corpus está formado por textos, pero es mucho más que un simple agregado de textos. La palabra clave en este punto es diseño. En efecto, dado que un corpus se crea para facilitar el estudio de una lengua en general o en alguno de sus componentes, este debe contener textos de los tipos, clases y categorías que sean congruentes con ese objetivo. Si, por ejemplo, se pretende construir un corpus del español periodístico, parece evidente que solo puede contener textos periodísticos. Aceptada esta primera característica, habrá que decidir luego si se piensa en periodismo oral o en periodismo escrito, si debe incluir semanarios, si se pretende abarcar todos los países hispánicos o solo alguno(s) de ellos, cuál es la horquilla temporal con la que se quiere trabajar, etc. Dado que el corpus debe ser representativo y además estar equilibrado, el cruce de todas las características tiene que dar lugar a una configuración general en la que se indique qué porcentaje del total corresponde a cada una de las celdas resultantes. Lo mismo, mutatis mutandis, ...

Cover
Half Title
Series Page
Title Page
Copyright Page
Dedication Page
Índice general
Lista de tablas
Lista de figuras
Prólogo
Capítulo 1 La explotación básica de los corpus
Capítulo 2 La lingüística de corpus y la metodología de la investigación lingüística
Capítulo 3 Diseño, construcción y explotación de corpus
Capítulo 4 Recuperación de información contenida en corpus textuales: el léxico
Capítulo 5 Recuperación de información contenida en corpus textuales: fenómenos gramaticales
Capítulo 6 Otras cuestiones centrales en lingüística de corpus
Capítulo 7 Herramientas de recuperación de datos: resumen y ampliación
Glosario de términos
Corpus textuales y otros recursos electrónicos mencionados en el texto
Referencias bibliográficas
Índice de materias

Preguntas frecuentes

Sí, puedes cancelar tu suscripción en cualquier momento desde la pestaña Suscripción en los ajustes de tu cuenta en el sitio web de Perlego. La suscripción seguirá activa hasta que finalice el periodo de facturación actual. Descubre cómo cancelar tu suscripción

No, los libros no se pueden descargar como archivos externos, como los PDF, para usarlos fuera de Perlego. Sin embargo, puedes descargarlos en la aplicación de Perlego para leerlos sin conexión en el móvil o en una tableta. Descubre cómo descargar libros para leer sin conexión

Perlego ofrece dos planes: Essential y Complete

El plan Essential es ideal para los estudiantes y los profesionales a los que les gusta explorar una amplia gama de temas. Accede a la biblioteca Essential, con más de 800 000 títulos de confianza y superventas sobre negocios, crecimiento personal y humanidades. Incluye un tiempo de lectura ilimitado y la voz estándar de «Lectura en voz alta».
Complete: perfecto para los estudiantes avanzados y los investigadores que necesitan un acceso completo sin ningún tipo de restricciones. Accede a más de 1,4 millones de libros sobre cientos de temas, incluidos títulos académicos y especializados. El plan Complete también incluye funciones avanzadas como la lectura en voz alta prémium y el asistente de investigación.

Ambos planes están disponibles con un ciclo de facturación mensual, semestral o anual.

Somos un servicio de suscripción de libros de texto en línea que te permite acceder a toda una biblioteca en línea por menos de lo que cuesta un libro al mes. Con más de un millón de libros sobre más de 990 categorías, ¡tenemos todo lo que necesitas! Descubre nuestra misión

Busca el símbolo de lectura en voz alta en tu próximo libro para ver si puedes escucharlo. La herramienta de lectura en voz alta lee el texto en voz alta por ti, resaltando el texto a medida que se lee. Puedes pausarla, acelerarla y ralentizarla. Obtén más información sobre la lectura en voz alta

¡Sí! Puedes usar la aplicación de Perlego en dispositivos iOS y Android para leer cuando y donde quieras, incluso sin conexión. Es ideal para cuando vas de un lado a otro o quieres acceder al contenido sobre la marcha.
Ten en cuenta que no será compatible con los dispositivos que se ejecuten en iOS 13 y Android 7 o en versiones anteriores. Obtén más información sobre cómo usar la aplicación

Sí, puedes acceder a Introducción a la lingüística de corpus en español de Guillermo Rojo en formato PDF o ePUB, así como a otros libros populares de Languages & Linguistics y Languages. Tenemos más de un millón de libros disponibles en nuestro catálogo para que explores.

Descripción del libro

Cuenta con la confianza de 375,005 estudiantes

Información

Capítulo 1La explotación básica de los corpus

Resumen

1.1 ¿Qué es un corpus?

Índice

Preguntas frecuentes

Capítulo 1
La explotación básica de los corpus