1Einleitung
Computereinsatz in der Lexikographie eröffnet viele neue methodisch-methodologische Aspekte für die empirischen Sprachdatenermittlungen bezüglich der Extraktion und Untersuchung von parallelen Sprachstrukturen und Phänomenen. Die neuen Werkzeuge und gewonnenen Daten werfen ein anderes Licht auf die traditionellen Fragen der (bilingualen) Lexikographie. Um große mehrsprachige Korpora bei der kontrastiven Analyse effizient einsetzen zu können, müssen sie in vergleichbarer Weise und mit geeigneten vergleichbaren Instrumenten erstellt werden. Im Unterschied zu Parallelkorpora bieten die sog. vergleichbaren Korpora Daten und Analyseinstrumente, die den Kriterien der Vergleichbarkeit im technischen und auch im inhaltlichen Sinne viel mehr entsprechen. Vergleichbar (comparable) sind Korpora mit gleichen Charakteristiken, d. h. mit gleichem Umfang, gleichen Domänen, bearbeitet in der gleichen Zeit, aufbereitet mit derselben Methodologie mit sprachlich unabhängigen identischen Tools, mit kompatibler formalen Suchanfragesprache und kompatiblen formalen Grammatiken. Ein neues Werkzeug stellen die sogenannten bilingualen Wortskizzen dar, die die Analyse von Ähnlichkeiten (oder Differenzen) der Kollokationsprofile für die Lexeme und ihre Äquivalente anbieten. An Beispielen der kollokationellen Parallelen, kollokationellen Präferenzen und Divergenzen, kollokationeller Kompatibilität und des kollokationellen Verhaltens wollen wir die Nutzung der vergleichbaren Korpora bei der Untersuchung der typischen, usuellen und lexikalisierten Einheiten demonstrieren.
Auf der Basis von ARANEA GIGAWORD WEB KORPORA,25 einer Familie vergleichbarer Korpora, die für den Einsatz in der kontrastiven Sprachforschung, der mehrsprachigen Lexikographie sowie für den Unterricht von Fremdsprachen und Übersetzungsstudien gedacht ist, diskutieren wir die Vor- und Nachteile vergleichbarer Korpora im Gegensatz zu monolingualen und parallelen Korpora für die Analyse von Mehrworteinheiten (MWE). Wir zeigen, dass durch die Verwendung von großen Korpora für zwei oder mehr Sprachen, bestehend aus nicht verwandten Texten, die in vergleichbarer Weise erstellt wurden, parallele Sprachstrukturen und Phänomene wie MWE identifiziert werden können, wenn entsprechende Werkzeuge beteiligt sind. Mit den ARANEA KORPORA ist die zweisprachige Skizze-Funktionalität (bilingual sketch) in Sketch Engine ein solches Werkzeug, das einen neuen Ansatz für Analysen von Ähnlichkeiten (oder Unterschieden) von Kollokationsprofilen (Wortskizzen) für Wörter und deren Übersetzungsäquivalente bietet.
2Vergleichbare Korpora
Textkorpora können in Bezug auf Sprache einsprachig oder zwei- und mehrsprachig sein. Bei bi- oder multilingualen Korpora gibt es zwei Grundtypen: parallele Korpora (gegenseitige Übersetzungen von Texten) und vergleichbare Korpora (Texte mit gemeinsamen Merkmalen wie die gleichen Domänen, Genres, Register, gleiche Entstehungszeit, gleiche Größe, kompatible Strategie der Annotation etc.). Alle Arten von Korpora können auch für einen Vergleich von Sprachdaten verwendet werden. Wir können ähnliche Phänomene in monolingualen Korpora unabhängig analysieren und vergleichen und die Ergebnisse introspektiv bewerten. Eine weitere Vergleichsqualität ermöglichen zwei- und mehrsprachige Korpora mit unterschiedlichem Vergleichsgrad. Wir können zum Beispiel als völlig parallel die lokalisierten Übersetzungen von Benutzerhandbüchern betrachten. Als stark vergleichbar können die Nachrichten über dieselben Ereignisse oder Wikipedia-Artikel in verschiedenen Sprachen betrachtet werden, als annähernd/schwach vergleichbar sind Texte aus derselben Domäne und Genre, die verschiedene Ereignisse beschreiben, z. B. Parlamentarische Debatten über die gleiche Frage aus verschiedenen Ländern. Sicherlich können wir auch nicht verwandte Texte wie Internettexte in kontrastiver Forschung nutzen.
Das zentrale Problem ist die Schwäche des Konzepts der Vergleichbarkeit in mehrsprachigen Korpora unter Experten. Es gibt noch keine Einigkeit über die Art der Ähnlichkeit, denn es gibt nur wenige Beispiele für vergleichbare Korpora. Die Möglichkeiten eines vergleichbaren Korpus sind, verschiedene Sprachen oder Textsorten unter ähnlichen Umständen der Kommunikation zu vergleichen und die unvermeidliche Verzerrung, die durch die Übersetzung eines parallelen Korpus eingeführt wird, zu eliminieren. Es ist auch schwierig, Texte zu finden, die nicht durch anglo-amerikanische Terminologie und Textkonventionen kontaminiert wurden. Gegenwärtig gibt es viele Zentren, die Textmaterial in mehreren Sprachen gesammelt haben, aber solange sich die Sammlungen nicht gemeinsame Merkmale der Auswahl, zumindest auf der Ebene des vergleichbaren Korpus teilen, dann sind sie nur Textressourcen in verschiedenen Sprachen. Es erscheint daher nicht sinnvoll, den Begriff mehrsprachiges Korpus zu verwenden.
Um die Frage zu beantworten, inwieweit Texte „ähnlich“ und Korpora „vergleichbar“ sein können, betont Maia (2003) die Bedeutung der Entscheidung über die Idee der Ähnlichkeit in Bezug auf Form und Inhalt. Mit anderen Worten: Idealerweise sollten sie eine ähnliche Struktur, die Größe des Korpus, die Natur der einzelnen Texte in Bezug auf Wörter, Sätze und Paragraphen, Formate, Sprachbereiche (allgemeine oder spezialisierte Sprache), Themenbereiche, Modi, Dialekte, geographische Faktoren, zeitliche Faktoren oder auch soziale Faktoren berücksichtigen. Maia unterscheidet weiterhin die vergleichbaren Korpora (ähnlich in der Größe und konstruiert nach gleichen Kriterien) von „konkurrierenden“ Korpora, also von den Korpora, die zum demselben Thema oder Nachrichten in mehreren Zeitungen zu einem Thema gesammelt werden (ebenda).
In der jüngsten Übersicht über die Erforschung vergleichbarer Korpora (vgl. Sharoff/Rapp/Zweigenbaum 2016) beschreiben die Autoren die zwanzigjährige Entwicklung der Verwendung vergleichbarer Korpora für die Extraktion von zweisprachigen Wörterbüchern und für statistische Maschinenübersetzung. Es gibt viele verschiedene Algorithmen, die übereinstimmende Wörter in vergleichbaren Korpora identifizieren, wie Häufigkeit des Auftretens, Kovorkommenszählungen, Zählungen von lexiko-morphologischen und syntaktischen Mustern oder von Abhängigkeitsbeziehungen, Assoziationsmaßen, Ähnlichkeitsmaßen, hierarchischen Informationen, Kovorkommen in vergleichbaren Dokumenten etc. Die Autoren betonen, dass es für die Forschung nicht notwendig ist, zu durchsuchen, welcher Algorithmus besser ist. Sie versuchen stattdessen, alle miteinander zu kombinieren und auf die Stärken jeder Art von Information und Funktion zu bündeln. Das kann eine Möglichkeit sein, die Informationen zu gewichten und sie in einer optimalen Weise zu kombinieren, um Wortüb...