III: Das einzelne Wort
Lothar Lemnitzer/Kay-Michael Würzner
13.Das Wort in der Sprachtechnologie
Abstract: Dieser Beitrag setzt sich mit der Verwendung des Terminus Wort in der Sprachtechnologie und den damit verbundenen Problemen auseinander. Es wird eine Reihe von Termen eingeführt, die sich vor allem im Kontext von grundlegenden Verfahren der Sprachverarbeitung wie der Segmentierung (Tokenisierung) und der Kategorisierung (Part-of-Speech Tagging) eingebürgert haben. Diese erweisen sich als präziser als der vage Begriff Wort. In einem weiteren Abschnitt wird gezeigt, dass durch die Verwendung des Terminus Wort in komplexen sprachtechnologischen Anwendungen Probleme, die mit mangelnder Auflösung sprachlicher Ambiguität zusammenhängen, eher verdeckt werden. Wir plädieren deshalb für eine Herangehensweise, die nicht gänzlich auf den Terminus Wort verzichtet, dieser aber jeweils klar definiert und das Verhältnis zu den anderen Termini geklärt wird.
1Einleitung
2Begriffliches: Type, Token, Lemma und Lexem
3Tokenisierung
4Morphologische Analyse
5Anwendungsbeispiele
6Ausblick
7Literatur
1Einleitung
Da das Handbuch, in dem dieser Artikel erscheint, ganz dem Thema ,Wort' gewidmet ist, ist es müßig, hier eine weitere Begriffsbestimmung zu versuchen. Wir wollen stattdessen zunächst klären, was wir im Kontext dieses Artikels unter ,Sprachtechnologie' verstehen. Carstensen (2011) folgend, definieren wir Sprachtechnologie als eine wissenschaftliche Praxis, die sich mit der anwendungsbezogenen, ingenieursmäßig konzipierten Entwicklung von Programmen und Systemen für die Verarbeitung natürlicher Sprache beschäftigt.
Diese Praxis ist abzugrenzen von der Computerlinguistik, die sich auch mit theoretischen Konzepten etwa aus den Bereichen der Informatik und der Linguistik befasst und diese auf ihre Eignung für die Aufgabe der maschinellen Verarbeitung natürlicher Sprache prüft. In der Sprachtechnologie steht die Machbarkeit und Effizienz bestimmter Verarbeitungsschritte und -ketten innerhalb eines konkreten Systems oder einer Anwendung im Vordergrund, ferner deren Optimierung und schließlich die Handhabbarkeit für die Benutzer des Systems oder der Anwendung. Theoretische Konzepte werden aus den grundlegenden wissenschaftlichen Disziplinen übernommen und angewendet. Erst im Falle des Scheiterns, also mangelnder Funktionalität oder Performanz eines Systems, werden die Konzepte hinterfragt und der klärende Dialog mit den Fachwissenschaften gesucht.
Dennoch ist es wichtig, wenn nicht gar essentiell für eine erfolgreiche ingenieursmäßige Entwicklung sprachtechnologischer Systeme und Werkzeuge, dass die Entwickler ein tieferes Verständnis von den zugrundeliegenden linguistischen Konzepten haben. Auf der anderen Seite ist es für einen fruchtbaren Austausch zwischen Linguisten und Entwicklern sprachtechnologischer Anwendungen wichtig, dass die Linguisten die grundlegenden technischen Konzepte der automatischen Sprachverarbeitung verstehen. Deshalb richtet sich dieser Text an Linguistinnen und Linguisten und Wissenschaftler anderer Disziplinen, die einen Zugang zur Sprachtechnologie suchen, aber auch an sprachtechnologische Entwickler, die ein tieferes Verständnis des Konzepts ,Wort' und benachbarter Konzepte gewinnen möchten.
Die Problematik einer sprachwissenschaftlich präzisen und zugleich sprachtechnologisch operationalisierbaren Definition des Konzepts ,Wort' soll hier kurz am Problem der Erstellung eines Indexes für einen Text oder ein Korpus erläutert werden. Ein solcher Index ist eine Datenstruktur, die für eine Reihe sprachtechnologischer Anwendungen elementar ist, z. B. Information Retrieval und Textmining (ausführlicher hierzu Abschnitt 5). Die typische Datenstruktur ist eine Liste von Indexeinträgen mit textuellen Einheiten und der Angabe der Stellen, an der diese Einheiten im Text oder Korpus zu finden sind. Aber was sind diese Einheiten – beliebige Zeichenketten zwischen Trennsymbolen wie etwa Leerzeichen oder sprachliche Zeichen, die mit einer Bedeutung verbunden sind? Diese kurzen Betrachtungen zeigen, dass in sprachtechnologischen Zusammenhängen das Wort mehr etwas anderes ist als eine Folge zusammenhängender Zeichen in einem Text (Bsp. höre .. auf). Es ist also angebracht, sich vor der Entwicklung eines Informationssystems gründlich Gedanken über die verwendeten Konzepte zu machen.
Der folgende Text ist wie folgt gegliedert. In Abschnitt 2 werden wir die grundlegende Konzepte im Zusammenhang mit der sprachtechnologischen Verarbeitung von Zeichenketten – Token, Type, Lemma und Lexem – einführen. In Abschnitt 3 gehen wir ausführlich auf die Tokenisierung ein, die als ein grundlegendes computerlinguistisches Verfahren einen möglichst universalen Übergang von einer textuellen Zeichenkette zu abstrakteren, sprachlich beschreibbaren Einheiten anstrebt. In Abschnitt 4 beschreiben wir Verfahren der Lemmatisierung, die einen weiteren Schritt hin zu Einheiten des Lexikons und deren (lexikographischer) Beschreibung ermöglicht. Hierfür werden Konzepte und Methoden aus dem Bereich der Morphologie benötigt. Wir werden Verfahren der Lemmatisierung von ebenfalls noch gebräuchlichen Verfahren des Stemmings (Rückführung auf Stammformen) abgrenzen und einige sprachtechnologische Werkzeuge, die das Verfahren der Lemmatisierung (nicht nur) für das Deutsche implementiert haben, vorstellen. In diesem Zusammenhang werden wir auch die Grenzen zeigen, an die Verfahren der Lemmatisierung für das Deutsche beim momentanen Stand der Technik stoßen. In Abschnitt 5 werden wir die Rolle des Konzepts ,Wort' in einigen sprachtechnologischen Anwendungen skizzieren. Abschnitt 6 schließlich liefert einen Ausblick auf das Wechselspiel zwischen Linguistik und Sprachtechnologie und deren Konsequenzen für die Weiterentwicklung der Sichtweisen auf diese Konzepte.
Die in diesem Artikel gemachten Aussagen treffen generell auf die alphabetischen Sprachen zu, auch wenn wir zu illustrativen Zwecken meist deutsche Beispiele gewählt haben. Für die silbischen Sprachen sieht die Situation grundlegend anders aus. Die Darstellung sprachtechnologischer Segmentierungs- und Analyseverfahren für nicht-alphabetische Sprachen liegt allerdings außerhalb des Rahmens dieses Artikels.
2Begriffliches: Type, Token, Lemma und Lexem
Die Unschärfe des Konzepts ,Wort' hat in der Sprachtechnologie zur Etablierung einer Reihe von Bezeichnungen für die verschiedenen Konzepte, die mit diesem Begriff assoziiert sind, geführt. In diesem Abschnitt beschreiben wir zunächst diese Termini und die mit ihnen assoziierten Beschreibungsebenen anhand einiger Beispiele zeigen deren konkreten Anwendungsbezug.
2.1Type und Token
Für die textbasierte Sprachtechnologie sind klar und eindeutig abgrenzbare orthografische Einheiten wichtig. Die Identifikation dieser Einheiten bzw. Segmente im Fließtext ist ein wichtiger Schritt am Beginn jeder Verarbeitungskette. Das folgende Beispiel zeigt, dass ein Segmentierungsverfahren, das lediglich die Leerraumtrennung als Hilfsmittel verwendet, nicht zu einer Segmentierung führt, die für die weitere Verarbeitung (Kategorisierung etc.) relevant ist.
(1) Rd. 6 000 Beamte, keiner hat Ahnung.
Ein solches Verfahren würde die folgenden Einheiten produzieren:
{„Rd.“, „6“, „000“, „Beamte,“, „keiner“, „hat“, „Ahnung."}.
Um dieses präziser zu fassen, verwendet man in der Sprachtechnologie den Begriff Token (nach. Peirce 1906) zur Bezeichnung von sprachlichen Einheiten, die dem in der Linguistik mit Wort Bezeichneten näher sind als die oben genannten „Zeichenketten zwischen Leerzeichen“. Ein Token ist danach eine dem Wort weitgehend entsprechende orthografische Einheit, die man an einer exakten Stelle im Text verorten kann (Ausnahmen werden in Abschnitt 4.3 diskutiert).
Die präzisere Definition bestimmt auch die Festlegung einer Segmentierungsvorschrift und der auf Grundlage dieser Vorschrift entwickelten Segmentierungsverfahren, die in der Sprachtechnologie Tokenisierung genannt werden (hierauf gehen wir ausführlicher in Abschnitt 3 ein). Eine angemessenere Segmentierungsvorschrift berücksichtigt orthographiespezifische Phänomene wie Interpunktion, und unterscheidet Tokengrenzen von Leerraum, der gelegentlich keine Tokengrenze darstellt.
Unterteilt man den obigen Beispielsatz nach dieser Vorschrift, dann erhält man die Tokenfolge:
{„Rd.“, „6 000“, „Beamte“, „,“, „keiner“, „hat“, „Ahnung“, „.“}.
Um zwischen der konkreten, kontextbezogenen Realisierung (Token) und einer abstrakteren, kontextunabhängigen Repräsentation einer sprachlichen Einheit zu unterscheiden, führt man (nach Peirce, 1906) für letztere den Ausdruck Type ein. Man kann einen Type als Klasse seiner Token betrachten (vgl. Quine 1987, 218). Die Unterscheidung zwischen Token und Type beeinflusst auch die Messung der Zahl elementarer Einheiten in einem Textkorpus und damit die Bestimmung der Korpusgröße.
(2) Wenn vor Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.
Der Satz in Beispiel (2) wird in 11 Segmente (Token) zerlegt. Diese können auf 7 bzw. 5 Types abgebildet werden ({„Wenn“, „vor“, „Fliegen“, „fliegen“, „,“, nach, „.“}). Zwei dieser 7 Types sind Interpunktionszeichen; diese werden je nach Theorie und Anwendungszweck (nicht) mitgezählt.
Die Größe eines Korpus wird in der Regel durch die Anzahl der Token angegeben. Den lexikalischen Reichtum eines Textes kann man als das Verhältnis der Anzahl von Types und Token quantifizieren (vgl. Wimmer/Altmann 1999). Je größer dieser Wert ist, desto lexikalisch reicher ist der analysierte Text.
Für die Erstellung von Indizes aus Texten, einem Verfahren, das man im Information Retrieval braucht, werden in der Regel die Types verwendet. Token werden in solchen Indizes indirekt durch eine Menge von Positionen, an denen die Instanzen dieses Types im Korpus vorkommen, repräsentiert.
2.2Lemma/Grundform
Der Terminus Lemma wird in der Lexikographie und in der Sprachtechnologie unterschiedlich verwendet. Er kann auf eine lange Verwendungsgeschichte zurückblicken, die bis in das Altgriechische zurückreicht (Wolski 1989, 360). In der Lexikographie wird er vor allem in der überlieferten Bedeutung Thema, Überschrift verwendet. In den frühen Arbeiten zur Lexikographie wird Lemma als Etikett für eine zur Beschreibung bzw. Definition anstehende lexikalische Einheit verwendet. Wörterbücher und ihre Artikel sind nach der Form der Lemmata alphabetisch geordnet (Wolski 1989, 361).
In der Sprachtechnologie hat sich eine andere Verwendung dieses Ausdrucks etabliert: hiermit werden die Grundformen im Text bezeichnet (Dietrich 1973, 1). Das Lemma ist damit ein Repräsentant einer Menge von Types bzw. Token. Die Abstraktion von Types/Token auf Lemmata ist in der Sprachtechnologie vor allem für solche Sprache notwendig, bei denen die grammatischen Funktionen überwiegend durch morphologische Einheiten und Prozesse wie Flexive oder Um- und Ablautung realisiert werden. Wenn es darum geht, die Bedeutungssubstanz eines sprachlichen Zeichens zu repräsentieren, ist es sinnvoll, von den Merkmalen der Flexion zu abstrahieren. Da der ontologische Status des Konzepts Lemma sowohl in der Lexikographie als auch in der Sprachtechnologie umstritten ist (Wolski 1989, 362 für die Lexikographie; Dietrich 1973, 2 für die Sprachtechnologie), hat es sich im sprachtechnologischen Kontext bewährt, von Grundform statt von Lemma zu sprechen.
In den meisten europäischen Sprachen gibt es Konventionen für den Ansatz von Grundformen als Repräsentanten von Wortformenmengen (Paradigmen); für Substantive wird als Grundform der Nominativ Singular angesetzt und für Pluraletanta der Nominativ Plural, für Verben wird der Infinitiv Präsens Aktiv und für Adjektive die unflektierte, also prädikativ verwendete, Positivform angegeben (Maier-Meyer 1995, 44). Der Ansatz einer Grundform ist somit wortartabhängig, z. B. „betonteV,1.Ps. Sg. Prät. A...