eBook - ePub

Handbuch Wort und Wortschatz

Name: Handbuch Wort und Wortschatz
Author: Ulrike Haß, Petra Storjohann

Ulrike Haß,

Petra Storjohann,

543 Seiten
German
ePUB (handyfreundlich)
Über iOS und Android verfügbar

eBook - ePub

Handbuch Wort und Wortschatz

Ulrike Haß,

Petra Storjohann,

Angaben zum Buch

Buchvorschau

Inhaltsverzeichnis

Quellenangaben

Über dieses Buch

Was Wort und Wortschatz sind, scheint auf den ersten Blick völlig unstrittig. Aber der sicher geglaubte Begriff des Worts wandelt und verschiebt sich hin zu Wortfügungen und Wortelementen, wenn Methoden aus Mündlichkeitsforschung, kognitiver und Korpuslinguistik einbezogen werden. Das Wort und der Wortschatz, verstanden als beziehungsreiches Gefüge zwischen den nur scheinbar isolierten Einzelwörtern, werden in sprachsystematischen wie anwendungsbezogenen Perspektiven beleuchtet: Bestandteile, aus denen Wörter bestehen, mehr oder weniger feste Wortverbindungen, Wörter in Satz- bzw. Äußerungszusammenhang; Wortschätze betrachtet nach Umfang, Zusammensetzung und Anwendungszweck; Wörter in visuellen Kontexten; Bedeutung und Begriff; Wörter und Wortschätze in sprachkritischer, in diachroner Sicht, in der Rechtschreibung, in der Schönen Literatur, im Wortschatzerwerb und im Wörterbuch. Notwendigerweise wird besonderes Augenmerk auf die aktuelleren methodischen Möglichkeiten wortbezogener Forschung gelegt, insofern sie maßgeblich zu einem flexibilisierten, dynamischen Verständnis des Worts beigetragen haben und beitragen. Die Handbuchbeiträge verbinden grundlegende Informationen zum jeweiligen Thema mit aktuellen Forschungsperspektiven.

Häufig gestellte Fragen

Gehe einfach zum Kontobereich in den Einstellungen und klicke auf „Abo kündigen“ – ganz einfach. Nachdem du gekündigt hast, bleibt deine Mitgliedschaft für den verbleibenden Abozeitraum, den du bereits bezahlt hast, aktiv. Mehr Informationen hier.

Derzeit stehen all unsere auf Mobilgeräte reagierenden ePub-Bücher zum Download über die App zur Verfügung. Die meisten unserer PDFs stehen ebenfalls zum Download bereit; wir arbeiten daran, auch die übrigen PDFs zum Download anzubieten, bei denen dies aktuell noch nicht möglich ist. Weitere Informationen hier.

Mit beiden Aboplänen erhältst du vollen Zugang zur Bibliothek und allen Funktionen von Perlego. Die einzigen Unterschiede bestehen im Preis und dem Abozeitraum: Mit dem Jahresabo sparst du auf 12 Monate gerechnet im Vergleich zum Monatsabo rund 30 %.

Wir sind ein Online-Abodienst für Lehrbücher, bei dem du für weniger als den Preis eines einzelnen Buches pro Monat Zugang zu einer ganzen Online-Bibliothek erhältst. Mit über 1 Million Büchern zu über 1.000 verschiedenen Themen haben wir bestimmt alles, was du brauchst! Weitere Informationen hier.

Achte auf das Symbol zum Vorlesen in deinem nächsten Buch, um zu sehen, ob du es dir auch anhören kannst. Bei diesem Tool wird dir Text laut vorgelesen, wobei der Text beim Vorlesen auch grafisch hervorgehoben wird. Du kannst das Vorlesen jederzeit anhalten, beschleunigen und verlangsamen. Weitere Informationen hier.

Ja, du hast Zugang zu Handbuch Wort und Wortschatz von Ulrike Haß, Petra Storjohann im PDF- und/oder ePub-Format sowie zu anderen beliebten Büchern aus Sprachen & Linguistik & Sprachwissenschaft. Aus unserem Katalog stehen dir über 1 Million Bücher zur Verfügung.

Information

Verlag

De Gruyter

Jahr

2015

ISBN

9783110395174

Auflage

Thema

Sprachen & Linguistik

Thema

Sprachwissenschaft

III: Das einzelne Wort

Lothar Lemnitzer/Kay-Michael Würzner

13.Das Wort in der Sprachtechnologie

Abstract: Dieser Beitrag setzt sich mit der Verwendung des Terminus Wort in der Sprachtechnologie und den damit verbundenen Problemen auseinander. Es wird eine Reihe von Termen eingeführt, die sich vor allem im Kontext von grundlegenden Verfahren der Sprachverarbeitung wie der Segmentierung (Tokenisierung) und der Kategorisierung (Part-of-Speech Tagging) eingebürgert haben. Diese erweisen sich als präziser als der vage Begriff Wort. In einem weiteren Abschnitt wird gezeigt, dass durch die Verwendung des Terminus Wort in komplexen sprachtechnologischen Anwendungen Probleme, die mit mangelnder Auflösung sprachlicher Ambiguität zusammenhängen, eher verdeckt werden. Wir plädieren deshalb für eine Herangehensweise, die nicht gänzlich auf den Terminus Wort verzichtet, dieser aber jeweils klar definiert und das Verhältnis zu den anderen Termini geklärt wird.

1Einleitung

2Begriffliches: Type, Token, Lemma und Lexem

3Tokenisierung

4Morphologische Analyse

5Anwendungsbeispiele

6Ausblick

7Literatur

1Einleitung

Da das Handbuch, in dem dieser Artikel erscheint, ganz dem Thema ,Wort' gewidmet ist, ist es müßig, hier eine weitere Begriffsbestimmung zu versuchen. Wir wollen stattdessen zunächst klären, was wir im Kontext dieses Artikels unter ,Sprachtechnologie' verstehen. Carstensen (2011) folgend, definieren wir Sprachtechnologie als eine wissenschaftliche Praxis, die sich mit der anwendungsbezogenen, ingenieursmäßig konzipierten Entwicklung von Programmen und Systemen für die Verarbeitung natürlicher Sprache beschäftigt.

Diese Praxis ist abzugrenzen von der Computerlinguistik, die sich auch mit theoretischen Konzepten etwa aus den Bereichen der Informatik und der Linguistik befasst und diese auf ihre Eignung für die Aufgabe der maschinellen Verarbeitung natürlicher Sprache prüft. In der Sprachtechnologie steht die Machbarkeit und Effizienz bestimmter Verarbeitungsschritte und -ketten innerhalb eines konkreten Systems oder einer Anwendung im Vordergrund, ferner deren Optimierung und schließlich die Handhabbarkeit für die Benutzer des Systems oder der Anwendung. Theoretische Konzepte werden aus den grundlegenden wissenschaftlichen Disziplinen übernommen und angewendet. Erst im Falle des Scheiterns, also mangelnder Funktionalität oder Performanz eines Systems, werden die Konzepte hinterfragt und der klärende Dialog mit den Fachwissenschaften gesucht.

Dennoch ist es wichtig, wenn nicht gar essentiell für eine erfolgreiche ingenieursmäßige Entwicklung sprachtechnologischer Systeme und Werkzeuge, dass die Entwickler ein tieferes Verständnis von den zugrundeliegenden linguistischen Konzepten haben. Auf der anderen Seite ist es für einen fruchtbaren Austausch zwischen Linguisten und Entwicklern sprachtechnologischer Anwendungen wichtig, dass die Linguisten die grundlegenden technischen Konzepte der automatischen Sprachverarbeitung verstehen. Deshalb richtet sich dieser Text an Linguistinnen und Linguisten und Wissenschaftler anderer Disziplinen, die einen Zugang zur Sprachtechnologie suchen, aber auch an sprachtechnologische Entwickler, die ein tieferes Verständnis des Konzepts ,Wort' und benachbarter Konzepte gewinnen möchten.

Die Problematik einer sprachwissenschaftlich präzisen und zugleich sprachtechnologisch operationalisierbaren Definition des Konzepts ,Wort' soll hier kurz am Problem der Erstellung eines Indexes für einen Text oder ein Korpus erläutert werden. Ein solcher Index ist eine Datenstruktur, die für eine Reihe sprachtechnologischer Anwendungen elementar ist, z. B. Information Retrieval und Textmining (ausführlicher hierzu Abschnitt 5). Die typische Datenstruktur ist eine Liste von Indexeinträgen mit textuellen Einheiten und der Angabe der Stellen, an der diese Einheiten im Text oder Korpus zu finden sind. Aber was sind diese Einheiten – beliebige Zeichenketten zwischen Trennsymbolen wie etwa Leerzeichen oder sprachliche Zeichen, die mit einer Bedeutung verbunden sind? Diese kurzen Betrachtungen zeigen, dass in sprachtechnologischen Zusammenhängen das Wort mehr etwas anderes ist als eine Folge zusammenhängender Zeichen in einem Text (Bsp. höre .. auf). Es ist also angebracht, sich vor der Entwicklung eines Informationssystems gründlich Gedanken über die verwendeten Konzepte zu machen.

Der folgende Text ist wie folgt gegliedert. In Abschnitt 2 werden wir die grundlegende Konzepte im Zusammenhang mit der sprachtechnologischen Verarbeitung von Zeichenketten – Token, Type, Lemma und Lexem – einführen. In Abschnitt 3 gehen wir ausführlich auf die Tokenisierung ein, die als ein grundlegendes computerlinguistisches Verfahren einen möglichst universalen Übergang von einer textuellen Zeichenkette zu abstrakteren, sprachlich beschreibbaren Einheiten anstrebt. In Abschnitt 4 beschreiben wir Verfahren der Lemmatisierung, die einen weiteren Schritt hin zu Einheiten des Lexikons und deren (lexikographischer) Beschreibung ermöglicht. Hierfür werden Konzepte und Methoden aus dem Bereich der Morphologie benötigt. Wir werden Verfahren der Lemmatisierung von ebenfalls noch gebräuchlichen Verfahren des Stemmings (Rückführung auf Stammformen) abgrenzen und einige sprachtechnologische Werkzeuge, die das Verfahren der Lemmatisierung (nicht nur) für das Deutsche implementiert haben, vorstellen. In diesem Zusammenhang werden wir auch die Grenzen zeigen, an die Verfahren der Lemmatisierung für das Deutsche beim momentanen Stand der Technik stoßen. In Abschnitt 5 werden wir die Rolle des Konzepts ,Wort' in einigen sprachtechnologischen Anwendungen skizzieren. Abschnitt 6 schließlich liefert einen Ausblick auf das Wechselspiel zwischen Linguistik und Sprachtechnologie und deren Konsequenzen für die Weiterentwicklung der Sichtweisen auf diese Konzepte.

Die in diesem Artikel gemachten Aussagen treffen generell auf die alphabetischen Sprachen zu, auch wenn wir zu illustrativen Zwecken meist deutsche Beispiele gewählt haben. Für die silbischen Sprachen sieht die Situation grundlegend anders aus. Die Darstellung sprachtechnologischer Segmentierungs- und Analyseverfahren für nicht-alphabetische Sprachen liegt allerdings außerhalb des Rahmens dieses Artikels.

2Begriffliches: Type, Token, Lemma und Lexem

Die Unschärfe des Konzepts ,Wort' hat in der Sprachtechnologie zur Etablierung einer Reihe von Bezeichnungen für die verschiedenen Konzepte, die mit diesem Begriff assoziiert sind, geführt. In diesem Abschnitt beschreiben wir zunächst diese Termini und die mit ihnen assoziierten Beschreibungsebenen anhand einiger Beispiele zeigen deren konkreten Anwendungsbezug.

2.1Type und Token

Für die textbasierte Sprachtechnologie sind klar und eindeutig abgrenzbare orthografische Einheiten wichtig. Die Identifikation dieser Einheiten bzw. Segmente im Fließtext ist ein wichtiger Schritt am Beginn jeder Verarbeitungskette. Das folgende Beispiel zeigt, dass ein Segmentierungsverfahren, das lediglich die Leerraumtrennung als Hilfsmittel verwendet, nicht zu einer Segmentierung führt, die für die weitere Verarbeitung (Kategorisierung etc.) relevant ist.

(1) Rd. 6 000 Beamte, keiner hat Ahnung.

Ein solches Verfahren würde die folgenden Einheiten produzieren:

{„Rd.“, „6“, „000“, „Beamte,“, „keiner“, „hat“, „Ahnung."}.

Um dieses präziser zu fassen, verwendet man in der Sprachtechnologie den Begriff Token (nach. Peirce 1906) zur Bezeichnung von sprachlichen Einheiten, die dem in der Linguistik mit Wort Bezeichneten näher sind als die oben genannten „Zeichenketten zwischen Leerzeichen“. Ein Token ist danach eine dem Wort weitgehend entsprechende orthografische Einheit, die man an einer exakten Stelle im Text verorten kann (Ausnahmen werden in Abschnitt 4.3 diskutiert).

Die präzisere Definition bestimmt auch die Festlegung einer Segmentierungsvorschrift und der auf Grundlage dieser Vorschrift entwickelten Segmentierungsverfahren, die in der Sprachtechnologie Tokenisierung genannt werden (hierauf gehen wir ausführlicher in Abschnitt 3 ein). Eine angemessenere Segmentierungsvorschrift berücksichtigt orthographiespezifische Phänomene wie Interpunktion, und unterscheidet Tokengrenzen von Leerraum, der gelegentlich keine Tokengrenze darstellt.

Unterteilt man den obigen Beispielsatz nach dieser Vorschrift, dann erhält man die Tokenfolge:

{„Rd.“, „6 000“, „Beamte“, „,“, „keiner“, „hat“, „Ahnung“, „.“}.

Um zwischen der konkreten, kontextbezogenen Realisierung (Token) und einer abstrakteren, kontextunabhängigen Repräsentation einer sprachlichen Einheit zu unterscheiden, führt man (nach Peirce, 1906) für letztere den Ausdruck Type ein. Man kann einen Type als Klasse seiner Token betrachten (vgl. Quine 1987, 218). Die Unterscheidung zwischen Token und Type beeinflusst auch die Messung der Zahl elementarer Einheiten in einem Textkorpus und damit die Bestimmung der Korpusgröße.

(2) Wenn vor Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.

Der Satz in Beispiel (2) wird in 11 Segmente (Token) zerlegt. Diese können auf 7 bzw. 5 Types abgebildet werden ({„Wenn“, „vor“, „Fliegen“, „fliegen“, „,“, nach, „.“}). Zwei dieser 7 Types sind Interpunktionszeichen; diese werden je nach Theorie und Anwendungszweck (nicht) mitgezählt.

Die Größe eines Korpus wird in der Regel durch die Anzahl der Token angegeben. Den lexikalischen Reichtum eines Textes kann man als das Verhältnis der Anzahl von Types und Token quantifizieren (vgl. Wimmer/Altmann 1999). Je größer dieser Wert ist, desto lexikalisch reicher ist der analysierte Text.

Für die Erstellung von Indizes aus Texten, einem Verfahren, das man im Information Retrieval braucht, werden in der Regel die Types verwendet. Token werden in solchen Indizes indirekt durch eine Menge von Positionen, an denen die Instanzen dieses Types im Korpus vorkommen, repräsentiert.

2.2Lemma/Grundform

Der Terminus Lemma wird in der Lexikographie und in der Sprachtechnologie unterschiedlich verwendet. Er kann auf eine lange Verwendungsgeschichte zurückblicken, die bis in das Altgriechische zurückreicht (Wolski 1989, 360). In der Lexikographie wird er vor allem in der überlieferten Bedeutung Thema, Überschrift verwendet. In den frühen Arbeiten zur Lexikographie wird Lemma als Etikett für eine zur Beschreibung bzw. Definition anstehende lexikalische Einheit verwendet. Wörterbücher und ihre Artikel sind nach der Form der Lemmata alphabetisch geordnet (Wolski 1989, 361).

In der Sprachtechnologie hat sich eine andere Verwendung dieses Ausdrucks etabliert: hiermit werden die Grundformen im Text bezeichnet (Dietrich 1973, 1). Das Lemma ist damit ein Repräsentant einer Menge von Types bzw. Token. Die Abstraktion von Types/Token auf Lemmata ist in der Sprachtechnologie vor allem für solche Sprache notwendig, bei denen die grammatischen Funktionen überwiegend durch morphologische Einheiten und Prozesse wie Flexive oder Um- und Ablautung realisiert werden. Wenn es darum geht, die Bedeutungssubstanz eines sprachlichen Zeichens zu repräsentieren, ist es sinnvoll, von den Merkmalen der Flexion zu abstrahieren. Da der ontologische Status des Konzepts Lemma sowohl in der Lexikographie als auch in der Sprachtechnologie umstritten ist (Wolski 1989, 362 für die Lexikographie; Dietrich 1973, 2 für die Sprachtechnologie), hat es sich im sprachtechnologischen Kontext bewährt, von Grundform statt von Lemma zu sprechen.

In den meisten europäischen Sprachen gibt es Konventionen für den Ansatz von Grundformen als Repräsentanten von Wortformenmengen (Paradigmen); für Substantive wird als Grundform der Nominativ Singular angesetzt und für Pluraletanta der Nominativ Plural, für Verben wird der Infinitiv Präsens Aktiv und für Adjektive die unflektierte, also prädikativ verwendete, Positivform angegeben (Maier-Meyer 1995, 44). Der Ansatz einer Grundform ist somit wortartabhängig, z. B. „betonteV,1.Ps. Sg. Prät. A...

Inhaltsverzeichnis

Cover
Titel
Impressum
Inhalt
Das Wort und der Wortschatz. Einleitung in den Band
I Wortschätze
II Wörter und ihre Umgebungen
III Das einzelne Wort
Sachregister