Peter Meyer, Axel Herold und Lothar Lemnitzer
1Technische Rahmenbedingungen der Internetlexikografie
Abb. 1.1: Über 100 Tonnen wiegt diese moderne Seekabelfräse, eine Spezialmaschine zum Verlegen von Unterseekabeln in den Meeresboden im Offshore-Bereich.
Erst seit wenigen Jahrzehnten gibt es Internetwörterbücher – im Vergleich zur jahrtausendealten Geschichte der Wörterbuchschreibung ist dies eine verschwindend geringe Zeitspanne. Die Aufnahme verweist auf eine von vielen technologischen und infrastrukturellen Voraussetzungen der modernen Internetlexikografie: Der weitaus größte Teil des internationalen Datentransfers wird über ein viele hunderttausend Kilometer langes Netz von Glasfaserkabeln abgewickelt, die in oft großer Tiefe die Weltmeere queren.
Zu den technischen Voraussetzungen für online verfügbare Wörterbücher gehört nicht nur die bei exponentiell steigender Rechen- und Speicherleistung immer kompakter und in Anschaffung und Betrieb günstiger werdende Computertechnologie, sondern auch die Infrastruktur des Internets, die auf einfache und robuste Weise den Informations- und Datenaustausch zwischen Milliarden angeschlossenen Rechnern möglich macht. Das vorliegende Kapitel widmet sich den grundsätzlichen technischen Rahmenbedingungen für die heutige Internetlexikografie. Zum einen skizzieren wir, was eigentlich „hinter“ den auf einem Monitor sichtbaren Benutzeroberflächen geschieht, wenn eine Nutzerin online auf ein Wörterbuch zugreift, und wie diese Prozesse zu Dokumentationszwecken in Logdateien protokolliert werden können. Zum anderen diskutieren wir, wie die Identität und dauerhafte Verfügbarkeit von Inhalten angesichts der ständig möglichen Aktualisierbarkeit von Online-Angeboten sichergestellt werden können.
1.1Einführung
1.2Internettechnologie im Kontext von Internetwörterbüchern und lexikalischen Informationssystemen
1.2.1Netzwerkkommunikation im Internet
1.2.2HTML, JavaScript und CSS
1.2.3Ausblick
1.3Logging
1.4Versionierung
1.5Persistenz und Identität
1.6Abschließende Betrachtungen
1.7Literatur
1.7.1Weiterführende Literatur
1.7.2Literaturverzeichnis
1.1Einführung
Die digitale Revolution des 20. Jahrhunderts hat die Möglichkeiten der Erstellung und Nutzung von Wörterbüchern grundlegend umgestaltet. Wörterbuchtexte können, ebenso wie damit zusammenhängende Ressourcen wie Textkorpora und Multimediadaten, in digitaler Form, letztlich also als Abfolgen von Nullen und Einsen, repräsentiert werden. Solche digitalen Daten können automatisiert, also programmgesteuert, mit immer höherer Geschwindigkeit verarbeitet, in immer größeren Mengen überall schnell abrufbar gespeichert, in einem weltweiten Netz von Computern schnell übermittelt und flexibel audiovisuell zur Ansicht und menschlichen Bearbeitung präsentiert werden. Der Lexikografie und auch den Wörterbuchnutzerinnen eröffnet dies ein breites Spektrum an Möglichkeiten, die Gegenstand des vorliegenden Kompendiums sind, darunter insbesondere:
–Verwalten, Durchsuchen und Explorieren von Wörterbuchdaten einschließlich großer, damit verknüpfter Textkorpora (→ Kapitel 3),
–(halb)automatische Erzeugung bestimmter Wörterbuchangaben (→ Kapitel 6),
–kollaborative, nicht ortsgebundene Wörterbucherstellung (→ Kapitel 7),
–Aufhebung der Beschränkungen des Printmediums (→ Kapitel 5).
Ein grundsätzliches Verständnis der Technologien, die für die technische Entwicklung, den Betrieb und die Nutzung von Internetwörterbüchern benötigt werden, ist eine wesentliche Voraussetzung für eine Auseinandersetzung mit dem Thema Internetlexikografie, insbesondere in Hinblick auf die damit einhergehenden Anforderungen an die Strukturierung und Darstellung von Wörterbuchinhalten, so wie sie in → Kapitel 4 zur Datenmodellierung ausführlich vorgestellt werden. Gerade im Bereich der Webentwicklung gibt es jedoch eine enorme Vielfalt an eingesetzten Technologien, so dass dieses einführende Kapitel nur Überblickswissen in ausgewählten, für die lexikografische Arbeit besonders relevanten Bereichen vermitteln kann. Überdies vereinfacht vor allem die Darstellung in → Abschnitt 1.2 die tatsächlichen Verhältnisse ganz bewusst stark und fokussiert auf die für die lexikografische Thematik wesentlichen Aspekte, so dass technisch-informatische Details gelegentlich mit Bedacht unvollständig oder formal nicht ganz korrekt beschrieben werden.
1.2Internettechnologie im Kontext von Internetwörterbüchern und lexikalischen Informationssystemen
1.2.1Netzwerkkommunikation im Internet
Internetadresse (URL)
Gedanklicher Ausgangspunkt unseres kurzen Rundgangs durch zentrale Webtechnologien sei der typische Fall, dass ein Benutzer eines Internetwörterbuchs an seinem Rechner einen Wortartikel im Browser ansehen möchte. Nehmen wir ein fiktives Beispiel: Der Benutzer möchte sich den Artikel zum englischen Substantiv disproof imeinsprachigen englischen Wörterbuch „My EnglishDict“ anzeigen lassen. Dazu muss er dem Webbrowser mitteilen, wo „im Internet“ die Webseite mit dem gewünschten Inhalt zu finden ist. Der Browser benötigt hierzu eine Internetadresse, formaler gesagt, eine URL (Uniform Resource Locator), die angibt, wo genau diese Seite zu finden ist. In unserem Beispiel könnte eine solche URL wie folgt aussehen:
http://www.my-english-dict.com/entry/disproof
Hyperlink
Eine solche URL kann man direkt in die Adressleiste des Browsers eingeben. Der Browser „sucht“ dann im Internet nach der durch die URL identifizierten Ressource (Webseite) und zeigt sie auf dem Bildschirm an. Im Normalfall geben Nutzer solche komplexen URLs aber nicht selber manuell ein, sondern klicken auf einen Hyperlink (meist kurz Link), der sich auf einer anderen Webseite befindet und den Browser zur passenden Webseite führt. So bietet das Wörterbuch „MyEnglishDict“ möglicherweise eine Stichwortliste an; die einzelnen Lemmata dieser Liste sind dann Hyperlinks auf die Webseiten, die zu den jeweiligen Wörterbuchartikeln gehören.Vielleicht verwendet ein Nutzer aber auch Suchfunktionalitäten des Internetwörterbuchs, um z. B. nach mit „dispr“ beginnenden Lemmata zu recherchieren; die Ergebnisse werden dann auf einer Ergebnisseite wiederum als Liste von Links präsentiert. Auch über Links auf den Ergebnisseiten von allgemeinen Suchmaschinen wie Google oder Bing kannman zu Artikeln verschiedener Internetwörterbücher gelangen. Klickt der Benutzer auf einen Link, weist dies den Browser an, die Webseite mit derjenigen URL aus dem Internet zu laden, die mit dem sichtbaren Text des Links verknüpft ist. Der technische Vorgang, der sich nach dem Anklicken eines Links auf eine URL abspielt, ist im Allgemeinen derselbe wie bei der manuellen Eingabe derselben URL in die Adressleiste.
Wie sieht nun dieser Vorgang aus, bei dem der Browser sich die Informationen zur gewünschten Webseite holt und diese darstellt?
Webbrowser
Internet
IP-Adresse
Zunächst einige allgemeine Punkte: Ein Webbrowser ist ein Programm, das auf einem mit dem Internet verbundenen Gerät (PC, Smartphone etc.) läuft und in der Lage ist, Informationen aus dem Internet zu laden und auf einem Bildschirm darzustellen. Das Internet ist ein weltweites komplexes Netzwerk von miteinander meist per Kabel verbundenen elektronischen Vermittlungsstellen (sogenannten Routern); grundsätzlich kann jedes an dieses Netzwerk angebundene Gerät jedem anderen ebenfalls angebundenen Gerät über diese Vermittlungsstellen in hochgradig ausfallsicherer Weise Nachrichten senden. Damit das funktioniert, ist jedem Gerät im Internet eine eindeutig identifizierende Zahlenkombination zugeordnet, seine IP-Adresse. Die Daten des Wörterbuchs liegen auf einem bestimmten Computer, der z. B. von den Wörterbuchmachern oder von einem externen Drittanbieter verwaltet wird. Der Webbrowser muss sich daher die Daten der gewünschten Webseite von diesem Computer über das Internet schicken lassen. Dazu muss der Browser über das Internet eine Anfrage an den Computer senden und daher dessen IP-Adresse kennen.
Hostname Nameserver
Die oben angegebene URL enthält zwar keine IP-Adresse – diese kann sich für ein gegebenes Gerät auch durchaus gelegentlich ändern –, dafür aber einen anderen, auch für Menschen gut les- und merkbaren Namen des Computers, seinen sogenannten Hostnamen: „www.my-english-dict.com“. Der Browser kann über Anfragen an bestimmte andere Rechner (sogenannte Nameserver) aus diesem Hostnamen die IP-Adresse des Computers (sagen wir, 23.61.241.133) ermitteln. Tatsächlich kann man übrigens statt des Hostnamens in einer URL auch direkt die IP-Adresse verwenden, z. B.
http://23.61.241.133/entry/disproof
Netzwerkprotokoll
HTTP
Der Browser schickt nun seine Anfrage als Nachricht an den Computermit der IP-Adresse 23.61.241.133. Diese Nachricht besteht einfach aus einer Abfolge von Zeichen (Zahlen und Buchstaben sowie einige besondere Steuerzeichen), die letztlich wiederum als Abfolgen von Nullen und Einsen kodiert sind. Wie die Nachricht aufgebaut sein muss, also wie die „Sprache“ aussieht, in der die Rechner miteinander kommunizieren, wird durch ein strenges System von Regeln, ein sogenanntes Netzwerkprotokoll, bestimmt. Welches Protokoll verwendet wird, steht ebenfalls in der URL: Das Präfix „http://“ gibt vor, dass das für die Übermittlung von Webseiten übliche Protokoll HTTP (Hypertext Transfer Protocol) verwendet werden soll.1Dieses Präfix kann bei manueller Eingabe der URL in den Browser in der Regel weggelassen werden. Die vom Browser nach Eingabe der URL über das Internet übermittelte Nachricht selbst ist ein kurzer Text, der neben einigen Verwaltungsinformationen (den HTTP-Headern, → Abschnitt 1.3) insbesondere auch eine Zeile mit der eigentlichen Anfrage enthält. Diese Zeile sieht in unserem Beispiel so aus:
GET /entry/disproof HTTP/1.1
Mit dem Schlüsselwort GET wird im HTTP-Protokoll die Übermittlung von Daten verlangt; auf GET folgt der URL-Pfad, der gewissermaßen die eigentliche Bezeichnung der angeforderten digitalen Ressource, hier der gewünschten Webseite, ist. Abschließend wird angegeben, welche Version des HTTP-Netzwerkprotokolls verwendet wird, hier: 1.1.
Auch der URL-Pfad ist der URL zu entnehmen, im vorliegenden Fall handelt es sich offensichtlich einfach um den Teil der URL, der auf den Hostnamen folgt. Er besteht aus einzelnen Segmenten (Zeichenketten), die durch Schrägstriche voneinander getrennt sind. Es gibt keine...