You are using an outdated browser. Please upgrade your browser to improve your experience.

Hinweise zur Suche

  • Volltextsuche

    nach einem Wort oder einer Wortfolge Reisehandbuch / Reise* / *handbuch

  • Indexsuche

    nach Wortform w="Reiseroute" / w="Reise*" / w="*route"
    nach Lemma lemma="Reisebuch" / lemma="Reise*" / lemma="*buch"
    nach Wortart pos="VVFIN" / pos="VV*"

  • Kombinierte Suche

    lemma="reisen" and pos="VVFIN" ergibt reist, reisen
    lemma="reisen" and pos="NN" ergibt das Reisen

Als Platzhalter für Auslassungen ist das Stern-Symbol überall erlaubt.

Die verwendeten Wortartenkürzel finden Sie in den Richtlinien des Stuttgart-Tübingen-Tagsets STTS.

Hinweise zum Register der Personennamen

Personennamen wurden annotiert, sofern sie nicht Teil von Adressen, Firmen-, Hotel- sowie Restaurantbezeichnungen und Komposita sind. Minimal unterschiedliche und idente Schreibweisen wurden zusammengefasst, sind jedoch nicht disambiguiert. Initialen wurden möglichst ausgeschrieben. Untergliedert in historische, religiös-mythologische und literarische Personennamen, umfasst der Index derzeit 5.476 Einträge, die mit 13.385 Belegstellen im Volltext-Korpus verlinkt sind. Zu beachten ist, dass Namen von Heiligen der historischen Gruppe zugeordnet sind.

Hinweise zum travel!digital Thesaurus

Die semantischen Repräsentationen wurden mithilfe des RDF -basierten Simple Knowledge Organization System SKOS und dessen Erweiterung SKOS-XL realisiert. Als Editor kam der TopBraid Composer Free edition Version: 5.1.1 zum Einsatz.

Der Thesaurus umfasst die Bereiche Gruppenbezeichnungen sowie Sehenswertes und ist wie folgt strukturiert:

    Gruppenbezeichnungen

  • Allgemeine Sammelbezeichnungen
  • Ethnisch / nationale Gemeinschaften
  • Geografisch orientierte Bezeichnungen
  • Berufsbezeichnungen
    • Politische Funktionen, Titel
    • Religiöse Funktionen, Titel
    • Wirtschaftliche Funktionen
    • Sonstige Berufe
  • Religiöse Gruppenbezeichnungen
    • Glaubensgemeinschaften
    • Religiös motivierte Bezeichnungen
    • Religionen
  • Soziale Gruppenbezeichnungen

    Sehenswertes

  • Architektur
    • Befestigungsanlagen
    • Bildungseinrichtungen
    • Büro- und Verwaltungsgebäude
    • Ensembles
    • Friedhöfe
    • Gesundheits- und Sporteinrichtungen
    • Gotteshäuser, religiöse Gebäude
    • Industriebauten
    • Interieur
    • Klöster
    • Mausoleen
    • Mehrzweckgebäude
    • Museen
    • Paläste
    • Parks und Gartenanlagen
    • Ruinen und Ausgrabungen
    • Sammlungen
    • Theater und Bühnen
    • Verkehrsbauten
    • Wissenschaftseinrichtungen
    • Sonstige Gebäude
  • Kunstwerke
    • Malerei
    • Plastiken
    • Kunstsammlungen
    • Sonstige Kunstwerke
  • Inschriften
  • Natur
  • Ortschaft
  • Aussicht
  • Folklore
  • Aktivitäten
  • Unterkunft / Restaurant
  • Einkaufen
  • Sonstiges Sehenswerte

Diesen eigens eingeführten Klassifikationsgruppen (2 skos:Collection, 17 skos:topConceptsOf, 49 übergeordnete skos:Concept) sind 4.227 Stichworte (skos:Concept) mit 5.332 Termen zugeordnet: 4.649 bevorzugte und 683 alternative Bezeichnungen (skos:prefLabel, skos:altLabel). Bei den Gruppenbezeichnungen wurden sowohl Nomen als auch Adjektive als eigene Konzepte aufgenommen, z.B. Abendländer / abendländisch, wobei die entsprechenden Konzepte aufeinander bezogen sind (skos:related). Bezeichnungen von Gebäuden bzw. Institutionen und sonstigen touristischen Attraktionen wurden in der Regel als Eigennamen aufgefasst und ungeachtet ihrer Sprachzugehörigkeit als deutsche Einträge aufgenommen.

Der Thesaurus spiegelt ausschließlich den in den Reiseführern enthaltenen Wortschatz wider und übernimmt dort vorhandene Schreibweisen sowohl in den Konzept- als auch den Term-Labels. Eignen sich einzelne Konzepte als Überbegriffe, wurden ihnen weitere Konzepte untergeordnet, etwa Volk – Bergvolk, Grenzvolk, Kulturvolk usw., Bäder – Dianabad, Margaretenbad oder Herzog – Erzherzog, Großherzog. Komposita wurden durchgängig so gehandhabt. Beispiele für Hierarchisierungen, die über Komposita hinausgehen, sind:

  • Allgemeine Sammelbezeichnungen: u.a. Farbige, farbig
  • Ethnisch / nationale Bezeichnungen: u.a. Berber, berberisch
  • Berufsgruppen: u.a. Militär, Handwerker, Künstler, Geistliche
  • Glaubensgemeinschaften: u.a. Christ, Hindu, Jude, Moslem
  • Soziale Gruppenbezeichnungen: u.a. Dynastie, Kaste, Stand
  • Sehenswürdigkeiten: u.a. Turm, Moschee, Tempel, Museum

Insgesamt ist die Hierarchie flach gehalten. Es wurde etwa darauf verzichtet, geografischen Konzepten ethnisch / nationale Gruppen unterzuordnen z.B. Europäer – Engländer, Franzose usw.

Die angeführten Definitionen stammen aus folgenden Referenzwerken:

  • DUDEN ONLINE-WÖRTERBUCH (Quelle angegeben, Abfragezeitraum 2017, ohne Verlinkung)
  • Brockhaus Conversations-Lexikon, Amsterdam 1. Auflage 1809–1811 in 6 Bänden u. 2 Nachtragsbänden
  • Brockhaus Bilder-Conversations-Lexikon, Leipzig 1. Auflage 1837–1841 in 4 Bänden
  • Pierer's Universal-Lexikon, Altenburg 4. Auflage 1857–1865 in 19 Bänden
  • Meyers Großes Konversations-Lexikon, Leipzig 6. Auflage 1905–1909 in 20 Bänden
  • Brockhaus' Kleines Konversations-Lexikon, Leipzig 5. Auflage 1911 in 12 Bänden

Alle hier genannten historischen Lexika sind in der digitalen Bibliothek Zeno.org frei zugänglich. Permalinks zu den einzelnen Einträgen sind angegeben. Eigene Anmerkungen entsprechen folgendem Muster: [Anm.: Ergänzung: …] bzw. [Anm.: unvollständig: …]. Eigene Definitionen werden durch bdk: eingeleitet. Beinahe alle Gruppenbezeichnungen enthalten ausführliche Definitionen, im Bereich des Sehenswerten wurden nur jene zentralen Begriffe erläutert, die für das Verständnis unverzichtbar erschienen.

Sofern vorhanden, sind an erster Stelle Definitionen des DUDEN ONLINE-WÖRTERBUCHS (Abfragezeitraum 2017) angegeben. Da sie überwiegend kurz ausfallen bzw. viele Begriffe gar nicht enthalten sind, ergänzen Begriffserklärungen aus oben genannten historischen Lexika die Einträge. Sie spiegeln das Wissen der damaligen Zeit und Reisenden in hohem Maße, häufig jedoch nicht den aktuellen Stand der Forschung wider. Zeitgemäße Ausführungen sind über 3.285 Links zu externen LOD-Ressourcen eingebunden (1.574 skos:exactMatches, 1.711 skos:relatedMatches).

Ist von einer Gruppenbezeichnung sowohl das Nomen als auch das Adjektiv vorhanden, finden sich die ausführlicheren Erklärungen einschließlich der Permalinks zu historischen Lexika ebenso wie die Verweise zu externen LOD-Ressourcen beim Nomen. Nur wenn es kein Nomen gibt, wurden sie dem Adjektiv zugeordnet. Alle LOD-Links verweisen auf maschinenlesbare DBpedia-Datensätze, die strukturierte Informationen aus der Online-Enzyklopädie Wikipedia enthalten. Ausgewählt wurde die englische Version, weil sie nicht nur die meisten Einträge enthält, sondern sich als sehr stabil erwiesen hat. Jeder dieser Datensätze beginnt mit einem auch für den Menschen lesbaren Abstract und verlinkt unter foaf:isPrimaryTopicOf zum englischen Wikipedia-Artikel, der zumeist weitere Sprachoptionen anbietet. In der Regel sind im Thesaurus auch bei den Sehenswürdigkeiten exakte DBpedia-Treffer vorhanden. Ist das nicht der Fall, verweisen die Links auf weiterführende Informationen, zumindest aber auf das Gebäude oder den Ort, in dem sich das Objekt befindet bzw. befand. Unterkünfte / Restaurants und Ausblicke wurden nicht mit externen Links ausgestattet.

Der travel!digital Thesaurus kontextualisiert 32.443 Belegstellen des Volltext-Korpus mithilfe ausführlicher Definitionen und externer LOD-Ressourcen. Integriert in die Webapplikation, fungiert er als Navigationshilfe nach innen und außen. Bewegt man die Maus über einen Thesaurus-Eintrag, erscheint ein Infofenster, das die entsprechenden Erläuterungen einschließlich aktiver Permalinks zu den historischen Lexika, bevorzugte und alternative Labels, verwandte Konzepte im Thesaurus sowie aktive Links zu DBpedia enthält. Klickt man einen Thesaurus-Eintrag an, werden die Treffer, die zu den Belegstellen führen, nach Bänden sortiert eingeblendet. Zusätzlich ist der travel!digital Thesaurus als Stand-Alone Version unter der Adresse der ACDH Vocabularies abrufbar. Der hierarchische Index hat hier deutlich mehr Platz, außerdem stehen ein alphabetisches Register sowie Suchoptionen mit Autocomplete zur Verfügung. Alle Thesaurus-Einträge der integrierten Version enthalten Links zur entsprechenden Ansicht in der Stand-Alone Version.

Im Laufe des ersten Quartals 2018 wird der Thesaurus ebenso wie das annotierte Volltext-Korpus einschließlich des TEI-Schemas im ACDH-Repositorium ARCHE unter der Lizenz creative commons CC-BY-SA 4.0 (Attribution–ShareAlike 4.0 International) frei verfügbar sein.

Besonderer Hinweis: Lädt man den Thesaurus zum ersten Mal, nimmt das einige Sekunden in Anspruch. Die interne Navigation sollte anschließend ohne längere Wartezeiten funktionieren.

Hinweise zur linguistischen Annotation

Die Anreicherung der Datenbasis mit Sprachwissen als Voraussetzung für generalisierte Abfragen und präzise Suchergebnisse wurde in mehrstufigen automatischen und halbautomatischen Verfahren durchgeführt.

Im sog. Pre-Processing erfolgten die Tokenisierung (Segmentierung des Textes auf Wortebene) und die automatische linguistische Annotation (Part-of-Speech-Tagging: Wortartzuordnung; Lemmatisierung: Rückführung flektierter Wortformen auf ihre Grundform). Bereits die Tokenisierung erforderte manuelle Interventionen, wobei sich regelmäßig auftretende Fehler durch Rekonfiguration des Tokenizer beheben ließen.

Den zeitintensivsten Bereich stellte die intellektuelle Überprüfung und manuelle Nachbearbeitung der automatisch generierten PoS- und Lemma-Informationen dar. Dies traf insbesondere auf den ersten Band zu, da Annotationsstrategien und Tagset-Anpassungen für die vorliegende Datenbasis erst zu entwickeln waren. Die linguistische Annotation erfolgte mit dem 54-teiligen Wortklasseninventar und nach den Richtlinien des Stuttgart-Tübingen-Tagsets STTS. Abweichungen davon wurden nur in wohl-begründeten Fällen vorgenommen und detailliert dokumentiert. Eigene Richtlinien waren etwa für die Lemmatisierung zu entwickeln, da die STTS-Guidelines diesen Bereich der linguistischen Annotation nicht abdecken. Als Referenzwerke wurden in diesem Zusammenhang der Duden und das Digitale Wörterbuch der deutschen Sprache DWDS herangezogen. Darüber hinaus sind von Regelwerkerweiterungen jene Bereiche betroffen, die seitens des STTS einen großen Interpretationsspielraum aufweisen.

Im sog. Post-Processing wurden korrigierte PoS- und Lemma-Daten dafür genutzt, ein Hilfslexikon zu generieren, das dazu diente, die automatische linguistische Annotation des jeweils folgenden Bandes zu verbessern. Der Einsatz dieses laufend erweiterten Hilfslexikons führte zu einer Steigerung der Trefferquote der automatischen PoS- und Lemma-Zuordnung im Vergleich zur Annotation ohne Hilfslexikon, wodurch sich die manuelle Nachbearbeitung in Teilbereichen deutlich verringern ließ.

Lemma- und Wortarteninformationen werden eingeblendet, wenn man die Maus über den elektronischen Volltext bewegt, und lassen sich in der Index- und kombinierten Suche nutzen.

Nach Aufbereitung der umfangreichen internen Dokumentation für die Öffentlichkeit wird diese umgehend zur Verfügung gestellt.

Hinweise zur strukturellen Annotation

Die strukturelle Annotation der digitalen Volltexte wurde nach den den Richtlinien der Text Encoding Initiative TEI vorgenommen. Die TEI Customization ist im ODD Format, in HTML und als Relax NG-Schema verfügbar.

Die Orthografie und Typografie einschließlich der Zeilenumbrüche und Worttrennungen der Druckvorlagen wurde weitestgehend übernommen. Die Korrekturen von Fehldrucken bzw. -schreibungen sind durch entsprechendes Markup ausgewiesen.

Anmerkung zur Texttranskription: Mit Ausnahme von Unterpunkten in transkribiertem Arabisch (Palästina und Syrien, 1875) werden Diakritika durch die entsprechenden Unicodes repräsentiert.