Thesaurus

Ein Thesaurus ist eine systematische Organisation und Vernetzung von Begriffen mit ihren Eigenschaften, Beziehungen, Benennungen und anderen Merkmalen.

Ein Thesaurus ist ein wichtiges Werkzeug der Taxonomie.

Im Information Management sind Thesaurus häufig hinter strukturierten Auswahllisten, Bäumen oder einer Facetten-Klassifikation organisiert um bei Indizierung, Navigation und Wiederfinden den Anwender zu unterstützen.

Der Begriff Thesaurus auf Wikipedia:

Thesaurus
Ein Thesaurus bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Relationen mindestens approximativer Synonymie miteinander verbunden sind. Die Bezeichnung wird auch für linguistische Thesauri oder wissenschaftliche Wortschatzsammlungen einer Sprache verwendet.

Der Begriff „Thesaurus“ wird trotz allgemeingültiger Definition sehr unterschiedlich benutzt. Ursprünglich steht er für eine definierte Fachnomenklatur, die hierarchisch vom Grobem zum Feinen heruntergebrochen ist. Die Begriffe sind in der Bedeutung von einander eindeutig unterschieden und in mehreren Hierarchieebenen gegliedert, wobei mehrere Begriffe auf einer unteren Hierarchieebene einem inhaltlich übergreifendem Begriff auf der nächst höheren Ebene zugeordnet sind. Begriffe auf einer Ebene sollten einen ähnlichen Detaillierungsgrad haben.

In vielen aus den USA kommenden Textverarbeitungsprogrammen wird der Begriff „Thesaurus“ für eine Hilfsfunktion zur Wahl geeigneter Synonyme benutzt. Diese Art Thesaurus hat nichts mit der strukturierten Nomenklatur zu tun, wie sie z.B. durch die International Standardization Organization (ISO) für einfache und multilinguale Thesauri festgelegt ist.

Multilinguale Thesaurus

Thesaurus für multilinguale Programmsysteme verhalten sich nach außen ähnlich wie Auswahllisten. Es wird zunächst eine Liste mit den Oberbegriffen angezeigt (ISO Top Term; TT). Bei der Anwahl eines Oberbegriffs wird eine zweite Auswahlliste mit den zugeordneten Unterbegriffen angezeigt (ISO Narrower Term; NT). Wird hier ein Begriff ausgewählt, so bildet dieser den Oberbegriff (ISO Broader Term; BT) für die nächste Ebene von Unterbegriffen. Diese strenge Hierarchie ist auf die wenigsten Sachgebiete voll anwendbar. Der ISO-Standard sieht deshalb auch sogenannte „Crosslinks“ vor. Diese setzen Begriffe auf unterschiedlichen Ebenen und Verzweigungen unabhängig von der Position in der Hierarchie zueinander in Beziehung. Dies läßt sich mit einem Programmsystem einfacher als in gedruckter Form nachbilden.
Ein elektronischer Thesaurus wird programmintern ebenfalls durch Referenznummern abgebildet. Im Gegensatz zu Auswahllisten sind einem Eintrag im Thesaurus zusätzlich zum „unique Identifier“ (eindeutige Schlüsselnummer, die in der Datenbank gespeichert wird) die Anzeigeposition (auf welche Ebene und Verzweigung in der hierarchischen Darstellung der Eintrag angezeigt werden soll) und die Art (gegebenenfalls auch Art und Richtung) einer Verbindung als Merkmale zugeordnet. Die Verbindungen erlauben die Zuordnung eines Begriffes zu mehreren Oberbegriffen anderer Zweige wie auch die Zuordnung als Oberbegriff zu verschiedenen Unterbegriffen in anderen Verzweigungen unabhängig von der Position innerhalb der Hierarchie. Die Verwendung unterschiedlicher Links (uni-direktional, bi-direktional, broad-to-narrow, narrow-to-broad, additional reference, synonym, etc.) macht die Navigation in einem solchem System einfacher. Im Prinzip stellt ein elektronischer Thesaurus eine eigene Datenbankanwendung dar, die zwischen Benutzeroberfläche und eigentlicher Datenbank geschaltetet ist.

In der Datenbankanwendung wird nur der „Unique Identifier“ abgespeichert. Ist dieser mit einem „Narrower Term“ referenziert, können über die Verbindungen und die Position in der Hierarchie alle zum Begriff gehörigen Oberbegriffe und der „Top Term“ erschlossen werden.
Ein elektronischer Thesaurus wird intern als Netzwerk abgebildet (relationales System), nach außen aber als Hierarchie präsentiert. Die Zusammenstellung einer Liste von Begriffen ist daher nicht nur vom Oberbegriff, sondern auch von den Verbindungen und dem Weg, auf dem man zum Oberbegriff gelangt ist, abhängig. Im Gegensatz zu Auswahllisten können Listenanzeigen eines elektronischen Thesaurus je nach Situation unterschiedlich zusammengesetzt sein.

Neben der Navigationshilfe durch die Anzeige der Auswahllisten in Abhängigkeit eines zuvor gewählten Oberbegriffs kann ein Datenbankgestützter Thesaurus auch in unterschiedlichen „Spezialisten“- und „Anfänger“-Modi benutzt werden. Bei der Erfassung von Informationen ist ein „Spezialisten“-Modus sinnvoll, bei dem ein Unterbegriff oder ein Kürzel direkt eingegeben werden kann und die Datenbank selbsttätig die dazugehörigen Oberbegriffe ohne Durchlaufen der Hierarchie ermittelt. Bei einer Recherche durch Benutzer, die keine Erfahrung mit hierarchischen Auswahllisten oder mit dem sachlichen Inhalt des Thesaurus haben, ist ein „Anfänger“-Modus sinnvoll, bei dem die Texteingabe des Benutzers analysiert, auf einen „Match“ im Thesaurus durchsucht wird und im Zweifelsfall durch Hinzuziehung von Synonym-Listen und Hilfetexten eine Empfehlung zur Wiederholung oder Konkretisierung der Anfrage angezeigt wird. Eine solche „Global Search“ kann auch über weitere Felder oder andere zum Thesaurus gehörende Ressourcen durchgeführt werden.

Mehrere „Scheiben“ sind den eindeutigen Schlüsselvariablen der Thesaurus-Datenbank zugeordnet. Jede der Sprachscheiben enthält auch alle Informationen, wie die Begriffe hierarchisch und vernetzt angeordnet sind, da die Ordnung von Sprache zu Sprache verschieden sein kann (Begriffsunschärfen, feinere oder gröbere Unterteilungen). Unabhängig von den Differenzen in der Sprache muß aber immer die gleiche Information eindeutig auffindbar sein. Neben dem eigentlichen Begriff (Main Keyword) sind deshalb auch Acronyme (Abkürzungen aus den Anfangsbuchstaben von zusammengesetzten Begriffen oder Namen), Homonyme (gleichlautende Begriffe unterschiedlichen Inhalts), Synonyme (anderslautende Begriffe ähnlichen oder gleichen Inhalts), Pluralformen des Begriffs, etc. sowie eine erklärende Hilfe dem „Unique Identifier“ zugeordnet. Bei einer „Global Search“ werden diese mitdurchsucht.
In einer solchen „Sprachscheibe“ muß jedoch nicht unbedingt eine Fremdsprache enthalten sein, es können auch unterschiedliche Ressourcen in einer Landessprache benutzt werden. Dies ist sinnvoll, wenn es sich um Fachinformationen handelt. So kann z.B. in einer „Scheibe“ die umgangssprachliche Information enthalten sein, die nur zwei bis drei Ebenen enthält und Nicht-Fachspezialisten zugänglich ist, und in einer zweiten „Scheibe“ die Fachnomenklatur fein aufgegliedert in weiteren Ebenen, die nur dem Fachmann zur Verfügung steht. Damit läßt sich auch Umfang, Tiefe und Zugriff zur Information steuern.

Der Nutzen einer elektronischen Thesaurus-Datenbank neben der modularen „Scheiben“-Struktur für multilinguale Anwendungen ist vielfältig:

  1. Standardisierter, kontrollierter Wortschatz sichert das eindeutige und vollständige Wiederfinden aller korrekt erfaßten Informationen.
  2. Eingabefehler werden vermieden.
  3. Auswahllisten und Hilfefunktionen erleichtern die Navigation durch umfangreiche und tiefgegliederte Fachnomenklatur.
  4. Funktionen wie „Global Search“ erlauben die Suche auch im Synonym-, Homonym-, Acronym- und anderen Verweiseinträgen sowie im Hilfetext selbst.
  5. Aufbau und Struktur von Thesauri sind international standardisiert.
  6. Eine Thesaurus-Datenbank arbeitet als „Pre-Processor“ und spart Zeit bei der Suche in der eigentlichen Datenbank, da nur noch kurze, eindeutige numerische Referenzen durchsucht und ausgewertet werden. Die Umsetzung der Schlüsselzahlen für die Anzeige erfolgt wiederum durch den Thesaurus.
  7. Thesaurus-Datenbanken können auf PC-Rechnern in einem Netzwerk lokal betrieben werden und entlasten damit als „Pre-Processor“ die zentrale Datenbank und das Information Resources Management (IRS).

Wird zusätzlich zur Thesaurus-Datenbank und zur eigentlichen Datenbank eine Verwaltungssoftware zur Ansteuerung optischer Systeme eingesetzt, so ergibt sich eine dreistufige Datenbankhierarchie:

  1. Datenbank für einen oder mehrere Thesauri (lokal oder zentral)
  2. Datenbank zur Verwaltung von Schlüsselzahlen zu Auswahllisten und Thesauri sowie von standard Datenbankeinträgen (numerisch, alphanumerisch, Datum, Zeit, boole´sche Variable, etc.)
  3. Information-Retrieval-and-Access-System (IRAS). In der Regel eine Non-Standard-Daten-bank zur Verwaltung nur einmal beschreibarer WORM-Medien, wieder-beschreibarer optischer Speicher (Erasable, Rewritable, M/O) oder nur lesbarer Speicher (CD-ROM).

Für eine Thesaurus-Datenbank kann ebenso wie für die eigentliche Anwendung eine Standard-Datenbank eingesetzt werden (vorzugsweise eine relationale Datenbank). Volltext-Datenbanken sind für diese Art der Anwendung nicht geeignet. (Dr. Ulrich Kampffmeyer, 2010)

Ein Thesaurus mit kontrollierter Begrifflichkeit kann in Informationssystemen ein wichtiges Element sein, um Navigation, Auffindbarkeit und Nutzbarkeit der gespeicherten Records zu erleichtern.

Dr. Ulrich Kampffmeyer
Records Management Fachtag 2012

Ressourcen: