Die Funktionsweise von WWW-Suchsystemen
von Frank Reinhardt

1. Einleitung

2. Die drei verschiedenen Systeme
    a) Suchmaschinen i.e.S.
    b) Kataloge
    c) Meta-Indices

3. Wissenswertes zu Suchsystem im WWW
    a) Die VLM-Technologie und die Entstehung von Suchmaschinen i.e.S.
    b) Boolesche Operatoren
    c) Ranking

4. Anhang (Links)
    a) Suchmaschinen i.e.S.
    b) Kataloge
    c) Meta-Indices
    d) Spezial-Suchsysteme
        aa) E-Mail-Suchmaschinen
        bb) Usenet
        cc) Shareware
        dd) Anwälte
        cc) Urteile
        dd) Telefonnummern und Adressen


1. Einleitung

Das WWW besteht z.Zt. aus rund 80 Millionen Websites. Um in dieser unüberschaubaren Datenmenge diejenigen Informationen und Seiten zu finden, die gerade von Interesse sind, bedarf es elektronischer Unterstützung. Sog. Suchmaschinen übernehmen diese Aufgabe auf verschiedene Art und Weise. Im computerwissenschaftlichen Bereich spricht man hierbei vom sog. "Data Mining", dem gezielten "Graben" nach Informationen im WWW. Gemeinsamkeiten und Unterschiede sowie die grundlegende Funktionsweise sollen im folgenden erläutert werden.
 

zurück zur Gliederung

2. Die drei verschiedenen Systeme

a) Suchmaschinen i.e.S.
Der Begriff "Suchmaschine" wird heute im WWW synonym für alle drei Arten von Suchsystemen verwendet. Genau genommen gibt es hierbei jedoch einige beachtenswerte Unterschiede.
Das vorliegend Suchmaschine im engeren Sinne genannte System besteht intern aus drei zusammenarbeitenden Komponenten.

        aa) Die erste Komponente ist ein sog. Web-Roboter, der auch Spider oder Wanderer genannt wird. Er hat die Aufgabe, das gesamte erfaßbare WWW zu durchqueren und hierbei Daten zu sammeln. Damit ist seine Aufgabe bereits beendet. Aufgrund der Größe des WWW (wie erwähnt ca. 80 Mio. Sites) benötigt der Roboter hierfür zwischen zwei und sechs Wochen. Hieraus kann auch ein direkter Rückschluß auf den Aktualisierungsintervall solcher Suchmaschinen i.e.S. gezogen werden, über den sich die Betreiber im allgemeinen ausschweigen.

        bb) Der Web-Roboter gibt das gesammte erfaßte Datenmaterial kontinuierlich an einen sog. Indexer weiter. Dieser speichert nun entweder die gesamte Website in einer Datenbank ab oder aber wertet das eingehende Material auf die notwendigsten Attribut-Informationen hin aus (z.B. URL, Autor, Inhalt, Datum, ...) und speichert nur eben diese. Im letzgenannten Fall erstellt der Indexer zumeist noch eine automatisch generierte Zusammenfassung des Seiteninhalts. Der Indexer hat also eine ersichtliche Bedeutung für die Effizienz und Trefferquote einer Suchmaschine i.e.S., da er die Grundlage des gesamten Systems in Form der Datenbank schafft. Er ist jedoch ein reines Input-Instrument.

        cc) Für Recherche und Ausgabe der Suchergebnisse ist die eigentliche Suchmaschine verantwortlich. Sie steht in direktem Benutzerkontakt, nimmt dessen Anfragen in form von Stichwörter entgegen, recherchiert in der erwähnten Datenbank und gibt die Suchergebnisse aus. Sie ist also ein reines Output-Instrument ohneEinflußmöglichkeit auf den Datenbankbestand.
Aufgrund der noch zu beschreibenden sog. VLM-Technologie liegt die Antwortzeit sämtlicher heute im WWW eingesetzten (eigentlichen) Suchmaschinen im Zehntelsekundenbereich. Daß es teilweise 60 Sekunden und länger dauert, bis dem Benutzer die Suchergebnisse angezeigt werden, liegt demzufolge immer an Übertragungsgeschwindigkeit und Auslastung des Netzes, nie jedoch am Suchsystem selbst.

        dd) Als Reaktion auf die unkontrollierbaren Aktivitäten der Web-Roboter wurde der sog. Robots Exclusion Standard entwickelt, anhand dessen auf einfache Weise verhindert werden kann, daß ein Web-Robot die Seiten eines Servers erfaßt und an einen Indexer weitergibt. Hierbei ist es zum einen möglich, einen kompletten Server dem Lesezugriff eines Web-Roboters zu entziehen, indem im Root-Verzeichnis des Servers eine bestimmte ASCII-Datei mit einem entsprechenden Inhalt abgelegt wird. Fast alle im Einsatz befindlichen Roboter unterstützen und beachten diese Datei und verlassen den Server wieder, ohne die Inhalte weiter zu durchsuchen.
Für den "normalen" User (der oft gar keine Rechte hat, im Root-Verzeichnis eines Servers zu schreiben), gibt es weiterhin die Möglichkeit, einzelne Seiten wahlweise der Durchsuchung durch einen Web-Roboter zu entziehen. Dies geschieht durh die Benutzung sog. META-Tags, worauf vorliegend jedoch nicht näher eingegangen werden soll.

b) Kataloge
Eine weitere Spezies der Suchsysteme im WWW sind die sog. Kataloge. Im Gegensatz zu den oben erläuterten Suchmaschinen i.e.S. sind Kataloge von Menschenhand erstellte und gepflegte Datenbanken. Es gibt also weder einen Web-Roboter noch einen Indexer. Lediglich die dritte Komponente, die eigentliche Suchmaschine, ist wie bei a) vorhanden und übernimmt als Benutzerschnittstelle zur Datenbank auch dieselben Aufgaben.
Betreiber von Katalogen versuchen, die Informationen systematsich nach Themenbereichen geordnet abzulegen. Diese Aufgabe ist für einen Indexer unmöglich zu bewältigen, da er eine Information zwar mathematisch, nicht aber wertend beurteilen und kategorisieren kann. Aus diesem Grunde sinf Kataloge in manchen Fällen auch die bessere Wahl für den Suchenden, v.a. wenn es sich um eher grob umrissene, nur schwer spezifizierbare Informationen handelt.
Betreiber von WWW-Seiten können diese zumeist mittels eines Online-Formulares bei den Katalogbetreibern anmelden, welche die Seite dann (zumeist nach vorangehender Prüfung auf legale Inhalte etc.) in den Katalog aufnehmen.
Vor- und Nachteile eines Katalogsystems halten sich die Waage: Während der verwaltete Datenbankbestand oft kleiner ist als bei a), ist die Wahrscheinlichkeit hoch, daß es sich im Falle eines "Treffer" auch tatsächlich um die gesuchte Information handelt.
Eine neue Tendenz bei Suchsystemen ist auch die Verbindung von Suchmaschinen i.e.S. und Katalogen (z.B. Excite , Infoseek). Praktisch sieht das zumeist so aus, daß das als Suchmaschine i.e.S. konzipierte System zusätzlich auch einen handverwalteten Katalog besitzt, wobei bei der Trefferausgabe die Katalogtreffer gegenüber den übrigen eine höherer Priorität besitzen. Das komplizierte Zusammenspiel wird dabei von Hochleistungsrechnern übernommen, worauf vorliegend nicht näher eingegangen werden soll.

c) Meta-Indices
Das letzte der hier darzustellenden Suchsysteme besitzt genau genommen keine selbständige Erscheinungsform. Seine Aufgabe besteht lediglich darin, Suchanfragen eines Benutzers entgegenzunehmen, diese intern zu kopieren und anschließend simultan an möglichst viele Suchsysteme der beiden oben beschriebenen Arten weiterzuleiten. Diese übernehmen dann unbemerkt vom Benutzer die eigentliche Recherche im Hintergund und geben die Suchergebnisse wieder an den Meta-Index zurück. Dessen Leistung besteht nun darin, eventuelle doppelte Treffer in Kongruenz zu bringen und das Ergebnis wiederum an den Benutzer weiterzuleiten. Dieses Vorgehen wird auch Cross-Suche genannt.
Auch hierbei sind Vor- und Nachteile gegeneinander abzuwägen. Die Recherche dauert im allgemeinen länger als die in einer der o.g. Systeme. Außerdem führt sie häufig zu einer unüberschaubaren Treffermenge. Sie ist jedoch auch gleichzeitig wesentlich zeitsparender, als wenn der Anfragende selbst in jeder der konsultierten Systeme suchen und die Ergebnisse in Einklang bringen müßte.
Die Suche mit Hilfe sog. Meta-Indices empfiehlt sich daher im allgemeinen dann, wenn es sich um einen ausgefallenen, seltenen und sehr speziellen Suchbegriff handelt, dem vermutlich nur ein dünner Datenbestand gegenübersteht.
Die Entscheidung "in re Lowry" ist ein solcher Spezialbegriff, weshalb sich für die Recherche in diesem Fall ein Meta-Index anbot. Tatsächlich konnte die Entscheidung damit auch innerhalb kürzester Zeit gefunden werden (dazu unten).

zurück zur Gliederung

3. Wissenswertes zu Suchsystem im WWW

a) Die VLM-Technologie und die Entstehung von Suchmaschinen i.e.S.
Suchsysteme für das WWW gibt es noch nicht sehr lange. Anfang des Jahres 1995 beendete die amerikanische Computerfirma DIGITAL ihre Entwicklung der sog. VLM-Technologie (VLM = Very Large Memory). Sie ermöglichte erstmals das Bereithalten riesiger Datenbestände im Hauptspeicher eines Rechners, was ein ungeheurer Fortschritt in puncto Geschwindigkeit war, da nun nicht mehr ständig auf vergleichsweise langsame externe Speichermedien wie Festplatten etc. zurückgegriffen werden mußte. Die neue Technologie bot sich damit geradezu für Datenbanken und Suchsysteme an. Dies erkannte auch die Fa. DIGITAL, die als Folge von VLM einen "Datensammler" namens SCOOTER entwickelte, dem Vorgänger der heutigen Web-Roboter. SCOOTER sollte als Vorzeigeprodukt fungieren und Werbung für die VLM-Technologie machen. Damit wurde jedoch gleichzeitig der Grundstein für die heute üblichen WWW-Suchsysteme entwickelt. SCOOTER ist übrigens noch heute im Einsatz: Er ist der Web-Roboter der bekannten Suchmaschine ALTAVISTA, die noch immer von DIGITAL betrieben wird.
Schon damals dachte man auch an mögliche Nachteile von SCCOTER: Durch seine Suchaktivitäten nutzt das Programm Ressourcen der untersuchten Server, vermindert deren Arbeitsleistung und verlangsamt damit möglicherweise spürbar ein gesamtes System. Aus diesem Grunde wurde bereits 1995 eine Begrenzung festgelegt, derzufolge SCOOTER nie mehr als 1 % der Rechenleistung eines untersuchten Servers in Anspruch nehmen durfte. Diese Selbstbegrenzung hat auch die Mehrzahl Betreiber der übrigen Suchmaschinen i.e.S. übernommen, weswegen sie heute als Standard gilt.

b) Boolesche Operatoren
Allen beschriebenen Suchsystemen gemeinsam ist eine Benutzerschnittstelle, über die die Eingabe der Suchbegriffe und später auch die Ausgabe der Treffer erfolgt. Oftmals handelt es sich dabei um eine einfache Eingabezeile, die bei Bedarf per Mausklick zu einem speziellen komfortables Suchmenü erweitert werden kann. Der Benutzer füllt einfach die vorgegebenen Felder aus und betätigt einen "Suchen"-Button (o.ä.).
Häufig ist es jedoch zur Begrenzung der zu erwartenden Treffermenge notwendig, nach mehreren Suchbegriffen gleichzeitig zu suchen, um eine Information im WWW ausfindig zu machen, v.a. dann, wenn die Begriffe per se nichts miteinander zu tun haben. Die Suchbegriffe können dann auf verschiedene Arten miteinander in Bezug gesetzt werden. Dies geschieht mit Hilfe sog. Boolescher Operatoren. Die gängigsten Verbindungsarten sind dabei kumulativ, alternativ oder exclusiv. Die entsprechenden Operatoren dazu sind bei deutschsprachigen Systemen "und" , "oder", "nicht", bei englischsprachigen "and", "or", "not".

Beispiel für die Eingabe in einer deutschsprachigen Suchmaschine: Autohaus und Hessen

Weiterhin kann auch nach stehenden Begriffen gesucht werden, die aus mehreren Wörtern bestehen. Dies geschieht durch das Setzen von Anführungszeichen.

Beispiel für die Eingabe: "Amnesty International"

Schließlich ist es möglich, mit Hilfe von sog. Trunkierungen oder Jokern ("*") nach Wortbestandteilen zu suchen.

Beispiel für die Eingabe: Bundes*

Auch eine Kombination der gennaten Operatoren ist möglich und oft auch notwendig, um die Treffermenge auf ein überschaubares Maß zu reduzieren.
Neben den genannten gängigsten Operatoren gibt es einige weitere, auf die vorliegend nicht näher eingegangen werden soll. Es empfiehlt sich, vor der Recherche mit einer Suchmaschine i.e.S. deren fast immer vorhandene interne Hilfefunktion zu nutzen und sich die Besonderheiten des jeweiligen Systems vor Augen zu führen.

c) Ranking
Fast alle gängigen Benutzerschnittstellen der drei verschiedenen Systemtypen geben die Suchergebnisse in Form eines sog. Rankings aus. Dabei werden die Ergebnisse untereinander aufgelistet, wobei das Ergebnis, welches völlig mit dem Suchbegriff übereinstimmt, an erster Stelle steht. Parallel dazu wird jedem Treffer eine Prozentzahl zugeordnet. Der eben erwähnte, zuerst angezeigte Treffer erhielte entsprechend seiner 100%igen Übereinstimmung mit dem Suchbegriff den Wert "100%".
Anschließend erfolgt die Ausgabe der übrigen Treffer nach Maßgabe der stetig weiter abfallenden Prozentzahl.
 

zurück zur Gliederung

4. Anhang (Links)

a) Suchmaschinen i.e.S.
 

AltaVista 
durchsucht WWW und Usenet; ca. 30 Mio. indizierte Websites und 4 Mio. Newsgroup-Beiträge; schnell
Excite 
mit Katalog; aktuelle Meldungen aus über 300 Zeitschriften und Zeitungen
Lotse 
mit Katalog; speziell für französische, deutsche und italienische Seiten 
Webcrawler 
indiziert hauptsächlich amerikanische Sites
Lycos 
mit Katalog; Suche nach Bildern und Audiodateien möglich
NetGuide 
mit Katalog; Betreiber ist die Zeitschrift FOCUS
HotBot 
mit Katalog; ca. 54 Mio. Websites indiziert
Dino-Online 
mit Katalog; indiziert ausschließlich deutsche Sites; z.Zt. ca. 400.000, davon ca. 50.000 redaktionell bearbeitet
Infoseek 
mit Katalog; ca. 50 Mio. Websites
Kolibri (the Krautsearch) 
indiziert ausschließlich deutsche Sites
 

b) Kataloge

Web.de
Der Katalog beinhaltet ca. 100.000 ausschließlich deutsche Websites, Tendenz stark steigend. Alle Einträge sind redaktionell bearbeitet und in Kategorien geordnet. 

Yahoo!
Yahoo! ist ein in den U.S.A. entwickeltes Katalog-Suchsystem. Es wird redaktionell bearbeitet und ständig aktualisiert. Dabei ist für die meisten größeren Länder ein eigenes Yahoo!-Suchsystem eingerichtet worden, so z.B. auch Yahoo! Deutschland. Für die größten amerikanischen Städte sind ebenfalls Spezial-Kataloge verfügbar. Eine Übersicht über alle Yahoo!s finden sie hier.
Wenn Sie in Yahoo! Deutschland suchen möchten, klicken Sie hier.

c) Meta-Indices

CUSI
CUSI (Configurable Unified Search Engine) ist ein von der Unix-AG der Universität Siegen betreuter Meta-Index.
Auf dieser Seite findet sich auch eine ausführlichere Übersicht über die verschiedenen Suchsysteme, als sie an dieser Stelle gegeben werden kann. Eine QuickSearch-Eingabeseite ist hier zu finden.

MetaCrawler
Dieser Index gibt Suchanfragen sowohl an WWW-Suchsysteme als auch an Newsgroup-Search-Engines weiter. Weiterhin ist es möglich, Dateien auff FTP-Servern zu finden.

MetaCrawler search:  any all as a phrase 

Savvysearch
Erlaubt den Einsatz Boolescher Operatoren per Mausklick sowie einige weitere Konfigurationsmöglichkeiten. Weiterhin ist die Benutzerschnittstelle in über 20 Sprachen verfügbar. Geben Sie einen Suchbegriff ein und drücken Sie die ENTER-Taste.

 

 
 
d) Spezial-Suchsysteme

 aa) E-Mail-Suchmaschinen
Einige Suchmaschinen sind darauf spezialisiert, statt Websites E-Mail-Adressen von Personen herauszufinden. Teilweise ist es im direkten Anschluß daran auch möglich, Adresse und Telefonnummer des Gesuchten zu finden. Im Lichte von Datenschutz und immer sensibler und effektiver werdender Technologie eine sicherlich bedenkliche Entwicklung. Hier trotzdem einige Links:

BigFoot
Dieses System sucht wahlweise nach E-Mail-Adressen, Web-Sites oder Telefonbucheinträgen.

MESA
MESA (Meta E-Mail Search Agent) wird vom Regionalen Rechenzentrum Niedersachsen (RRZN) der Universität Hannover betrieben. Die Besonderheit ist dabei, daß MESA nicht nur eine eigene Datenbank besitzt, sondern die Suchanfrage ähnlich der oben beschriebenen Meta-Indices an andere E-Mail-Datenbanken weitergibt.

Four11!
Auch mit diesem Suchsystem ist es möglich, sowohl nach E-Mail-Adressen als auch nach Telefonnumern zu suchen. DIe Telefonnummern-Recherche dürfte aber wohl eher für den amerikanischen Raum konzipiert sein.
 
 
First name 
Last name 
 
 

Suchen.de
Suchen.de ist eine Datenbank mit bereits über 100.000 E-Mail-Adressen. Es ist möglich, nach Namen, Ort, Postleitzahl zu suchen.

 
 bb) Usenet
DejaNews
Das gesamte Usenet seit März 1995 ist indiziert ! Geplant ist, auch den Rest des Usenet von seiner Gründung an (1979) zu indizieren

Search for: 
Example: digital cameras
Example: pamela anderson
Example: genealogy
Example: electronic stock trading
 
AltaVista
Besitzt eine eigene Usenet-Suchfunktion (s.o.).
 
 cc) Shareware
Shareware ist Software, die zu Testzwecken für eine bestimmte Zeit kostenlos ausprobiert werden kann. Nach Zeitablauf ist die Software entweder zu löschen oder die (meist geringe) Registriergebühr an den Autor zu zahlen ! Shareware gibt es für fast alle nur denkbaren Zwecke und Anwendungsbereiche. Große Mengen an Shareware-Programmen liegen auf FTP-Servern. Die nachfolgenden Programme helfen bei der Suche:

Shareware.com

Filez.com

Download.com

 dd) Anwälte
Der Anwalt-Suchservice betreibt eine Datenbank mit über 6000 Anwälten, wobei nach Kanzleiort, Rechtsgebieten oder Fremdsprachenkenntnissen recherchiert werden kann.

 ee) Urteile
GLAW ist ein Projekt der Universität Würzburg. Bisher ist bereits eine beträchtliche Anzahl von Urteilen im Volltext einschließlich der Seitenzahlen der amtlichen Sammlung erfaßt. Das gesamte Archiv läßt sich als ZIP-File herunterladen.

Der Lehrstuhl für Öffentliches Recht der Universität Passau bietet aktuelle und auch ältere Entscheidungen der Verfassungsgerichte der Länder sowie des BVerfG im Volltext an.

Der Verlag Recht und Praxis hält auf seinen Webseiten sowohl Urteilssammlungen als auch interessante Einzelentscheidungen bereit.

 ff) Telefonnummern und Adressen
Die Gesellschaft DeTeMedien hält im WWW ein elektronisches deutschlandweites Telefonbuch bereit. Auch die Gelben Seiten sind integriert.


zurück zum Anfang

Frank Reinhardt