Grenzen von Suchmaschinen
und was man nicht findet
(in Anlehnung an Karzauninkat 1998,
S. 47 ff.)
- Gesamte Zahl
der indexierten Dokumente pro Suchmaschine
- jede Suchmaschine
kann nur einen Teil der weltweit erreichbaren Dokumente aufnehmen
- Suchtiefe pro Domain
- jeder Robot taucht
nur bis zu einer bestimmten Hierarchiestufe in die Verzeichnisstruktur eines
Servers ein
- besonders betroffen
sind hiervon die Homepages bei großen Online-Diensten
- Suchtiefe pro Dokument
- nicht alle Maschinen
indexieren den vollständigen Text eines Dokuments, sondern erstellen
eine Zusammenfassung bestehend aus einzelnen Textteilen
- so kann es vorkommen,
daß relevante Textpassagen eines Dokuments nicht erfaßt werden
- Leitungs- bzw. Serverüberlastung
aufgrund zu hoher Benutzungsfrequenz
- Bedienungsprobleme
- Probleme mit der Syntax
- Unübersichtliche
Eingabemasken
- Qualität der
indexierten Dokumente
- z.T. mangelhaft erschlossene,
aber interessante Dokumente stehen neben einer Flut von guterschlossenen,
nichtssagenden privaten Homepages
- Nicht korrekt benutzte
Terminologie oder Rechtschreib- bzw. Tippfehler
- viele Web-Dokumente
werden nicht so sorgfältig wie gedruckte Dokumente überprüft
- Mangelnde Aktualität
des Dokumentinhaltes
Was man in Suchmaschinen nicht findet
(in Anlehnung an Babiak 1999, S. 107
ff.)
- Neuerstellte oder
geänderte Dokumente
Solange auf neuerstellte Dokumente kein Verweis („Hyperlink“) von außen
vorliegt und diese Seiten auch nicht selbst angemeldet wurden, können diese
von den Suchrobots nicht gefunden werden.
Geänderte Dokumente werden erst beim nächsten Aktualisierungszyklus
der Suchmaschinen gefunden; das kann bis zu mehrere Wochen dauern.
- Geschützte Dokumente
Dokumente, auf die nur durch eine Registrierung oder durch ein Password zugegriffen
werden kann oder die hinter einer sog. Firewall (= Schutz eines Netzwerkes vor
Benutzern aus anderen Netzwerken) liegen.
Außerdem kann jeder Betreiber eines Servers festlegen, ob der gesamte
Server oder einzelne Teilbereiche überhaupt von den Robotern besucht werden
dürfen. Hierzu muß nur eine „Verbots-Datei“ (sog. „Robots.txt“-Datei)
im Root-Verzeichnis des Servers abgelegt werden.
- Datenbankgateways
/ Dynamische Dokumente
(sog. "Invisible
Web" oder "Deep Web")
Dokumente, die nicht als fertige Dateien auf WWW-Servern liegen, sondern etwa
nur über Formulare (z.B. Bibliothekskataloge etc.) abgefragt werden.
--> Datenbankinhalte können also über Suchmaschinen kaum recherchiert
werden. Mit den Spezialsuchdienste-Verzeichnissen
(Metasuchhilfen) lassen sich jedoch im Internet vorhandene Datenbanken, Bibliothekskataloge
und ähnliche Dienste überhaupt ermitteln, um in diesen dann direkt
suchen zu können.
- Dateien, die erst
über spezielle Anwendungsprogramme zugänglich werden (z.B. Java)
- HTML-Dokumente mit
Frames
Nur wenige Suchroboter verarbeiten Frame-Dokumente außerhalb der Startseite,
da Schwierigkeiten auftreten, die Frame-Dokumente als Treffer in die richtige
Kombination zu anderen Frame-Bereichen zu bringen.
- Linkzugriffe aus
Bereichen von Grafiken (Imagemaps etc.)
- E-Mailadressen
Diese können über die allgemeinen (globalen) Suchmaschinen nicht recherchiert
werden.
Copyright: B. Meier