Crawler

Was ist ein Crawler?

Ein Webcrawler, auch gelegentlich als Searchbot oder Spider bezeichnet, durchsucht eigenständig das World Wide Web. Er analysiert und indexiert Webseiten und deren Inhalte.

Wie funktioniert ein Crawler?

Das Programm führt kontinuierlich und selbstständig vorab definierte Aufgaben aus. Vergleichbar mit einem Internetnutzer folgt er den auf der Website hinterlegten Hyperlinks sowie HTML-Codes, um von einer Website zur nächsten zu gelangen. Als Start werden dem Crawler einige Links vorgegeben. Dabei ähnelt der zurückgelegte Weg im Internet einem Spinnennetz. Daher auch die alternative Bezeichnung “Spider”. Für die Analyse der Inhalte kopiert der Crawler die Seite und indexiert sie. Abhängig von vorab festgelegten Regeln, werden die Ergebnisseiten nach bestimmten Suchbegriffen gelistet. Ebenso können Grenzen festlegt werden, indem man Besuche kompletter Seiten oder das Folgen von einzelnen Links untersagt. Später können im Suchmaschinenindex aus der gewaltigen Datenmenge die benötigten Informationen schnell generiert und ausgewertet werden.

Welche Crawler unterscheidet man?

Im Jahr 1994 war die ursprüngliche Aufgabe des Crawlers den Suchmaschinen bei der Pflege des Indexes zu helfen. Auch heute nutzen z.B. Google zahlreiche Crawler, um das Internet nach Inhalten zu durchsuchen und so seinen Milliarden von Nutzern präzise Suchergebnisse zu liefern. Mittlerweile können Crawler vieles mehr sammeln, wie zum Beispiel RSS-Newsfeeds und E-Mail-Adressen, sowie das illegale Ausspähen von Nutzerdaten. Durch die Weiterentwicklung und die wachsende Leistung der Crawler, wird dieser in unterschiedlichen Bereichen eingesetzt.

Der Focused Crawler klassifiziert Websites und Links nach bestimmten Themengebieten, während beim Data-Mining das Web auf spezifische Daten durchsucht wird. So werden z.B. legal E-Mail-Adressen gesammelt, um diese später für Spam-Mails oder Ähnliches zu nutzen. Daher wird dieser Crawler auch als „Harvester“ (dt.: Erntemaschine) bezeichnet. Website-Betreiber können sich davor schützen, indem sie unter anderem die Daten mit info(at)Adresse(dot)com angeben.

Im wissenschaftlichen Bereich werden Crawler oft zur Vermessung des Internets und der Analyse genutzt. Eine weitere bekannte Anwendung findet sich in der sogenannten Plagiatssuche. Diese Bots dienen vorranging dem Schutz von urheberrechtlichen Inhalten und der Aufdeckung von Rechtsverstößen.

Einige Websites nutzen auch legal kopierte Inhalte, wie zum Beispiel Preisvergleich-Websites. Mit Hilfe des sogenanntes Scraping wird der benötigte Content gesammelt. Bei Scraping werden konkrete Inhalte und nicht wie üblich die Meta-Daten der Websites indexiert. Allerdings wird dieses Vorgehen ähnlich wie bei dem Data-Mining auch von Spam-Websites genutzt. Liegt dies vor, kann das Vorgehen als Manipulation gesehen werden und es zum Ausschluss von Suchmaschinenindexen führen.

Generell liegt es im Interesse jedes Webmasters die Website für Crawler optimal zu konfigurieren. Auch wenn bereits flache URL-Strukturen ausreichen, möchte man möglichst oft gefunden werden. Dies kann unter anderem durch viele Backlinks, hohe Besucherzahlen, oder eine gute interne Verlinkung erzielt werden. Allerdings gilt es sensible Inhalte zu schützen, um illegales Sammeln von Daten zu verhindern.

Social Media Monitoring mit hmstr

Suchen Sie im Netz gezielt nach Unternehmen, Marken, Produkten, Personen, Nachrichten oder Themen
Überwachen Sie die Netzgespräche Ihrer Kunden im Web
Reagieren Sie schnell und proaktiv auf mögliche Kritik Ihrer Kunden

Vereinbaren Sie eine kostenlose Erstberatung mit dem hmstr Team und entdecken Sie, wie ein ganzheitliches Social Media Monitoring Ihr Unternehmen unterstützen kann.