Als Webcrawler wird ein Programm bezeichnet, dass automatisch das Internet nach speziellen Informationen und Daten durchsucht. Bei diesen Informationen und Daten kann es sich beispielsweise um Kontakte wie E-Mailadressen handeln sowie ebenso um Produktinformationen in Online-Shops. Webcrawler werden zusätzlich oftmals zur Indexierung einer Internetseite für Suchmaschinen wie Google und Co. angewandt.
Bots zur Datenanalyse im Internet
Ein Webcrawler ist vielen ebenso unter den Namen Bot, Searchbot, Robot oder Spider bekannt. Die Software durchsucht das Internet „von allein“ nach verschiedenen Informationen und Daten und analysiert diese im Anschluss. Vor allem für die Indexierung von Internetseiten für Suchmaschinen werden Webcrawler oftmals genutzt. Der Bot sucht und besucht Internetseiten und speichert verschiedene Informationen und Daten im Index. Damit die Informationen und Daten stetig aktuell bleiben, besuchen Searchbots die Webseiten mehrmals.
Nicht alle Daten und Informationen kann ein Webcrawler speichern. Datenbanken oder Portale mit Zugangsbeschränkung findet der Bot in der Regel nicht, E-Mailadressen, Kontaktdaten sowie Informationen zu Produkten kann das Programm aufspüren.
Wie funktioniert ein Webcrawler?
In den meisten Fällen arbeiten Webcrawler automatisch, die Aufgaben wiederholt das Programm in unterschiedlichen Abständen selbstständig.
Und so funktioniert das Programm: Über einen Link gelang der Searchbot auf eine Internetseite und sammelt die entsprechenden Informationen und Daten. Hat ein Bot einmal eine Seite besucht, ist diese abgespeichert. Eine besuchte Website wird im regelmässigen Zeitraum erneut besucht, um die gespeicherten Informationen und Daten aktuell zu halten.
Wichtig: Bei der Indexierung der Homepage für Suchmaschinen ist ein Webcrawler hilfreich, da die Seite mithilfe von speziell abgespeicherten Suchbegriffen vom User gefunden wird.
Wie vor Searchbots schützen?
Beim Thema Suchmaschinenindex ist es sinnvoll, wenn ein Bot die eigene Website besucht hat und Informationen und Daten sammelt. Schliesslich soll die Homepage von anderen gefunden und besucht werden.
Unerwünscht ist trotz allem oftmals das Sammeln von E-Mailadressen. Aus diesem Grund schreiben viele Betreiber von Webseiten die E-Mailkontakte beispielsweise als muster(at)domain(dot)at. In der Regel kann ein Webcrawler diese E-Mailadresse nicht erkennen.