Funktionsweise von Crawlern

  1. Was ist ein Crawler?
  2. Was kann der Crawler lesen?
  3. ToDo’s

1. Was ist ein Crawler?

Suchmaschinen benutzen Crawler, um den Index zu erstellen, in dem die Nutzer anschließend die gewünschten Inhalte suchen und finden können.

  • auch Robots/Spider/Bots/Webcrawler genannt
  • Programm vergleichbar mit einem Bibliothekar
  • sucht selbständig das WWW nach Inhalten durch
  • springt von Link zu Link
  • weist sie zu bestimmten Kategorien zu
  • indexiert vollständig die Inhalte der Webseiten
    • Der Nutzer sucht im Index (Bibliothek)
  • Relevanz der Inhalte zu Keywords wird festgelegt
  • folgt weiteren Links im Dokument

2. Was kann der Crawler lesen?

  • Aufruf einer URL => Anfrage an den Server
  • Ladegeschwindigkeit
  • http-Statuscodes
  • Sitemap
  • Robots.txt
  • geht durch den Quellcode
  • liest sich die Auszeichnungen im Code:
    • HTML-Titel, Überschriften, Text
  • folgt weiteren Links im Code:
    • Javascript-Dateien, CSS-Dateinen (Stylsheeds), Medien, usw.

3. ToDo’s

  • Crawlbarkeit & Indexierbarkeit der Inhalte gewährleisten
  • Index-check
  • Steuerungselemente nutzen
  • Sitemap
  • Robots.txt
  • Ladegeschwindigkeit erhöhen
  • interne Verlinkungen
  • verständliche Metadaten
  • strukturierte Inhalte