Nach einigen Jahren Webseitenbetreiberei rächen sich Unaufmerksamkeit, Unwissen und Schluderei. URLs die es nicht mehr gibt, befinden sich immer noch im Google-Index und lassen den Google Bot unnötiges Crawlbudget verschwenden. Die alten und ungültigen URLs lassen sich aber mit der .htaccess entfernen.
Um die alten URLs entfernen zu können, muss natürlich erstmal in Erfahrung gebracht werden, welche das denn eigentlich sind. Dabei helfen die Google Webmaster Tools Google Search Console. Unter dem Menüpunkt Crawling -> Crawlingfehler werden die nicht gefundenen (404) Seiten gelistet.
When I’m Dead And Gone
Schöner Song und passend zum Thema. Im Karteireiter „Nicht gefunden“ listet Google alle Seiten auf, die nicht gefunden werden konnten. Das muss aber nicht unbedingt auf alle zutreffen, dazu aber weiter unten mehr.
Um nun nicht jede URL mit einem 404-Fehler einzeln verwursten zu müssen, bietet sich der CSV- bzw der Google-Docs-Export an. In diesem Beispiel nutzen wir den Google-Docs-Export, der uns die komplette Tabelle mit den 404-Fehlern in eine entsprechende Tabelle bei Google Docs katapultiert. Dafür sorgt ein Klick auf Herunterladen über der Tabelle.
Die erste Spalte der sich nun öffnenden Tabelle enthält die URLs. Diese müssen nun, bis auf die Spaltenüberschrift, kopiert werden. Als nächstes wird ein Texteditor benötigt, der die Funktion Suchen & Ersetzen beherrscht. Jeder zweitklassige HTML-Editor sollte darüber verfügen.
Im Texteditor muss eine neue Datei erstellt und die eben kopierte Spalte eingefügt werden. Alle Einträge aus der Tabellenspalte sollten normalerweise jetzt fein säuberlich untereinander stehen.
Domain raus – Redirect 410 rein
Die URLs haben wir, allerdings enthalten die noch den Domainnamen. Die können wir in der .htaccess aber nicht gebrauchen. Der ließe sich nun ganz einfach mit der Ersetzen-Funktion entfernen. Praktischerweise wird aber auch noch eine Anweisung benötigt – und hier kommt die Funktion Suchen & Ersetzen ins Spiel.
Wir machen also aus:
1 |
https://www.domainname.de/fehlerhafte_url/ |
ein
1 |
Redirect 410 /fehlerhafte_url/ |
indem einfach über Suchen & Ersetzen der Text „https://www.domainname.de“ gegen „Redirect 410 „ ersetzt wird (Leerzeichen am Schluss beachten).
Ist der Vorgang beendet, sind die Umleitungen auch schon fertig eingerichtet und müssen nun nur noch in die Datei .htaccess kopiert und auf den Server geladen werden. Ob die URLs hinterher den richtigen Fehlercode zurück geben, lässt sich zum Beispiel mit OnPage.org Focus prüfen. Dieses zeigt an, welchen Statuscode die URL zurückgibt und ist auch in der kostenlosen Version enthalten.
Die URL-Liste genau überprüfen
Wer die exportierte Liste einfach so übernimmt, läuft Gefahr, möglicherweise auch erreichbare Seiten aus dem Index zu kegeln. Ist die Seite während dem Besuch eines Google-Bots, welchen Gründen auch immer, nicht erreichbar, landet diese nämlich auch in der Liste.
Hier lohnt es sich also einen Blick auf die URLs zu werfen und nach dem Upload der .htaccess die Webseite genau auf alle Funktionen zu überprüfen.
Im Netz steht 1000 x das Selbe besonders über Status Code 404 aber ich finde keinen vernünftigen 410 Status Code, den ich in die htaccess einfügen kann. Warum ist das so schwer?