Stern inaktivStern inaktivStern inaktivStern inaktivStern inaktiv
 

Diese Webseite hat durch Umstruktirierung leider eine größere Anzahl von toten Links bekommen nachdem sie umstrukturiert wurde. Das gefällt den Suchmaschinen nicht. Deshalb habe ich ein go Programm geschrieben welches mir dabei geholfen hat die Seiten zu finden die tote Links enthalten und auch gleichzeitig eine sitemap für diese Webseite erstellt.

Folgende Seiten werden entdeckt:

1) Interne Seitenlinks die nicht OK sind (404, 403, ...)

2) Externe Seitenlinks die nicht OK sind (404, 403, ...)

3) Remote Links der Webseite die OK sind (200)

 

und jeweils die Seiten die darauf verlinken. Ist zwar etwas mühsam aber so konnte ich nach und nach alle ungültigen/toten Links aus meiner Webseite enfernen.

 

Wer es nutzen will - entweder einfach um eine Sitemap fuer seine Webseite offline zu generieren - oder eben wie bei meinem Problem Fehler auf seiner Webseite zu entdecken und zu eliminieren kann den Crawler wie folgt unter x86 Linux und von einer Raspberry aufrufen. Eine go Installation ist nicht notwendig.

 

curl https://raw.githubusercontent.com/framps/golang_tutorial/master/genSitemap/startCrawler.sh | bash -s -- https://<website>>

 

Later on the crawler can be started with ./startCrwaler.sh. Use option -worker numberOfWorkersif you want to use more than the 20 default workers.

Kommentar schreiben

*** Hinweis ***

Kommentare sind erwünscht. Aber um lästige Spamposts abweisen zu können gibt es ein paar Dinge die zu beachten sind:
  1. Kommentare mit dem Text http werden sofort zurückgewiesen mit der Meldung Sie sind nicht berechtigt den Tag zu verwenden. zz
  2. Kommentare werden manuell überprüft und es dauert deshalb in der Regel einen Tag bis sie veröffentlicht werden.