Bots/Crawler/Spider und die error_log

Alles, was den Apache betrifft, kann hier besprochen werden.

Bots/Crawler/Spider und die error_log

Postby opportunist » 02. July 2006 06:44

Guten Morgen,

ich habe ein "Problem", was für mich sehr ätzend ist. Ich betreibe eine Website, auf der einige große Änderungen stattfanden. Zu den Änderungen gehören auch Umstrukturierungen der Website; sprich: Dateien sind in anderen VErzeichnissen, Verzeichnisse exitieren nicht mehr u.Ä.

Hier nun eines meiner Probleme:

[Sat May 27 04:10:49 2006] [error] [client 213.143.193.171] script not found or unable to stat: /var/www/vhosts/domain.de/cgi-bin/verzeichnis

Diese Meldung besagt, dass das besagte Verzeichnis nicht gefunden wird. Kein Wunder: es ist ja auch nicht da! Das dumme ist, dass dieser Eintrag hunderte Male in der error_log auftaucht, weil der Pfad von X Bots angefahren wird und dann nichts findet. Jetzt ist meine Frage: kann ich irgendwas tun, damit die Bots diesen Bereich nicht mehr "anfahren"? Ich hatte es schon mit einer robots.txt versucht, die den Zugriff verbieten soll. Hilft nicht.

Die error_log ist bis zu 60MB groß wegen solcher Einträge, das ist nicht mehr schön. Ich muss irgendwie dafür sorgen, Bots und Spider/Crawler von bestimmten Bereichen die es mal gab und nicht mehr gibt, fernzuhalten.

Es wäre toll wenn da jemand einen Tipp hat! Ich bedanke mich schonmal im Voraus.

Schönen Sonntag!
opportunist
 
Posts: 5
Joined: 18. January 2005 10:06
Location: Braunschweig

Postby deepsurfer » 02. July 2006 14:20

kann ich irgendwas tun, damit die Bots diesen Bereich nicht mehr "anfahren"? Ich hatte es schon mit einer robots.txt versucht, die den Zugriff verbieten soll. Hilft nicht.

Das wird auch einige Zeit so bleiben, da nicht alle BOTs gleich schnell oder Aktuell arbeiten.
Die robots.txt ist eine möglichkeit, hängt aber davon ab ob ein SearchBot überhaupt auf diese robots.txt reagiert.

Desweiteren ist es auch so, das der bekanntheitsgrad deines Content auch dazu führt das viele einzelpages einen LINKeintrag zu dir haben und nun diese nicht beantwortet werden können, aber diese abrufe halt in deinem LOG auftauchen.

Ich weiss jetzt nicht wie flexible man den LOGgenerator einstellen kann, aber spontan würde mit jetzt ein script im Kopf herumschwirren, das jede nacht per cronjob gestartet wird. Dieses Script dann dein Logfile einliest und alle stellen herauslöscht die du zuvor als Zeichenkette definiert hast.
Und schon hättest du ein bereinigtes Logfile.

--- wie gesagt, könnte auch einfacher gehen, nur weiss ich das jetzt nicht wie und wo man das genau im Loggenerator einstellt ---
chirio Deep
Wie sagte einst der MCP aus Tron auf dem Bildschirm zu schreiben Pflegte
" ... end of communication ... "
User avatar
deepsurfer
AF Moderator
 
Posts: 6440
Joined: 23. November 2004 10:44
Location: Cologne
Operating System: Win-XP / Win7 / Linux -Debian


Return to Apache

Who is online

Users browsing this forum: No registered users and 190 guests