Comincio a stufarmi di questo spider ossessivo-compulsivo che proviene da un IP del Comune di Firenze e che si identifica solo come User-Agent: Java VM 1.4.2:
09:00:12 /archivi/2005/06/06/sorgenti-aperti-e-forze-dellordine/
09:00:12 /archivi/2005/06/06/sorgenti-aperti-e-forze-dellordine/
09:00:49 /archivi/2005/06/06/intel-drm-quale-drm/
09:01:00 /archivi/2005/06/06/chi-e-il-vero-pirata/
09:01:04 /archivi/2005/06/06/intel-drm-quale-drm/
09:01:15 /archivi/2005/06/06/chi-e-il-vero-pirata/
Nel giro di 40 minuti ha scaricato 180 pagine. Il problema è che scarica decine di volte ogni giorno i post presenti sulla home page. Spesso scarica diverse migliaia di pagine in una giornata.
Qualcun altro ha problemi di questo tipo ?
Se il responsabile legge questo post, ho alcune richieste da fargli:
- Per favore, è inutile scaricare più di una volta al giorno i singoli post di Wikilab: li aggiorno raramente, una volta scritti;
- Un po’ di debug dell’algoritmo di scaricamento non guasterebbe: due volte la stessa pagina nello stesso secondo ?!?
- Please, alcuni dettagli nel campo User-Agent, in maniera da poter contattare gli interessati per via privata, e capire il fine del crawling.
Un caro saluto ai programmatori di WebNews Arianna che nel tentativo di emulare Google News…
Sentite la mia: il webalizer mi dice che per il mese di Giugno l’IP 195.210.89.55 (User-Agent “WebNews Arianna”) ha fatto una sola visita facendo 2,9Giga su un totale di 16,4G complessivi. In pratica scarica continuamente. Nella lista dei browser è al 3° posto con 13,89%! (Mozilla/5.0 al 14,89% e MSIE 6.0 al 62,06%). Stessa cosa per aprile e marzo (mese in cui hanno iniziato). Se trovassi un indirizzo email al quale contattarli eviterei di bannarli brutalmente, no?
P.S.: Già messo il plugin per WordPress per generare sitemap.xml?