Spider ossessivo-compulsivi

Comincio a stufarmi di questo spider ossessivo-compulsivo che proviene da un IP del Comune di Firenze e che si identifica solo come User-Agent: Java VM 1.4.2:

09:00:12 /archivi/2005/06/06/sorgenti-aperti-e-forze-dellordine/
09:00:12 /archivi/2005/06/06/sorgenti-aperti-e-forze-dellordine/
09:00:49 /archivi/2005/06/06/intel-drm-quale-drm/
09:01:00 /archivi/2005/06/06/chi-e-il-vero-pirata/
09:01:04 /archivi/2005/06/06/intel-drm-quale-drm/
09:01:15 /archivi/2005/06/06/chi-e-il-vero-pirata/

Nel giro di 40 minuti ha scaricato 180 pagine. Il problema è che scarica decine di volte ogni giorno i post presenti sulla home page. Spesso scarica diverse migliaia di pagine in una giornata.

Qualcun altro ha problemi di questo tipo ?

Se il responsabile legge questo post, ho alcune richieste da fargli:

  • Per favore, è inutile scaricare più di una volta al giorno i singoli post di Wikilab: li aggiorno raramente, una volta scritti;
  • Un po’ di debug dell’algoritmo di scaricamento non guasterebbe: due volte la stessa pagina nello stesso secondo ?!?
  • Please, alcuni dettagli nel campo User-Agent, in maniera da poter contattare gli interessati per via privata, e capire il fine del crawling.

1 Response to “Spider ossessivo-compulsivi”


  1. 1 Paolo

    Un caro saluto ai programmatori di WebNews Arianna che nel tentativo di emulare Google News…

    Sentite la mia: il webalizer mi dice che per il mese di Giugno l’IP 195.210.89.55 (User-Agent “WebNews Arianna”) ha fatto una sola visita facendo 2,9Giga su un totale di 16,4G complessivi. In pratica scarica continuamente. Nella lista dei browser è al 3° posto con 13,89%! (Mozilla/5.0 al 14,89% e MSIE 6.0 al 62,06%). Stessa cosa per aprile e marzo (mese in cui hanno iniziato). Se trovassi un indirizzo email al quale contattarli eviterei di bannarli brutalmente, no?

    P.S.: Già messo il plugin per WordPress per generare sitemap.xml?

Leave a Reply