BUbiNG is a scalable, fully distributed crawler, currently under development and that supersedes UbiCrawler.
BUbiNG supports the Robot Exclusion Standard. if you want to exclude your site from being crawled by BUbiNG see The Web Robots Pages.
Briefly, you can put into the robots.txt file at the root of the web server you want to exclude from the crawling what follows:
User-agent: BUbiNG Disallow: /
Presently, BUbiNG honours changes to the robots.txt file (usually every hour), but does not obey to META tags for robot exclusion.
For any information, feel free to email law@di.unimi.it.
BUbiNG è un crawler scalabile, completamente distribuito, attualmente in corso di sviluppo e che sostituisce UbiCrawler.
BUbiNG aderisce al Robot Exclusion Standard. Se volete eslcudere il vostro sito dall'indicizzazione, consultate The Web Robots Pages.
Brevemente, potete mettere nel file robots.txt sotto la radice del web server che intendete escludere dall'indicizzazione quanto segue:
User-agent: BUbiNG Disallow: /
Al momento, BUbiNG onora i cambiamenti a robots.txt (di solito ogni ora), ma non rispetta i tag META del protocollo di esclusione.
Per richiedere informazioni inviate liberamente una email a law@di.unimi.it.