Narzędzia do przechwytywania i konwertowania Internetu

Czy Web Scraper GrabzIt respektuje pliki robots.txt?

Nasz Web Scraper musi przestrzegać zasad znajdujących się w pliku robots.txt stron internetowych. Jednym z głównych powodów tego stanu rzeczy, poza tym, że jest miły, jest to, że programy do skrobania sieci, które nie korzystają z pliku robots.txt, mogą znaleźć się na czarnej liście usługi Honeypot.

Usługi te korzystają z pliku robots.txt, aby poinformować skrobak sieciowy, aby nie odwiedzał określonego pliku, do którego prowadzi łącze z witryny internetowej. Jeśli skrobak sieciowy nadal odwiedza plik, adres IP skrobaka sieciowego zostaje umieszczony na czarnej liście, co uniemożliwia w przyszłości odwiedzanie witryny przez skrobak sieciowy.