Narzędzia do przechwytywania i konwertowania Internetu

Czy skrobak sieciowy GrabzIt szanuje pliki robots.txt?

Nasz skrobak internetowy musi przestrzegać zasad zawartych w pliku robots.txt strony internetowej. Jednym z głównych powodów tego, poza tym, że jest miły, jest to, że skrobaki internetowe, które nie podążają za plikiem robots.txt, mogą znaleźć się na czarnej liście usługi honeypot.

Usługi te używają pliku robots.txt, aby informować skrobaczkę do stron internetowych, aby nie odwiedzał określonego pliku, do którego prowadzi łącze ze strony internetowej. Jeśli skrobaczka nadal odwiedza plik, adres IP skrobaczki jest na czarnej liście, co uniemożliwia skrobaczce odwiedzanie strony w przyszłości.