W niektórych przypadkach ważne jest, aby pobrać całą stronę internetową, a nie tylko gotowy wynik. Ale strony HTML, zasoby takie jak CSS, skrypty i obrazy.
Może to dlatego, że chcesz wykonać kopię zapasową kodu, ale z jakiegoś powodu nie możesz już dostać się do oryginalnego źródła. A może potrzebujesz szczegółowego zapisu zmian w witrynie na przestrzeni czasu.
Na szczęście skrobak sieciowy GrabzIt może to osiągnąć, indeksując wszystkie strony w witrynie. Następnie na każdej stronie internetowej skrobak pobiera HTML wraz z wszelkimi zasobami wymienionymi na stronie.
Aby pobieranie Twojej strony internetowej było tak proste, jak to możliwe, GrabzIt zapewnia szablon scraper.
Zaczynać załaduj ten szablon.
Następnie wprowadź swój Adres docelowy, ten adres URL jest następnie automatycznie sprawdzany pod kątem błędów i wszelkich wymaganych zmian. Zachowaj Automatycznie uruchom zgarnianie zaznaczone pole wyboru, a Twoje zgarnianie rozpocznie się automatycznie.
Jeśli chcesz zmienić szablon, odznacz Automatycznie uruchom zgarnianie pole wyboru. Jedną zmianą byłoby uruchamianie skrobania w regularnym harmonogramie, na przykład w celu tworzenia regularnych kopii strony internetowej. Na Zaplanuj Scrape kliknij kartę Powtórz zadrapanie pole wyboru, a następnie wybierz częstotliwość powtarzania zgarniania. Następnie kliknij Aktualizacja aby rozpocząć zgarnianie.
Po zakończeniu zgarniania otrzymasz plik ZIP. Następnie wyodrębnij plik ZIP, a wewnątrz znajdującego się w katalogu o nazwie Pliki będą wszystkie pobrane strony internetowe i zasoby witryny. Będzie też specjalna strona HTML o nazwie data.html w katalogu głównym katalogu. Otwórz ten plik w przeglądarce internetowej, a znajdziesz tabelę HTML z trzema kolumnami:
Ten plik ma na celu pomóc w mapowaniu nowych nazw plików do ich starych lokalizacji. Jest to konieczne, ponieważ adresu URL nie można bezpośrednio zamapować na strukturę pliku, ponieważ adres URL może być o wiele za duży, aby można go było zapisać bezpośrednio na ścieżce pliku.
Może być także wiele permutacji, szczególnie gdy strona internetowa może reprezentować wiele różnych treści poprzez zmianę różnych zapytań string parametry! Zamiast tego przechowujemy witrynę w płaskiej strukturze w folderze plików i udostępniamy plik data.html w celu mapowania tych plików do oryginalnej struktury.
Oczywiście z tego powodu nie możesz otworzyć pobranej strony HTML i oczekiwać, że zobaczysz stronę internetową, którą widziałeś w sieci. Aby to zrobić, musisz przepisać ścieżki obrazu, skryptu i zasobów CSS itp., Aby plik HTML mógł je znaleźć w lokalnej strukturze plików.
Kolejny plik, który zostanie zawarty w katalogu głównym pliku ZIP, nosi nazwę Website.csv. Zawiera dokładnie te same informacje, co plik data.html. Jest to jednak uwzględnione w przypadku, gdy chcesz czytać i przetwarzać pobieranie strony internetowej programowo, być może używając mapowania z adresów URL do plików w celu odtworzenia pobranej strony internetowej.