Narzędzia do przechwytywania i konwertowania Internetu

Jak pobrać stronę internetową i całą jej zawartość?

Strona internetowa

W niektórych przypadkach ważne jest pobranie całej witryny, a nie tylko gotowego wyniku. Ale strony internetowe HTML, zasoby takie jak CSS, skrypty i obrazy.

Być może dlatego, że chcesz wykonać kopię zapasową kodu, ale z jakiegoś powodu nie możesz już uzyskać dostępu do oryginalnego źródła. A może potrzebujesz szczegółowego zapisu zmian w witrynie na przestrzeni czasu.

Na szczęście Web Scraper GrabzIt może to osiągnąć, przeszukując wszystkie strony internetowe w witrynie. Następnie na każdej stronie internetowej skrobak pobiera kod HTML wraz z wszelkimi zasobami wymienionymi na stronie.

Utwórz Scrape, aby pobrać całą witrynę

Aby pobieranie Twojej witryny było jak najłatwiejsze, GrabzIt udostępnia szablon zeskrobywania.

Zaczynać załaduj ten szablon.

Następnie wprowadź swój Adres docelowy, ten adres URL jest następnie automatycznie sprawdzany pod kątem błędów i wprowadzanych wymaganych zmian. Zachowaj Automatycznie rozpocznij skrobanie pole wyboru zaznaczone, a zgarnianie rozpocznie się automatycznie.

Dostosowywanie Scrape'a

Jeśli chcesz zmienić szablon, odznacz opcję Automatycznie rozpocznij skrobanie pole wyboru. Jedną ze zmian byłoby regularne uruchamianie skrobania, na przykład w celu tworzenia regularnych kopii strony internetowej. Na Zaplanuj Scrape zakładkę, po prostu kliknij Powtórz Zdrapkę zaznacz pole wyboru, a następnie wybierz, jak często ma się powtarzać zdrapywanie. Następnie kliknij Aktualizacja aby rozpocząć skrobanie.

Korzystanie z pobranej strony internetowej

Po zakończeniu skrobania otrzymasz plik ZIP. Następnie rozpakuj plik ZIP, a wewnątrz katalogu o nazwie Pliki będą znajdować się wszystkie pobrane strony internetowe i zasoby witryny. W katalogu głównym będzie również znajdować się specjalna strona HTML o nazwie data.html. Otwórz ten plik w przeglądarce internetowej, a znajdziesz tabelę HTML z trzema kolumnami:

Ten plik ma pomóc w mapowaniu nowych nazw plików na ich stare lokalizacje. Jest to potrzebne, ponieważ adresu URL nie można bezpośrednio odwzorować na strukturę pliku, ponieważ adres URL może być o wiele za duży, aby można go było przechowywać bezpośrednio w ścieżce pliku.

Również może istnieć wiele permutacji, zwłaszcza gdy strona internetowa może reprezentować wiele różnych treści, zmieniając różne zapytania string parametry! Zamiast tego przechowujemy witrynę w płaskiej strukturze w folderze plików i udostępniamy plik data.html, aby zmapować te pliki do oryginalnej struktury.

Oczywiście z tego powodu nie możesz otworzyć pobranej strony HTML i oczekiwać, że zobaczysz stronę internetową, którą widziałeś w Internecie. Aby to zrobić, musisz przepisać ścieżki do obrazu, skryptu i zasobów CSS itp., Aby plik HTML mógł je znaleźć w lokalnej strukturze plików.

Inny plik, który zostanie dołączony do katalogu głównego pliku ZIP, nazywa się Website.csv. Zawiera dokładnie te same informacje, co plik data.html. Jest to jednak uwzględnione w przypadku, gdy chcesz programowo odczytać i przetworzyć pobieranie witryny, być może przy użyciu mapowania z adresów URL do plików w celu odtworzenia pobranej witryny.