Narzędzia do przechwytywania i konwertowania Internetu

Jak pobrać stronę internetową i całą jej zawartość?

Strona internetowa

W niektórych przypadkach ważne jest, aby pobrać całą stronę internetową, a nie tylko gotowy wynik. Ale strony HTML, zasoby takie jak CSS, skrypty i obrazy.

Może to dlatego, że chcesz wykonać kopię zapasową kodu, ale z jakiegoś powodu nie możesz już dostać się do oryginalnego źródła. A może potrzebujesz szczegółowego zapisu zmian w witrynie na przestrzeni czasu.

Na szczęście skrobak sieciowy GrabzIt może to osiągnąć, indeksując wszystkie strony w witrynie. Następnie na każdej stronie internetowej skrobak pobiera HTML wraz z wszelkimi zasobami wymienionymi na stronie.

Utwórz zdrapkę, aby pobrać całą witrynę internetową

Aby pobieranie Twojej strony internetowej było tak proste, jak to możliwe, GrabzIt zapewnia szablon scraper.

Zaczynać załaduj ten szablon.

Następnie wprowadź swój Adres docelowy, ten adres URL jest następnie automatycznie sprawdzany pod kątem błędów i wszelkich wymaganych zmian. Zachowaj Automatycznie uruchom zgarnianie zaznaczone pole wyboru, a Twoje zgarnianie rozpocznie się automatycznie.

Dostosowywanie skrobaka

Jeśli chcesz zmienić szablon, odznacz Automatycznie uruchom zgarnianie pole wyboru. Jedną zmianą byłoby uruchamianie skrobania w regularnym harmonogramie, na przykład w celu tworzenia regularnych kopii strony internetowej. Na Zaplanuj Scrape kliknij kartę Powtórz zadrapanie pole wyboru, a następnie wybierz częstotliwość powtarzania zgarniania. Następnie kliknij aktualizacja aby rozpocząć zgarnianie.

Korzystanie z pobranej witryny

Po zakończeniu zgarniania otrzymasz plik ZIP. Następnie wyodrębnij plik ZIP, a wewnątrz znajdującego się w katalogu o nazwie Pliki będą wszystkie pobrane strony internetowe i zasoby witryny. Będzie też specjalna strona HTML o nazwie data.html w katalogu głównym katalogu. Otwórz ten plik w przeglądarce internetowej, a znajdziesz tabelę HTML z trzema kolumnami:

  • Adres URL zasobu - jest to adres URL, pod którym skrobaczka internetowa znalazła zasób. Na przykład: http://www.example.com/logo.jog
  • Typ zasobu - jest to rodzaj zasobu, który został pobrany. Istnieją cztery rodzaje zasobów.
    • Strona wWW
    • Obraz
    • Zasób zewnętrzny - dowolny zasób pobrany z tagu Link
    • Scenariusz
  • Nowa nazwa pliku - nowa nazwa pliku, którym był zasób saved pod. Zauważ, że ta kolumna zawiera również link do pliku, co znacznie ułatwia kontrolę wszystkich pobranych zasobów.

Ten plik ma na celu pomóc w mapowaniu nowych nazw plików do ich starych lokalizacji. Jest to konieczne, ponieważ adresu URL nie można bezpośrednio zamapować na strukturę pliku, ponieważ adres URL może być o wiele za duży, aby można go było zapisać bezpośrednio na ścieżce pliku.

Może być także wiele permutacji, szczególnie gdy strona internetowa może reprezentować wiele różnych treści poprzez zmianę różnych zapytań string parametry! Zamiast tego przechowujemy witrynę w płaskiej strukturze w folderze plików i udostępniamy plik data.html w celu mapowania tych plików do oryginalnej struktury.

Oczywiście z tego powodu nie możesz otworzyć pobranej strony HTML i oczekiwać, że zobaczysz stronę internetową, którą widziałeś w sieci. Aby to zrobić, musisz przepisać ścieżki obrazu, skryptu i zasobów CSS itp., Aby plik HTML mógł je znaleźć w lokalnej strukturze plików.

Kolejny plik, który zostanie zawarty w katalogu głównym pliku ZIP, nosi nazwę Website.csv. Zawiera dokładnie te same informacje, co plik data.html. Jest to jednak uwzględnione w przypadku, gdy chcesz czytać i przetwarzać pobieranie strony internetowej programowo, być może używając mapowania z adresów URL do plików w celu odtworzenia pobranej strony internetowej.