Narzędzia do przechwytywania i konwertowania Internetu

Jak zeskrobać listę produktów i strony szczegółów

Na stronach internetowych często znajduje się strona wyszukiwania, która zawiera listę pozycji, przy czym każda pozycja ma skrócony opis z łączem do strony szczegółów, która zawiera szczegółowe informacje o elemencie.

Ponieważ ta struktura jest tak często używana, często zachodzi potrzeba zeskrobania niektórych informacji o każdym elemencie ze strony wyszukiwania, a resztę ze strony szczegółów. Ten artykuł zawiera wskazówki, jak zeskrobać takie informacje.

Najpierw wprowadź adres URL strony z listą produktów, którą chcesz zeskrobać. Następnie wybierz informacje, które chcesz wybrać ze strony z listą produktów. Upewnij się, że zaznaczono wszystkie przykłady danych.

Następnie na stronie z instrukcjami zeskrobywania kliknij Dodaj instrukcję Scrape.

Pierwszą rzeczą, o której należy pamiętać, jest to, że nasz skrobak działa dokładnie w taki sam sposób, jak przeglądarka, więc jeśli pojawi się powiadomienie o bezpieczeństwie plików cookie lub inne wbudowane wyskakujące okienko, które powstrzymuje Cię przed kliknięciem strony, musisz poinstruować skrobak, aby zamknął wyskakujące okienko przed resztę skrobania da się zrobić. Większość z tych wyskakujących okienek wystarczy kliknąć tylko raz, więc możesz powiedzieć GrabzIt, aby zrobił to samo. Aby to zrobić, użyj Kliknij element akcję i kliknij element HTML wymagany do zamknięcia wyskakującego okienka. Następnie kliknij opcję Tylko raz Save i dalej.

Następnie wybierz wyodrębnić dane akcję, a następnie wybierz dane, które chcesz wyodrębnić. Tak więc, jeśli chcesz wybrać tytuł pozycji, z listy wyników wyszukiwania. Upewnij się, że wszystkie tytuły na tej liście są zaznaczone.

Nasz kreator próbuje automatycznie identyfikować zestawy danych i może wybrać automatycznie więcej informacji, niż chcesz. Jeśli tak się stanie, po prostu kliknij ponownie elementy, których nie chcesz wybierać, a nie będą już uwzględniane. To uczy naszego web scrapera, co wyodrębnić.

Teraz wybierz atrybut elementu danych, który chcesz wyodrębnić. Na przykład „Tekst”, a następnie kliknij Dalej. Na następnym ekranie nadaj mu tytuł. Pamiętaj, że tutaj chcesz, aby wszystkie dane korzystały z szablonu domyślnego. Dzieje się tak, ponieważ chcesz, aby dane były wyodrębniane, gdy nie ma ich w specjalnym szablonie.

Po wybraniu wszystkich danych pozycji, które chcesz wyodrębnić ze strony wyszukiwania produktów. Wybierz wszystkie łącza, aby uzyskać więcej informacji na stronie szczegółów produktu. Może to być na przykład obraz. Następnie kliknij Kliknij element działanie. Ustaw szablon na „szczegóły”, a następnie daj mu opóźnienie o pięć sekund i kliknij Dalej. Gdy pojawi się pytanie, czy chcesz wyodrębnić dane z nowej strony, wybierz tak. Teraz wybierz dane, które chcesz wyodrębnić, tak jak poprzednio. Ale tym razem określ, że musi być wykonany w szablonie „szczegóły”.

Dodaj kolejną instrukcję scrapowania i wróć do strony głównej. Tym razem wybierz następny przycisk z linków stronicowania. Kiedy Kliknij opcję Działanie pojawi się pole opcji, wybierz opcję przycisk następnej strony opcja. W ten sposób skrobak wie, że ten przycisk jest w rzeczywistości przyciskiem stronicowania i przejdzie przez wszystkie wyniki. Upewnij się, że masz ostatnią instrukcję zeskrobywania. Jeśli nie jest to ostatnia instrukcja zeskrobywania, można ją przeciągnąć do końca.

Następnie przejdź do karty harmonogramu i kliknij Utwórz, aby rozpocząć zgarnianie. Możesz obserwować postęp zgarniania w czasie rzeczywistym na stronie Zarządzaj zdrapkami, klikając ikonę wiersza, a następnie ikonę przeglądarki zgarniania.