Narzędzia do przechwytywania i konwertowania Internetu

Jak zeskrobać listę produktów i strony ze szczegółami

Na stronach internetowych często znajduje się strona wyszukiwania, która zawiera listę elementów, przy czym każdy element otrzymuje podsumowujący opis z linkiem do strony ze szczegółowymi informacjami, która zawiera szczegółowe informacje na temat elementu.

Ponieważ ta struktura jest tak często używana, często trzeba zeskrobać informacje o każdym elemencie ze strony wyszukiwania, a resztę ze strony szczegółów. W tym artykule znajdziesz wskazówki, jak zeskrobać takie informacje.

Najpierw wprowadź adres URL strony listy produktów, którą chcesz zeskrobać. Następnie wybierz informacje, które chcesz wybrać ze strony listy produktów. Upewnij się, że wszystkie przykłady danych są zaznaczone.

Następnie na stronie instrukcji usuwania kliknij przycisk Dodaj instrukcję zdrapania.

Pierwszą rzeczą, o której należy pamiętać, jest to, że nasz skrobak działa dokładnie tak samo, jak przeglądarka, więc jeśli istnieje powiadomienie o bezpieczeństwie plików cookie lub inne wbudowane wyskakujące okienko, które zatrzymuje klikanie na stronie, musisz poinstruować skrobak, aby zamknął wyskakujące okienko przed resztę skrobania można wykonać. Większość tych wyskakujących okienek należy kliknąć tylko raz, abyś mógł powiedzieć GrabzIt, aby zrobił to samo. Aby to zrobić, użyj Kliknij element i kliknij element HTML wymagany do zamknięcia wyskakującego okienka. Następnie kliknij opcję Tylko raz Save i dalej.

Następnie wybierz wyodrębnić dane akcji, a następnie wybierz dane, które chcesz wyodrębnić. Jeśli więc chcesz wybrać tytuł elementu, z listy wyników wyszukiwania. Upewnij się, że każdy tytuł na tej liście jest zaznaczony.

Nasz kreator próbuje automatycznie zidentyfikować zestawy danych i może automatycznie wybrać więcej informacji niż chcesz. Jeśli tak się stanie, kliknij ponownie elementy, których nie chcesz wybierać, i nie będą już uwzględnione. To uczy naszego skrobaka internetowego, co wyodrębniać.

Teraz wybierz atrybut elementu danych, który chcesz wyodrębnić. Takich jak „Tekst”, a następnie kliknij przycisk Dalej. Na następnym ekranie nadaj mu tytuł. Pamiętaj, że tutaj chcesz, aby wszystkie dane korzystały z szablonu domyślnego. Wynika to z faktu, że chcesz, aby dane były wyodrębniane, gdy tylko nie znajdują się w specjalnym szablonie.

Po wybraniu wszystkich danych pozycji, które chcesz wyodrębnić ze strony wyszukiwania produktu. Wybierz wszystkie linki, aby uzyskać więcej informacji na stronie szczegółów produktu. Może to być na przykład obraz. Następnie kliknij Kliknij element akcja. Ustaw szablon na „detal”, a następnie opóźnij go o pięć sekund i kliknij Dalej. Gdy pojawi się pytanie, czy chcesz wyodrębnić dane z nowej strony, wybierz opcję tak. Teraz wybierz dane, które chcesz wyodrębnić, jak poprzednio. Ale tym razem określ, że należy go wykonać zgodnie z szablonem „szczegółów”.

Dodaj kolejną instrukcję scrape i wróć do strony głównej. Tym razem wybierz następny przycisk z linków stronicowania. Kiedy Kliknij opcję Działanie pojawi się okno opcji, wybierz przycisk następnej strony opcja. W ten sposób skrobak wie, że ten przycisk jest tak naprawdę przyciskiem stronicowania i będzie paginował wszystkie wyniki. Upewnij się, że masz ostatnią instrukcję złomowania. Jeśli nie jest to ostatnia instrukcja zgarniania, można ją przeciągnąć do końca.

Następnie przejdź do karty harmonogramu i kliknij Utwórz, aby rozpocząć zgarnianie. Możesz obserwować postęp zgarniania w czasie rzeczywistym na stronie Zarządzaj zgarnianiem, klikając ikonę wiersza, a następnie ikonę podglądu zgarniania.