Narzędzia do przechwytywania i konwertowania Internetu

Wyodrębnij linki ze strony internetowej

Ten przykład jest również dostępny jako szablon.

Typowym zadaniem jest wyodrębnianie linków ze strony internetowej, w szczególności linków HTML. Na szczęście jest to łatwe w użyciu Skrobak internetowy GrabzIt. Przede wszystkim utwórz nowe zadrapanie z normalnymi szczegółami, takimi jak strona początkowa zadrapania i inne opcje.

Następnie przejdź do Instrukcje złomowania i kliknij przycisk Przycisk strony internetowej przycisk. To wejdzie do Page keyword into instrukcje zeskrobania i otworzy listę rozwijaną. Wybierz getTagAttributes z listy. Następnie dodaj 'href' jako pierwszy parametr informuje program zgarniający, aby wyodrębnił atrybut href, a następnie wpisał przecinek.

Następnie kliknij Przycisk filtra pozwala to powiedzieć skrobaczce internetowej, z których elementów wyodrębnić atrybut href. W oknie filtru upewnij się, że typ jest ustawiony na „Strona internetowa”, a ograniczenie to „nazwa znacznika” i „równa się”. Następnie wejdź a w polu tekstowym, a następnie kliknij przycisk Dodaj, a następnie przycisk Wstaw filtr. Zakończ instrukcję, dodając średnik na końcu linii.

Powinieneś zostać z czymś takim, jak pokazano poniżej.

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

Powyższy kod wyodrębni wszystkie adresy URL linków ze strony internetowej, ale teraz musimy save te adresy URL linków. W tym celu wstawimy to polecenie minus średnik do litery a Data.save dowództwo. Aby to zrobić, przejdź do początku linii i wybierz Przycisk danych przycisk. Następnie z rozwijanego menu wybierz save, a następnie przejdź do końca linii i dodaj przecinek. Następnie dodaj coś, co chcesz nazwać zestawem danych, takim jak „Moja strona internetowa”, następnie dodaj kolejny przecinek, a następnie dodaj kolejny parametr opisujący kolumnę, taki jak „Linki”, a następnie zamknij polecenie za pomocą ) przed średnikiem.

Powinieneś teraz mieć następujące instrukcje zgarniania.

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

Teraz, jeśli uruchomisz scrape, wyodrębnisz wszystkie linki ze strony internetowej. Spowoduje to utworzenie tabeli z nazwą Moje strony internetowe z nazwą kolumny Łącza, które można następnie wyeksportować into wiele różnych formatów, takich jak XML, CSV lub arkusz kalkulacyjny. Ten samouczek można również osiągnąć za pomocą przycisku kreatora na pasku narzędzi Instrukcje zdrapania.