Narzędzia do przechwytywania i konwertowania Internetu

Dokumentacja skrobaka internetowego

Aby utworzyć przeglądarkę internetową, musisz określić pięć rodzajów informacji, rozmieszczonych na następujących kartach.

  1. Opcje złomowania
  2. Docelowe strony internetowe
  3. Instrukcje złomowania
  4. Opcje eksportu
  5. Zaplanuj Scrape

Opcje złomowania

Wszystkie poniższe funkcje są dostępne w celu dostosowania zgarniania internetowego na karcie Opcje zgarniania.

Nazwa złomu nazwa złomu.

Śledź linki zapewnia następujące opcje, w jaki sposób skrobak powinien podążać za linkami:

  • zgodnie z wymaganiami - ustawienie domyślne i najbezpieczniejsza opcja, sprawi, że zgarniacz będzie podążał tylko za linkami, do których jest polecony
  • wszystkie strony - skrobak będzie podążał za każdym znalezionym linkiem
  • pierwsza strona - podążaj tylko za linkami znajdującymi się na pierwszej stronie, określonymi jako cel
  • aż do n strony ze strony początkowej - podążaj tylko za linkami na stronach o określonej liczbie kliknięć na pierwszej stronie
  • w ramkach - podążaj za linkami znajdującymi się w ramkach i ramkach iframe

Zignoruj ​​plik Robots.txt jeśli jest ustawiony, skrobak może odwiedzać strony normalnie wykluczone z indeksowania przez właściciela witryny.

Zignoruj ​​pobieranie plików po ustawieniu żadnych linków, które powodują pobieranie pliku podczas odwiedzania, nie są pobierane.

Ignoruj ​​duplikaty jeśli ustawione, będzie ignorować strony, które są równe lub większe niż ustawione podobieństwo, na przykład możesz zignorować strony, które są 95% takie same.

Ogranicz zadrapanie pozwala określić, ile stron powinien skrobać skrobak przed zatrzymaniem.

Użyj Mojej strefy czasowej jeśli jest ustawiony, oznacza to, że Skrobak WWW powinien próbować konwertować dowolne daty, które usuwa into Twoja lokalna strefa czasowa. Strefę czasową można ustawić na stronie konta.

Mapa położenie geograficzne, z którego skrobak internetowy wykona zgarnianie. Może to być przydatne, jeśli docelowa witryna ma ograniczenia oparte na lokalizacji.

Domyślny format daty podczas konwertowania dat, w których nie można ustalić formatu daty, Skrobak internetowy zamiast tego domyślnie wybierze ten wybrany format.

Opóźnienie wczytywania strony jest to czas w milisekundach, przez który Skrobak WWW powinien poczekać, zanim parsuje stronę. Jest to bardzo przydatne, jeśli strona zawiera dużo AJAX lub ładuje się powoli.

Docelowe strony internetowe

Docelowe strony internetowe

W zakładce Docelowe strony internetowe określasz witryny, z których chcesz wyodrębnić dane. Aby powiedzieć narzędziu scrape do wyodrębnienia danych ze strony internetowej, musisz najpierw podać główny adres URL intaresztowany np http://www.example.com/shop/ To jest, gdy skrobak rozpocznie skrobanie, może to być zwykła strona internetowa, dokument PDF, dokument XML, dokument JSON, kanał RSS lub mapa witryny. Jeśli nie jest to strona internetowa ani dokument PDF, skrobak znajdzie wszystkie linki w pliku i odwiedzi każdy z nich.

Aby śledzić tylko linki znajdujące się w docelowym adresie URL, a nie kolejne strony, możesz ustawić Śledź linki opcja zgarniania do na pierwszej stronie. Spowoduje to użycie docelowego adresu URL tylko do wysiewu pozostałej części notki.

Domyślnie skrobak internetowy podąża za każdym odsłoniętym linkiem na każdej odwiedzanej stronie internetowej. Jeśli chcesz ograniczyć to, co łączy Skrobak do sieci poniżej, jednym prostym sposobem na to jest określenie Wzorca URL. Działa to poprzez podanie adresu URL z gwiazdką jako symbolu wieloznacznego, aby wskazać, że w tej części wzoru mogą występować dowolne znaki. Na przykład http://www.example.com/*/articles/* zeskrobałby wszystkie adresy URL zawierające artykuły jako drugi katalog z katalogu głównego witryny.

Adres URL może również określać adres URL z parametrami do POST, na przykład formularz logowania. Aby to zrobić, określ adres URL formularza w polu tekstowym Docelowy adres URL i dodaj wymagane parametry posta, których chcesz użyć. Wartości po zmiennej mogą również zawierać specjalne zmienne GrabzIt, takie jak:

  • {{day}} - dzień jako wartość dwucyfrowa
  • {{month}} - miesiąc jako wartość dwucyfrowa
  • {{year}} - rok jako wartość czterocyfrowa
  • {{hour}} - godzina jako wartość dwucyfrowa
  • {{minute}} - minuta jako wartość dwucyfrowa
  • {{second}} - drugi jako wartość dwucyfrowa

Wreszcie możesz określić Adresy URL nasion aby upewnić się, że te adresy URL są usuwane.

Adresy URL nasion

Ziarniste adresy URL pozwalają użytkownikowi określić listę adresów URL, które muszą zostać przeszukane przez skrobak internetowy. Jeśli chcesz tylko zeskrobać adresy URL adresów początkowych, ustaw Śledź linki opcje zgarniania do brak stron w zakładce Opcje złomowania.

Aby ustawić początkowe adresy URL na karcie Docelowe strony internetowe, kliknij przycisk Dodaj cel, a następnie zaznacz pole wyboru Ustaw początkowe adresy URL i określ każdy adres URL do zeskrobania w osobnym wierszu.

Utwórz początkowe adresy URL z szablonu adresu URL

Alternatywnie możesz automatycznie wygenerować początkowe adresy URL za pomocą adresu URL szablonu, jest to pojedynczy adres URL zawierający zmienną adresu URL. Zmienna URL określa zakres liczb, które mają być iterowane.

{{start number|finish number|iterate number}}

  • numer początkowy numer, od którego zaczyna się zmienna URL
  • numer końcowy numer, na którym kończy się Zmienna URL
  • liczba iteracyjna liczba, którą iteruje Zmienna URL

Numer początkowy to liczba, od której zmienna URL powinna zacząć liczyć, numer końcowy to liczba, od której zmienna URL przestanie zliczać, liczba iteracyjna to liczba, którą liczba będzie zwiększać przy każdej iteracji zmiennej URL.

Na przykład dla następującego adresu URL szablonu http://www.example.com/search?pageNo={{1|3|1}}

Spowoduje to utworzenie następujących początkowych adresów URL:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

Instrukcje złomowania

Instrukcje dotyczące zdrapywania mówią skrobakowi internetowemu, jakie działania należy wykonać podczas zgarniania docelowych stron internetowych. Karta Instrukcje zgarniania domyślnie pokazuje kreatora zgarniania, co ułatwia dodawanie potrzebnych instrukcji zgarniania. Aby rozpocząć, naciśnij Dodaj nową instrukcję zdrapania link.

Spowoduje to otwarcie kreatora i automatyczne załadowanie docelowego adresu URL, umożliwiając natychmiastowe wybranie tego, co chcesz zeskrobać. Jeśli strona internetowa lub dokument PDF został załadowany, możesz kliknąć dowolny link i będzie on działać normalnie, na przykład nawigacja do innej strony internetowej. Dopóki nie wybierzesz jednej z akcji u dołu ekranu w tym point każde kliknięcie treści spowoduje wybranie elementu HTML, który chcesz wyodrębnić lub zmodyfikować.

Pierwszą rzeczą do zrozumienia na temat instrukcji scrape jest to, że są one domyślnie wykonywane na każdej stronie internetowej. Sposobem na powstrzymanie tego jest użycie szablonów. Szablon może zostać przypisany podczas wykonywania czynności, takiej jak kliknięcie łącza, a więc za każdym razem, gdy skrobak odwiedza ten link lub klika ten przycisk, rozpoznaje, że należy do przypisanego szablonu. Umożliwia to zdefiniowanie różnych typów stron. Na przykład możesz mieć stronę kategorii produktu, która zawiera pewne informacje ogólne, a następnie stronę szczegółów, która zawiera informacje o produkcie. Obie strony prawdopodobnie potrzebowałyby innego zestawu instrukcji zdrapywania.

Szablon skrobaka

Aby rozpocząć, wybierz Kliknij akcji, a następnie po wybraniu elementów, na których chcesz wykonać akcję, i kliknięciu przycisku Dalej przycisk wprowadź nazwę szablonu w Utwórz szablon pole tekstowe teraz, ilekroć skrobak wykonuje te akcje, zwrócony szablon będzie nazwą, którą podałeś.

Następnie, aby przypisać konkretny szablon do instrukcji skrobania, wybierz żądany szablon z Wykonaj w rozwijana lista, która pojawia się w oknie opcji, które pojawia się tuż przed dodaniem instrukcji zgarniania. Trzy główne opcje przy wyborze szablonu są następujące:

  • Wszystkie strony - nie używaj szablonu, w przypadku tej instrukcji scrape Instrukcja scrape zostanie wykonana na wszystkich stronach internetowych.
  • Domyślny szablon - nie używaj jednego ze zdefiniowanych przez użytkownika szablonów. Instrukcja scrape zostanie wykonana na dowolnej stronie internetowej, która nie ma określonego szablonu.
  • Szablon zdefiniowany przez użytkownika - jeden z szablonów, które zostały zdefiniowane przez Ciebie w celu identyfikacji konkretnej strony internetowej lub działania.

Po wybraniu jednej z tych opcji instrukcja zgarniania zostanie wykonana tylko na określonym szablonie.

Wyodrębnianie danych

Zauważysz to po wybraniu wyodrębnić dane akcja seria elementów danych do wyodrębnienia natychmiast staje się dostępna do pobrania w lewym dolnym rogu ekranu. Są to właściwości całej strony, którą można pobrać. Aby wybrać jeden, wybierz go z listy opcji i kliknij Dalej dodać dane do zestaw danych.

Jeśli chcesz wyodrębnić dane w określonych elementach HTML zamiast należeć do całej strony, musisz kliknąć odpowiednie elementy HTML, możesz wybrać pojedynczy lub wiele elementów. Jeśli jednak wybierasz wiele elementów, spróbuj wybrać wiele elementów, które są takie same, np. Wiele wierszy w kolumnie, ponieważ jeśli skrobak nie może utworzyć reguły, która może jednoznacznie zidentyfikować wybrany zbiór danych, instrukcja złomowania nie będzie być w stanie zostać stworzonym. Ponadto jeśli wiele klikanych elementów zostało zidentyfikowanych przez nasz kreator skrobaka internetowego jako powtarzające się dane, wszystkie powtarzające się dane w tej samej grupie zostaną automatycznie wybrane. Po wybraniu wszystkich pojedynczych lub wielu elementów wybierz atrybut do wyodrębnienia z lewego dolnego rogu ekranu, a następnie kliknij Dalej.

Tworzenie zestawu danych

Ekran zestawu danych pozwala zmienić sposób przetwarzania danych, na przykład możesz zmienić nazwę zestawu danych i zawartych w nim kolumn, wystarczy kliknąć nazwę, aby zmienić nazwę. Gdy dodajesz kolumnę do zestawu danych, musisz także wybrać szablon, w którym ma zostać wykonany. Możesz to zmienić, klikając listę rozwijaną znajdującą się pod nazwą kolumny.

Często podczas wyodrębniania danych niektóre powtarzające się elementy powtarzają się niespójnie, aby mieć pewność, że prawidłowe wiersze są nadal ze sobą powiązane, użyj Połącz kolumny kryteria, aby połączyć niespójne kolumny z najbardziej spójną kolumną w zestawie danych.

Aby dodać więcej danych do zestawu danych, kliknij lub kliknij przycisk aby usunąć dane z zestawu danych, lub aby usunąć cały zestaw danych. Zestaw danych umożliwia także zastosowanie różnych kryteriów do danych, aby to zrobić, wybierz żądane działanie od góry, a następnie kliknij odpowiednią kolumnę, aby zastosować kryteria. Jeśli pomylisz się, dodając kryteria, po prostu kliknij przycisk.

Oto lista różnych typów kryteriów i sposobu ich użycia:

  • Ogranicz wiersze - ograniczy to liczbę wierszy wyodrębnionych ze strony internetowej do liczby określonej przez użytkownika. Aby użyć kliknij a następnie kliknij wiersz poza nim, który chcesz odciąć.
  • powtarzać - powtarza elementy kolumny, aż kolumna dopasuje długość najdłuższej kolumny. Aby użyć wystarczy kliknąć a następnie kliknij kolumnę, dla której chcesz powtórzyć elementy.
  • Bądź wyjątkowy - usuwa wszelkie zduplikowane wartości dla wszystkich wprowadzonych wartości into kolumna. Aby użyć wystarczy kliknąć a następnie kliknij kolumnę, którą chcesz uczynić wyjątkową.
  • Wyodrębnij wartości - określ wzór, aby wyodrębnić tylko pasujące elementy danych z bloku tekstu. Aby użyć wystarczy kliknąć , wybierz odpowiednią kolumnę, a następnie postępuj zgodnie z instrukcjami, aby utworzyć wzór, który zwróci odpowiednie dane z string.
  • Przytnij wartości - określ wzór, aby przyciąć zbędny tekst. Aby użyć wystarczy kliknąć , wybierz odpowiednią kolumnę, a następnie postępuj zgodnie z instrukcjami, aby utworzyć wzór, który będzie przycinał tekst.
  • Połącz kolumny - umożliwia łączenie kolumn. Aby podczas wyodrębniania danych rekordy pojawiały się w tym samym wierszu co wiersz względny w połączonej kolumnie, nawet jeśli występuje niezgodność w liczbie wyników. Aby użyć wystarczy kliknąć , wybierz kolumnę do połączenia, a następnie kolumnę do połączenia.
  • Ukryj kolumnę - czasami chcesz dołączyć kolumnę do filtrowania, ale nie chcesz uwzględniać wartości w końcowym wyniku. Aby to zrobić, po prostu kliknij , wybierz kolumnę, którą chcesz wykluczyć.
  • Sortuj rosnąco - sortuje według kolumny, rosnąco. Aby użyć kliknij a następnie wybierz kolumnę do sortowania.
  • Sortuj malejąco - sortuje według kolumny, malejąco. Aby użyć kliknij a następnie wybierz kolumnę do sortowania.
  • zawiera - uwzględniaj tylko wartości zawierające zdefiniowaną wartość. Aby użyć kliknij wybierz żądaną kolumnę, a następnie wprowadź wartość, którą powinny zawierać wartości kolumny.
  • Równy - uwzględniaj tylko wartości równe zdefiniowanej wartości. Aby użyć kliknij wybierz żądaną kolumnę, a następnie wprowadź wartość, którą powinny być równe wartości kolumny.
  • Nie równy - uwzględniaj tylko wartości, które nie są równe zdefiniowanej wartości. Aby użyć kliknij wybierz żądaną kolumnę, a następnie wprowadź wartość, której kolumna nie powinna być równa.
  • Mniej niż - uwzględniaj tylko wartości mniejsze niż zdefiniowana wartość. Aby użyć kliknij aby wybrać żądaną kolumnę, a następnie wprowadź wartość, którą kolumna powinna mieć mniej niż.
  • Lepszy niż - uwzględniaj tylko wartości większe niż zdefiniowana wartość. Aby użyć kliknij aby wybrać żądaną kolumnę, a następnie wprowadź wartość, którą kolumna powinna być większa niż.

Po wybraniu jednej z powyższych operacji, jeśli może ona wpływać na wiele kolumn, zostaniesz zapytany, czy chcesz pozwolić, aby wpływała tylko na podzbiór kolumn lub wszystkie. W większości przypadków chcesz, aby wpłynęło to na wszystkie kolumny, jednak w niektórych okolicznościach przydatne jest ograniczenie wykonanych kolumn. Na przykład, jeśli wybierasz serię etykiety i wartości, które zmieniają pozycję na stronach internetowych, możesz wybrać wszystkie etykiety i wartości. Następnie w zestawie danych użyj operacji równości, aby ograniczyć ją do żądanej etykiety i określić, że ma to dotyczyć tylko kolumny etykiety i wartości. Zapewni to, że pozostałe wiersze nie będą miały wpływu na usunięcie wierszy, dla kompletności przydatne byłoby ukrycie kolumny z etykietą.

Po zmodyfikowaniu wszystkiego, co chcesz, kliknij Dalej a instrukcje dotyczące zgarniania zostaną dodane do zgarniania.

Manipulowanie stroną internetową

Stroną internetową można manipulować przed jej zeskrobaniem, klikając, wpisując i wybierając wartości z menu rozwijanych. Należy pamiętać, że nawet jeśli może to spowodować załadowanie nowej strony internetowej, instrukcje scrape nie uruchomią się ponownie, dopóki nie zostaną wykonane wszystkie odpowiednie instrukcje scrape.

Aby manipulować stroną internetową, wybierz albo Kliknij element, Umieść element, Zwój, Wpisz tekst or Wybierz wartość listy rozwijanej działania. Jeśli wykonujesz akcję kliknięcia, możesz kliknąć dowolną liczbę elementów na stronie internetowej. W przeciwnym razie musisz wybrać odpowiedni element HTML, na przykład tekst należy wpisać w polu tekstowym. Następnie kliknij Dalej. Spowoduje to otwarcie okna opcji, które pozwala ukończyć akcję. Podczas wpisywania tekstu i wybierania z menu rozwijanego należy odpowiednio wybrać dane do wpisania lub zaznaczenia. Poza tym opcje są takie same dla wszystkich trzech akcji.

Jeśli chcesz, możesz wybrać szablon, w którym akcja powinna zostać wykonana, a dla akcji kliknięcia zastosowany szablon, po zakończeniu akcji kliknięcia. Jednak przypisanie nowego szablonu do akcji kliknięcia, która wykonuje wiele kliknięć na tej samej stronie, nie jest dobrym pomysłem, takim jak otwieranie wbudowanych okien wyskakujących lub wyświetlanie elementów na ekranie. Dzieje się tak dlatego, że jeśli akcja kliknięcia jest wykonywana tylko na niektórych szablonach, nowy szablon przypisany przez pierwsze kliknięcie nie zostałby zresetowany, a zatem w zależności od tego, jak napisano notkę, może to zatrzymać przyszłe kliknięcia na tej samej stronie. Możesz także określić, czy chcesz, aby ta akcja była wykonywana tylko raz, co jest przydatne, jeśli wykonujesz coś takiego jak logowanie into stronie internetowej.

Działania Wpisz tekst lub Wybierz wartość listy rozwijanej pozwalają odpowiednio wpisać wiele elementów tekstu lub dokonać wielu wyborów pola wyboru. Można je edytować, klikając instrukcje dotyczące zgarniania Zmień lub zobacz zmienne przycisk, jak pokazano na zrzucie ekranu po lewej stronie.

Może to być ważne na przykład, jeśli chcesz wpisać listę nazw w polu wyszukiwania. Aby formularz był przesyłany tylko wtedy, gdy w polu wyszukiwania znajduje się wartość, szablon można ustawić za każdym razem, gdy tekst zostanie pomyślnie wpisany into pole tekstowe i akcja kliknięcia przycisku nie są wykonywane, chyba że ten szablon jest ustawiony. Po wykonaniu czynności kliknięcia szablon należy zmienić na inny, aby zresetować procedurę.

Po wykonaniu działań, które manipulują stronami internetowymi, warto poczekać chwilę, jeśli działania zainicjują funkcjonalność AJAX, aby umożliwić załadowanie zawartości AJAX przed kontynuowaniem usuwania. Możesz to zrobić, dodając opóźnienie w Po wykonaniu Zaczekaj pole tekstowe.

Możesz przejść bezpośrednio do innego adresu URL po spełnieniu pewnego warunku. Aby to zrobić, użyj Przejdź do adresu URL akcja, która pojawi się tylko wtedy, gdy co najmniej jeden szablon został zdefiniowany w zadrapaniu i kiedy utworzony musi być przypisany do szablonu, aby uniknąć nieskończonych pętli.

Wreszcie możesz używać wszystkich interfejsów API przechwytywania GrabzIt w swoich zadaniach sieciowych, po prostu wybierz akcję Przechwyć stronę internetową i wybierz pożądane przechwytywanie. Możesz ograniczyć to do przechwytywania niektórych stron internetowych w zadrapaniu, określając szablon do wykonania po wybraniu Dalej przycisk.

Po dodaniu każdej instrukcji skrobania można ją zobaczyć w panelu instrukcji skrobania, krzyżyk obok każdej instrukcji skrobania umożliwia usunięcie instrukcji skrobania. Jeśli instrukcja złomowania zostanie usunięta, co jest wymagane przez inne instrukcje złomowania, instrukcje te również zostaną usunięte. Możesz zmienić kolejność instrukcji zgarniania, przeciągając dowolne instrukcje zgarniania ikoną chwytania.

Ręczne pisanie instrukcji złomowania

Jeśli potrzebujesz dostosować instrukcje scrape w bardziej konkretny sposób lub jeśli chcesz wykonać kod przed lub po zadrapaniach będziesz musiał ręcznie zmienić instrukcje zgarniania.

Instrukcje scrape są oparte na JavaScript, a edytor kodu jest wyposażony w moduł sprawdzania składni, autouzupełnianie i podpowiedzi, aby uczynić to tak łatwym, jak to możliwe.

Instrukcje dotyczące skrobaka sieci Podstawowa funkcjonalność edytora kodu jest dostępna poprzez opcje menu, jak pokazano na zrzucie ekranu, a cel każdego z nich wyjaśniono osobno poniżej. Podczas gdy wszelkie błędy składniowe w instrukcjach zgarniania są wskazane w lewej rynnie edytora kodu.

Czarodziej kreator umożliwia wybranie części strony, którą chcesz wyodrębnić i wykonanie innych typowych zadań, takich jak tworzenie przechwyceń internetowych.

Wyświetl instrukcje złomowania wyświetla użytkownikowi kod instrukcji zgarniania.

Usuń wszystkie instrukcje usuwa wszystkie instrukcje zgarniania.

Funkcje strony internetowej wprowadzi słowo kluczowe Page into instrukcje zeskrobania i otwórz autouzupełnianie, które zawiera wszystkie możliwe Funkcje strony. Funkcje strony pozwalają wyodrębnić dane ze strony internetowej.

Funkcje danych wprowadzi słowo kluczowe Data into instrukcje złomowania. Funkcje danych pozwalają ci save informacje.

Funkcje nawigacyjne wprowadza słowo kluczowe Nawigacja into edytor kodu. The Funkcje nawigacyjne pozwalają kontrolować sposób, w jaki Skrobak internetowy porusza się po docelowych stronach internetowych.

Funkcje globalne wprowadza słowo kluczowe Global into instrukcje złomowania. To daje ci dostęp do Funkcje które mogą przechowywać dane między parsowaniem różnych stron internetowych. Podczas pisania instrukcji skrobania należy pamiętać, że stan zmiennych JavaScript w instrukcjach skrobania nie jest zachowywany, gdy skrobak przemieszcza się między stronami, chyba że używa się funkcji Globalnych do save zmienne, jak pokazano poniżej.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Aby utworzyć trwałą zmienną globalną, należy przekazać wartość true do parametru persist w metodzie Global.set, jak pokazano poniżej.

Global.set("myvariable", "hello", true);

Funkcje użytkowe wprowadza słowo kluczowe Utility into instrukcje złomowania. To pozwala na użycie wspólne funkcje które ułatwiają pisanie rysunków, takich jak dodawanie lub usuwanie zapytaństring parametry z adresów URL.

Funkcje kryteriów wprowadza słowo kluczowe Kryteria into instrukcje złomowania. Te Funkcje pozwala udoskonalić dane wyodrębnione podczas skrobania, takie jak eliminacja duplikatów.

Filtr pozwala łatwo utworzyć filtr, jest to wymagane przez niektóre funkcje, aby wybrać określony element HTML ze strony internetowej. Wystarczy wybrać atrybuty, które powinien mieć element docelowy i / lub elementy nadrzędne elementu powinny wybrać ten element. Upewnij się, że przed kliknięciem tej opcji kursor znajduje się we właściwym miejscu w funkcji, aby również przejść filtr.

Funkcje zrzutu ekranu pozwala ustawić opcje zrzutu ekranu. Po prostu umieść kursor we właściwej części funkcji, zgodnie z etykietką i naciśnij opcje zrzutu ekranu. Następnie wybierz wszystkie żądane opcje i wstaw polecenie.

Wykonywanie akcji przed lub po zadrapaniu

Możesz uruchamiać polecenia przed lub po zgarnięciu, korzystając z rozwijanej listy opcji u góry karty Instrukcje zgarniania. Wszelkie polecenia wprowadzone kiedy Wykonaj po zadrapaniu wybrana zostanie uruchomiona po zakończeniu zgarniania. Podczas gdy wszelkie polecenia zostały wprowadzone, kiedy Wykonaj przed złomowaniem wybrana zostanie uruchomiona przed rozpoczęciem zgarniania.

Jednak w którymkolwiek z tych dwóch trybów specjalnych dostępny jest tylko podzbiór instrukcji zgarniania. Dostępne polecenia to instrukcje zgarniania danych, danych globalnych i nawigacji.

Strings

Strings są używane w instrukcjach skrobania podczas wykonywania skrobania internetowego w celu zdefiniowania tekstu. ZA string jest ograniczony przez podwójne (") lub pojedyncze cytaty ('). Jeśli string zaczyna się od podwójnego cytatu, musi kończyć się podwójnym cytatem, jeśli a string zaczyna się od pojedynczego cytatu, musi kończyć się pojedynczym cytatem. Na przykład:

"my-class" i 'my-class'

Częstym błędem, który może wystąpić, jest niezamknięty string błąd, to wtedy string nie ma cytatu zamykającego, jak pokazano powyżej, lub występuje przerwa w linii w string. Poniższe są nielegalne strings:

"my
class"

"my class

Aby naprawić ten błąd, należy upewnić się, że nie zawierają podziałów wierszy i pasują do siebie cudzysłowy:

"my class" i "my class"

Czasami chcesz, aby pojedynczy lub podwójny cytat pojawił się w string. Najłatwiej to zrobić, umieszczając pojedynczy cytat w string rozdzielone podwójnymi cudzysłowami i podwójnym cytatem w string rozdzielone pojedynczymi cudzysłowami, tak jak:

"Bob's shop" i '"The best store on the web"'

Alternatywnie możesz użyć odwrotnego ukośnika, aby uciec od cytatu:

'test\'s'

Typowe ręczne zadania złomowania

Link Checker Utwórz niestandardowy moduł sprawdzania łączy - dowiedz się, jak utworzyć niestandardowy moduł sprawdzania łączy, wykonując te proste instrukcje.
Pobieranie obrazu Pobierz wszystkie obrazy ze strony internetowej - dowiedz się, jak pobrać wszystkie obrazy z całej witryny.
Utwórz zestaw danych Wyodrębnij dane i przekształć je into zbiór danych - dowiedz się, jak utworzyć zestaw danych ze strony, którą zgarniasz.
Wyodrębnij linki Wyodrębnij linki ze strony internetowej - dowiedz się, jak wyodrębnić wszystkie linki HTML z całej witryny i save je w żądanym formacie.
Wybierz tekst Wyodrębnianie wartości z tekstu za pomocą wzorców - dowiedz się, jak używać wzorców do wyodrębniania wartości z bloków tekstu.
OCR Wyodrębnij tekst z obrazów - dowiedz się, jak wyodrębnić tekst zawarty w obrazach.
Dataset Jak uzupełnić zestaw danych - lepiej sformatuj wyodrębnione dane za pomocą wypełnienia.
Szyk Manipulowanie tablicami - dowiedz się, jak korzystać ze specjalnych metod narzędzi tablicowych, aby łatwo obsługiwać tablice w zadaniach.
Akcja Wykonaj akcję tylko raz podczas zgarniania - dowiedz się, jak wykonać akcję tylko raz podczas całego skrobania.
Oczyścić Udoskonalanie danych zeskrobanych - Dowiedz się, jak usunąć zbędne dane ze skrobaków.
Adres e-mail Zeskrob adresy e-mail ze strony internetowej - dowiedz się, jak zeskrobać wszystkie adresy e-mail ze strony internetowej.
Zrzut ekranu Zrzut ekranu całej witryny into pliki PDF lub obrazy - dowiedz się, jak używać skrobaka internetowego GrabzIt do przechwytywania każdej strony całej witryny.
Zrzut ekranu Wyodrębnij uporządkowane informacje z nieustrukturyzowanego tekstu - użyj GrabzIt, aby wyodrębnić nastroje, nazwiska, lokalizacje i organizacje.

Skrobanie treści innych niż HTML

Gdy Skrobaczka internetowa natrafi na pliki PDF, XML, JSON i RSS, przekonwertuje ją na aproksymację HTML, co pozwala naszemu skrobakowi internetowemu poprawnie go przeanalizować i wybrać zawartość, którą chcesz wyodrębnić. Na przykład, jeśli chcesz przeanalizować dane JSON, dane zostaną przekonwertowane into hierarchiczna reprezentacja HTML pokazana z boku. Pozwala to normalnie budować instrukcje zgarniania.

W podobny sposób, gdy skrobak ładuje dokument PDF, PDF jest konwertowany into HTML, aby umożliwić wybieranie i usuwanie zdjęć, hiperłączy, tekstu i tabel. Ponieważ jednak plik PDF nie ma rzeczywistej struktury, tabele są identyfikowane za pomocą heurystyki i dlatego nie zawsze są dokładne.

Opcje eksportu

Ta karta pozwala wybrać sposób eksportowania wyników, w tym arkusze kalkulacyjne Excel, XML, JSON, CSV, polecenia SQL lub dokumenty HTML. Dodatkowo ta zakładka pozwala ustawić nazwę spakowanych wyników zgarniania. Jeśli pobierasz tylko pliki lub tworzysz zrzuty z Internetu, nie musisz wybierać opcji eksportu, ponieważ otrzymasz tylko plik ZIP zawierający wyniki. Ta zakładka pozwala również określić, w jaki sposób chcesz wysłać wyniki. Możesz wysłać wyniki za pośrednictwem Amazon S3, Dropbox, Powiadomienie e-mail, FTP i WebDav.

Ostatnią opcją jest Callback URL, który pozwala przetwarzać wyniki zgarniania w Twojej aplikacji przy użyciu naszego zeskrob API.

Nazwę pliku spakowanych wyników lub każdego pliku danych, jeśli zażądasz ich wysłania osobno, można ustawić, odznaczając opcję Użyj domyślnej nazwy pliku i ustawiając żądaną nazwę pliku.

Zaplanuj Scrape

Podczas tworzenia skrobania internetowego karta Zaplanuj zgarnianie pozwala określić, kiedy ma być uruchamiane zgarnianie, a jeśli ma się powtarzać - jak często powinno to robić.

Monitorowanie i debugowanie zadrapań

Po rozpoczęciu scraperowania ikona stanu zmieni się na a przetwarzane strony zaczną z czasem rosnąć. Regularnie tworzona jest migawka postępu zgarniania z generowanym plikiem dziennika wraz ze zwykłym zrzutem ekranu ostatniej strony internetowej, na którą napotkał zgarniacz. Pozwala to zobaczyć, co dzieje się podczas zgarniania. Aby znaleźć te informacje, kliknij ikonę rozwijania obok zeskrobania i kliknij Viewer dla złomowania jesteś interested in. Powinno to wyszczególnić, jeśli wystąpiły jakiekolwiek błędy, takie jak problemy z instrukcjami zgarniania.

Po pomyślnym zakończeniu zgarniania ikona stanu zmieni się na , jeśli nie ma rezultatu po otwarciu przeglądarki, a ostatni zrzut ekranu może powiedzieć, co poszło nie tak.

Jednym z najczęstszych problemów zgłaszanych w dziennikach jest to, że nie ma wystarczającego opóźnienia renderowania, aby zeskrobać stronę, często niewielki wzrost Opóźnienie wczytywania strony znalezione w Opcje złomowania zakładka wystarcza na większość stron internetowych.