Narzędzia do przechwytywania i konwertowania Internetu

Dokumentacja skrobaka internetowego

Aby utworzyć przeglądarkę internetową, musisz określić pięć rodzajów informacji, rozmieszczonych na następujących kartach.

  1. Opcje złomowania
  2. Docelowa witryna internetowa
  3. Instrukcje złomowania
  4. Opcje eksportu
  5. Zaplanuj Scrape

Opcje złomowania

Wszystkie poniższe funkcje są dostępne w celu dostosowania zgarniania internetowego na karcie Opcje zgarniania.

Nazwa złomu nazwa złomu.

Śledź linki zapewnia następujące opcje, w jaki sposób skrobak powinien podążać za linkami:

Zignoruj ​​pobieranie plików po ustawieniu żadnych linków, które powodują pobieranie pliku podczas odwiedzania, nie są pobierane.

Zignoruj ​​plik Robots.txt jeśli jest ustawiony, skrobak może odwiedzać strony normalnie wykluczone z indeksowania przez właściciela witryny.

Ignoruj ​​strony błędów jeśli jest ustawiony, skrobak sieciowy pominie wszystkie strony internetowe, które zgłaszają błąd. Zatem dowolne kody stanu HTTP 400 lub nowsze.

Ignoruj ​​fragmenty adresów URL jeśli jest ustawiony, skrobak sieciowy zignoruje część adresu URL znajdującą się po # ta funkcja jest powszechnie używana do oznaczenia zakładki na tej samej stronie, co zwykle powoduje wymazywanie niepotrzebnych stron. Jednak niektóre witryny korzystają z tej funkcji w celu wyświetlania innej treści. W takim przypadku należy wyłączyć to ustawienie. Ta opcja ma zastosowanie tylko wtedy, gdy śledzenie linków nie jest wymagane.

Ignoruj ​​duplikaty jeśli ustawione, będzie ignorować strony, które są równe lub większe niż ustawione podobieństwo, na przykład możesz zignorować strony, które są 95% takie same.

Ogranicz zadrapanie pozwala określić, ile stron powinien skrobać skrobak przed zatrzymaniem.

Użyj Mojej strefy czasowej jeśli jest ustawiony, oznacza to, że Skrobak WWW powinien próbować konwertować dowolne daty, które usuwa into Twoja lokalna strefa czasowa. Strefę czasową można ustawić na stronie konta.

Lokalizacja położenie geograficzne, z którego skrobak internetowy wykona zgarnianie. Może to być przydatne, jeśli docelowa witryna ma ograniczenia oparte na lokalizacji.

Domyślny format daty podczas konwertowania dat, w których nie można ustalić formatu daty, Skrobak internetowy zamiast tego domyślnie wybierze ten wybrany format.

Opóźnienie wczytywania strony jest to czas w milisekundach, przez który Skrobak WWW powinien poczekać, zanim parsuje stronę. Jest to bardzo przydatne, jeśli strona zawiera dużo AJAX lub ładuje się powoli.

Docelowa witryna internetowa

Docelowa witryna internetowa

W zakładce Witryna docelowa określasz strony internetowe, z których chcesz wyodrębnić dane. Aby nakazać narzędziu zgarniającemu wyodrębnienie danych ze strony internetowej, musisz najpierw określić główny adres URL, na którym się znajdujesz intaresztowany np http://www.example.com/shop/ To jest, gdy skrobak rozpocznie skrobanie, może to być zwykła strona internetowa, dokument PDF, dokument XML, dokument JSON, kanał RSS lub mapa witryny. Jeśli nie jest to strona internetowa ani dokument PDF, skrobak znajdzie wszystkie linki w pliku i odwiedzi każdy z nich.

Aby śledzić tylko linki znajdujące się w docelowym adresie URL, a nie kolejne strony, możesz ustawić Śledź linki opcja zgarniania do na pierwszej stronie. Spowoduje to użycie docelowego adresu URL tylko do wysiewu pozostałej części notki.

Wzorzec adresu URL

Domyślnie skrobak internetowy podąża za każdym odsłoniętym linkiem na każdej odwiedzanej stronie internetowej. Jeśli chcesz ograniczyć to, co łączy Skrobak do sieci poniżej, prostym sposobem na osiągnięcie tego jest określenie wzorca adresu URL. Ta potężna technika polega głównie na określeniu adresu URL z gwiazdką jako symbolem wieloznacznym oznaczającym, że w tej części wzorca mogą znajdować się dowolne znaki. Na przykład http://www.example.com/*/articles/* zeskrobałby wszystkie adresy URL zawierające artykuły jako drugi katalog z katalogu głównego witryny.

Bardziej restrykcyjnym sposobem definiowania wzorca adresu URL jest definiowanie alternatyw. Na przykład ten przykład będzie pasował tylko do sklepu lub wiadomości: http://www.example.com/ /*

Dlatego pasowałoby to do tego http://www.example.com/store/products/1 ale nie http://www.example.com/about/.

Alternatywnie można dopasować wszystko, ale nie coś. Na przykład ten przykład nie będzie pasował do sklepu ani wiadomości: http://www.example.com/ /*

Dlatego pasowałoby to do tego http://www.example.com/about/ ale nie http://www.example.com/store/products/1!

Wzorzec adresu URL może również zawierać słowa kluczowe. Słowo kluczowe to wszystko zawarte w podwójnych nawiasach kwadratowych. Więc [[URL_START]]www.example.com* będzie pasować do każdego prawidłowego początku adresu URL, więc http://www.example.com/, https://www.example.com/ lub nawet ftp://www.example.com/ na przykład.

Adresy URL nasion

Ziarniste adresy URL pozwalają użytkownikowi określić listę adresów URL, które muszą zostać przeszukane przez skrobak internetowy. Jeśli chcesz tylko zeskrobać adresy URL adresów początkowych, ustaw Śledź linki opcje zgarniania do brak stron w zakładce Opcje złomowania.

Aby ustawić początkowe adresy URL na karcie Docelowa witryna internetowa, kliknij przycisk Dodaj cel, a następnie zaznacz pole wyboru Ustaw początkowe adresy URL i określ każdy adres URL do zeskrobania w osobnej linii.

Utwórz początkowe adresy URL z szablonu adresu URL

Alternatywnie możesz automatycznie wygenerować początkowe adresy URL za pomocą adresu URL szablonu, jest to pojedynczy adres URL zawierający zmienną adresu URL. Zmienna URL określa zakres liczb, które mają być iterowane.

Numer początkowy to liczba, od której zmienna URL powinna zacząć liczyć, numer końcowy to liczba, od której zmienna URL przestanie zliczać, liczba iteracyjna to liczba, którą liczba będzie zwiększać przy każdej iteracji zmiennej URL.

Na przykład dla następującego adresu URL szablonu http://www.example.com/search?pageNo=

Spowoduje to utworzenie następujących początkowych adresów URL:

Wykonaj post

Adres URL może również określać adres URL z parametrami do POST, na przykład formularz logowania. Aby to zrobić, określ adres URL formularza w polu tekstowym Docelowy adres URL i dodaj wymagane parametry posta, których chcesz użyć. Wartości po zmiennej mogą również zawierać specjalne zmienne GrabzIt, takie jak:

Instrukcje złomowania

Instrukcje dotyczące pobierania informują program Web Scraper, jakie czynności należy wykonać podczas pobierania docelowej witryny internetowej. Karta Instrukcje dotyczące pobierania domyślnie wyświetla kreatora pobierania, co ułatwia dodawanie potrzebnych instrukcji dotyczących pobierania. Dobry przykład użycia tego kreatora jest pokazany w lista produktów i samouczek skrobania szczegółów.

Gdy będziesz gotowy do skrobania, naciśnij Dodaj nową instrukcję zdrapania łącze.

Spowoduje to otwarcie kreatora i automatyczne załadowanie docelowego adresu URL, umożliwiając natychmiastowe wybranie tego, co chcesz zeskrobać. Jeśli strona internetowa lub dokument PDF został załadowany, możesz kliknąć dowolny link i będzie on działać normalnie, na przykład nawigacja do innej strony internetowej. Dopóki nie wybierzesz jednej z akcji u dołu ekranu w tym point każde kliknięcie treści spowoduje wybranie elementu HTML, który chcesz wyodrębnić lub zmodyfikować.

Pierwszą rzeczą do zrozumienia na temat instrukcji scrape jest to, że są one domyślnie wykonywane na każdej stronie internetowej. Sposobem na powstrzymanie tego jest użycie szablonów. Szablon może zostać przypisany podczas wykonywania czynności, takiej jak kliknięcie łącza, a więc za każdym razem, gdy skrobak odwiedza ten link lub klika ten przycisk, rozpoznaje, że należy do przypisanego szablonu. Umożliwia to zdefiniowanie różnych typów stron. Na przykład możesz mieć stronę kategorii produktu, która zawiera pewne informacje ogólne, a następnie stronę szczegółów, która zawiera informacje o produkcie. Obie strony prawdopodobnie potrzebowałyby innego zestawu instrukcji zdrapywania.

Szablon skrobaka

Aby rozpocząć, wybierz Kliknij akcji, a następnie po wybraniu elementów, na których chcesz wykonać akcję, i kliknięciu przycisku Następna przycisk wprowadź nazwę szablonu w Utwórz szablon pole tekstowe teraz, ilekroć skrobak wykonuje te akcje, zwrócony szablon będzie nazwą, którą podałeś.

Następnie, aby przypisać konkretny szablon do instrukcji skrobania, wybierz żądany szablon z Wykonaj w rozwijana lista, która pojawia się w oknie opcji, które pojawia się tuż przed dodaniem instrukcji zgarniania. Trzy główne opcje przy wyborze szablonu są następujące:

Po wybraniu jednej z tych opcji instrukcja zgarniania zostanie wykonana tylko na określonym szablonie.

Wyodrębnianie danych

Zauważysz to po wybraniu wyodrębnić dane akcja. Lewy dolny róg ekranu zachęca do wybrania elementu HTML w oknie powyżej lub do wybrania globalnej właściwości strony.

Aby użyć globalnej właściwości strony, kliknij globalna właściwość strony połączyć. Następnie potwierdź, że chcesz kontynuować. Będziesz mieć teraz listę właściwości, które można wyodrębnić bezpośrednio ze strony. Na przykład: Tytuł strony.

Aby wybrać jedną, po prostu wybierz ją z listy opcji i kliknij Następna dodać dane do zestaw danych.

Jeśli chcesz wyodrębnić dane w określonych elementach HTML zamiast należeć do całej strony, musisz kliknąć odpowiednie elementy HTML, możesz wybrać pojedynczy lub wiele elementów. Jeśli jednak wybierasz wiele elementów, spróbuj wybrać wiele elementów, które są takie same, np. Wiele wierszy w kolumnie, ponieważ jeśli skrobak nie może utworzyć reguły, która może jednoznacznie zidentyfikować wybrany zbiór danych, instrukcja złomowania nie będzie być w stanie zostać stworzonym. Ponadto jeśli wiele klikanych elementów zostało zidentyfikowanych przez nasz kreator skrobaka internetowego jako powtarzające się dane, wszystkie powtarzające się dane w tej samej grupie zostaną automatycznie wybrane. Po wybraniu wszystkich pojedynczych lub wielu elementów wybierz atrybut do wyodrębnienia z lewego dolnego rogu ekranu, a następnie kliknij Następna.

Tworzenie zestawu danych

Ekran zestawu danych pozwala zmienić sposób przetwarzania danych, na przykład możesz zmienić nazwę zestawu danych i zawartych w nim kolumn, wystarczy kliknąć nazwę, aby zmienić nazwę. Gdy dodajesz kolumnę do zestawu danych, musisz także wybrać szablon, w którym ma zostać wykonany. Możesz to zmienić, klikając listę rozwijaną znajdującą się pod nazwą kolumny.

Często podczas wyodrębniania danych niektóre powtarzające się elementy powtarzają się niespójnie, aby mieć pewność, że prawidłowe wiersze są nadal ze sobą powiązane, użyj Połącz kolumny kryteria, aby połączyć niespójne kolumny z najbardziej spójną kolumną w zestawie danych.

Aby dodać więcej danych do zestawu danych, kliknij lub kliknij przycisk aby usunąć dane z zestawu danych, lub aby usunąć cały zestaw danych. Zestaw danych umożliwia także zastosowanie różnych kryteriów do danych, aby to zrobić, wybierz żądane działanie od góry, a następnie kliknij odpowiednią kolumnę, aby zastosować kryteria. Jeśli pomylisz się, dodając kryteria, po prostu kliknij przycisk.

Oto lista różnych typów kryteriów i sposobu ich użycia:

Po wybraniu jednej z powyższych operacji, jeśli może ona wpływać na wiele kolumn, zostaniesz zapytany, czy chcesz pozwolić, aby wpływała tylko na podzbiór kolumn lub wszystkie. W większości przypadków chcesz, aby wpłynęło to na wszystkie kolumny, jednak w niektórych okolicznościach przydatne jest ograniczenie wykonanych kolumn. Na przykład, jeśli wybierasz serię etykiety i wartości, które zmieniają pozycję na stronach internetowych, możesz wybrać wszystkie etykiety i wartości. Następnie w zestawie danych użyj operacji równości, aby ograniczyć ją do żądanej etykiety i określić, że ma to dotyczyć tylko kolumny etykiety i wartości. Zapewni to, że pozostałe wiersze nie będą miały wpływu na usunięcie wierszy, dla kompletności przydatne byłoby ukrycie kolumny z etykietą.

Po zmodyfikowaniu wszystkiego, co chcesz, kliknij Następna a instrukcje dotyczące usuwania zostaną dodane do zeskrobania. Jeśli chcesz, możesz dodać dalsze instrukcje dotyczące usuwania.

Manipulowanie stroną internetową

Stroną internetową można manipulować przed jej zeskrobaniem, klikając, wpisując i wybierając wartości z menu rozwijanych. Należy pamiętać, że nawet jeśli może to spowodować załadowanie nowej strony internetowej, instrukcje scrape nie uruchomią się ponownie, dopóki nie zostaną wykonane wszystkie odpowiednie instrukcje scrape.

Aby manipulować stroną internetową, wybierz albo Kliknij element, Umieść element, Przewiń, Wpisz tekst or Wybierz wartość listy rozwijanej działania. Jeśli wykonujesz akcję kliknięcia, możesz kliknąć dowolną liczbę elementów na stronie internetowej. W przeciwnym razie musisz wybrać odpowiedni element HTML, na przykład tekst należy wpisać w polu tekstowym. Następnie kliknij Następna. Spowoduje to otwarcie okna opcji, które pozwala ukończyć akcję. Podczas wpisywania tekstu i wybierania z menu rozwijanego należy odpowiednio wybrać dane do wpisania lub zaznaczenia. Poza tym opcje są takie same dla wszystkich trzech akcji.

Jeśli chcesz, możesz wybrać szablon, w którym akcja powinna zostać wykonana, a dla akcji kliknięcia zastosowany szablon, po zakończeniu akcji kliknięcia. Jednak przypisanie nowego szablonu do akcji kliknięcia, która wykonuje wiele kliknięć na tej samej stronie, nie jest dobrym pomysłem, takim jak otwieranie wbudowanych okien wyskakujących lub wyświetlanie elementów na ekranie. Dzieje się tak dlatego, że jeśli akcja kliknięcia jest wykonywana tylko na niektórych szablonach, nowy szablon przypisany przez pierwsze kliknięcie nie zostałby zresetowany, a zatem w zależności od tego, jak napisano notkę, może to zatrzymać przyszłe kliknięcia na tej samej stronie. Możesz także określić, czy chcesz, aby ta akcja była wykonywana tylko raz, co jest przydatne, jeśli wykonujesz coś takiego jak logowanie into stronie internetowej.

Działania Wpisz tekst lub Wybierz wartość listy rozwijanej pozwalają odpowiednio wpisać wiele elementów tekstu lub dokonać wielu wyborów pola wyboru. Można je edytować, klikając instrukcje dotyczące zgarniania Zmień lub zobacz zmienne przycisk, jak pokazano na zrzucie ekranu po lewej stronie.

Może to być ważne na przykład, jeśli chcesz wpisać listę nazw w polu wyszukiwania. Aby formularz był przesyłany tylko wtedy, gdy w polu wyszukiwania znajduje się wartość, szablon można ustawić za każdym razem, gdy tekst zostanie pomyślnie wpisany into pole tekstowe i akcja kliknięcia przycisku nie są wykonywane, chyba że ten szablon jest ustawiony. Po wykonaniu czynności kliknięcia szablon należy zmienić na inny, aby zresetować procedurę.

Po wykonaniu działań, które manipulują stronami internetowymi, warto poczekać chwilę, jeśli działania zainicjują funkcjonalność AJAX, aby umożliwić załadowanie zawartości AJAX przed kontynuowaniem usuwania. Możesz to zrobić, dodając opóźnienie w Po wykonaniu Zaczekaj pole tekstowe.

Możesz przejść bezpośrednio do innego adresu URL po spełnieniu pewnego warunku. Aby to zrobić, użyj Przejdź do adresu URL akcja, która pojawi się tylko wtedy, gdy co najmniej jeden szablon został zdefiniowany w zadrapaniu i kiedy utworzony musi być przypisany do szablonu, aby uniknąć nieskończonych pętli.

Wreszcie możesz używać wszystkich interfejsów API przechwytywania GrabzIt w swoich zadaniach sieciowych, po prostu wybierz akcję Przechwyć stronę internetową i wybierz pożądane przechwytywanie. Możesz ograniczyć to do przechwytywania niektórych stron internetowych w zadrapaniu, określając szablon do wykonania po wybraniu Następna przycisk.

Po dodaniu każdej instrukcji skrobania można ją zobaczyć w panelu instrukcji skrobania, krzyżyk obok każdej instrukcji skrobania umożliwia usunięcie instrukcji skrobania. Jeśli instrukcja złomowania zostanie usunięta, co jest wymagane przez inne instrukcje złomowania, instrukcje te również zostaną usunięte. Możesz zmienić kolejność instrukcji zgarniania, przeciągając dowolne instrukcje zgarniania ikoną chwytania.

Ręczne pisanie instrukcji złomowania

Jeśli chcesz dostosować instrukcje dotyczące zeskrobywania w bardziej szczegółowy sposób, będziesz musiał zmienić instrukcje ręcznie.

Instrukcje scrape są oparte na JavaScript, a edytor kodu jest wyposażony w moduł sprawdzania składni, autouzupełnianie i podpowiedzi, aby uczynić to tak łatwym, jak to możliwe.

Instrukcje dotyczące skrobaka sieci Podstawowa funkcjonalność edytora kodu jest dostępna poprzez opcje menu, jak pokazano na zrzucie ekranu, a cel każdego z nich wyjaśniono osobno poniżej. Podczas gdy wszelkie błędy składniowe w instrukcjach zgarniania są wskazane w lewej rynnie edytora kodu.

Czarodziej kreator umożliwia wybranie części strony, którą chcesz wyodrębnić i wykonanie innych typowych zadań, takich jak tworzenie przechwyceń internetowych.

Wyświetl instrukcje złomowania wyświetla użytkownikowi kod instrukcji zgarniania.

Usuń wszystkie instrukcje usuwa wszystkie instrukcje zgarniania.

Funkcje strony internetowej wprowadzi słowo kluczowe Page into instrukcje zeskrobania i otwórz autouzupełnianie, które zawiera wszystkie możliwe Funkcje strony. Funkcje strony pozwalają wyodrębnić dane ze strony internetowej.

Funkcje danych wprowadzi słowo kluczowe Data into instrukcje złomowania. Funkcje danych pozwalają ci save informacje.

Funkcje nawigacyjne wprowadza słowo kluczowe Nawigacja into edytor kodu. The Funkcje nawigacyjne pozwalają kontrolować sposób, w jaki Web Scraper nawiguje po docelowej witrynie internetowej.

Funkcje globalne wprowadza słowo kluczowe Global into instrukcje złomowania. To daje ci dostęp do Funkcje które mogą przechowywać dane między parsowaniem różnych stron internetowych. Podczas pisania instrukcji skrobania należy pamiętać, że stan zmiennych JavaScript w instrukcjach skrobania nie jest zachowywany, gdy skrobak przemieszcza się między stronami, chyba że używa się funkcji Globalnych do save zmienne, jak pokazano poniżej.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Aby utworzyć trwałą zmienną globalną, należy przekazać wartość true do parametru persist w metodzie Global.set, jak pokazano poniżej.

Global.set("myvariable", "hello", true);

Funkcje użytkowe wprowadza słowo kluczowe Utility into instrukcje złomowania. To pozwala na użycie wspólne funkcje które ułatwiają pisanie rysunków, takich jak dodawanie lub usuwanie zapytaństring parametry z adresów URL.

Funkcje kryteriów wprowadza słowo kluczowe Kryteria into instrukcje złomowania. Te Funkcje pozwala udoskonalić dane wyodrębnione podczas skrobania, takie jak eliminacja duplikatów.

FILTRY pozwala łatwo utworzyć filtr, jest to wymagane przez niektóre funkcje, aby wybrać określony element HTML ze strony internetowej. Wystarczy wybrać atrybuty, które powinien mieć element docelowy i / lub elementy nadrzędne elementu powinny wybrać ten element. Upewnij się, że przed kliknięciem tej opcji kursor znajduje się we właściwym miejscu w funkcji, aby również przejść filtr.

Funkcje zrzutu ekranu pozwala ustawić opcje zrzutu ekranu. Po prostu umieść kursor we właściwej części funkcji, zgodnie z etykietką i naciśnij opcje zrzutu ekranu. Następnie wybierz wszystkie żądane opcje i wstaw polecenie.

Strings

Strings są używane w instrukcjach skrobania podczas wykonywania skrobania internetowego w celu zdefiniowania tekstu. ZA string jest ograniczony przez podwójne (") lub pojedyncze cytaty ('). Jeśli string zaczyna się od podwójnego cytatu, musi kończyć się podwójnym cytatem, jeśli a string zaczyna się od pojedynczego cytatu, musi kończyć się pojedynczym cytatem. Na przykład:

"my-class" i 'my-class'

Częstym błędem, który może wystąpić, jest niezamknięty string błąd, to wtedy string nie ma cytatu zamykającego, jak pokazano powyżej, lub występuje przerwa w linii w string. Poniższe są nielegalne strings:

"my
class"

"my class

Aby naprawić ten błąd, należy upewnić się, że nie zawierają podziałów wierszy i pasują do siebie cudzysłowy:

"my class" i "my class"

Czasami chcesz, aby pojedynczy lub podwójny cytat pojawił się w string. Najłatwiej to zrobić, umieszczając pojedynczy cytat w string rozdzielone podwójnymi cudzysłowami i podwójnym cytatem w string rozdzielone pojedynczymi cudzysłowami, tak jak:

"Bob's shop" i '"The best store on the web"'

Alternatywnie możesz użyć odwrotnego ukośnika, aby uciec od cytatu:

'test\'s'

Typowe ręczne zadania złomowania

Link Checker Utwórz niestandardowy moduł sprawdzania łączy - dowiedz się, jak utworzyć niestandardowy moduł sprawdzania łączy, wykonując te proste instrukcje.
Pobieranie obrazu Pobierz wszystkie obrazy ze strony internetowej - dowiedz się, jak pobrać wszystkie obrazy z całej witryny.
Utwórz zestaw danych Wyodrębnij dane i przekształć je into zbiór danych - dowiedz się, jak utworzyć zestaw danych ze strony, którą zgarniasz.
Wyodrębnij linki Wyodrębnij linki ze strony internetowej - dowiedz się, jak wyodrębnić wszystkie linki HTML z całej witryny i save je w żądanym formacie.
Wybierz tekst Wyodrębnianie wartości z tekstu za pomocą wzorców - dowiedz się, jak używać wzorców do wyodrębniania wartości z bloków tekstu.
OCR Wyodrębnij tekst z obrazów - dowiedz się, jak wyodrębnić tekst zawarty w obrazach.
Dataset Jak uzupełnić zestaw danych - lepiej sformatuj wyodrębnione dane za pomocą wypełnienia.
Szyk Manipulowanie tablicami - dowiedz się, jak korzystać ze specjalnych metod narzędzi tablicowych, aby łatwo obsługiwać tablice w zadaniach.
Działania Wykonaj akcję tylko raz podczas zgarniania - dowiedz się, jak wykonać akcję tylko raz podczas całego skrobania.
Oczyścić Udoskonalanie danych zeskrobanych - Dowiedz się, jak usunąć zbędne dane ze skrobaków.
Adres e-mail Zeskrob adresy e-mail ze strony internetowej - dowiedz się, jak zeskrobać wszystkie adresy e-mail ze strony internetowej.
Zrzut ekranu Zrzut ekranu całej witryny into pliki PDF lub obrazy - dowiedz się, jak używać skrobaka internetowego GrabzIt do przechwytywania każdej strony całej witryny.
Zrzut ekranu Wyodrębnij uporządkowane informacje z nieustrukturyzowanego tekstu - użyj GrabzIt, aby wyodrębnić nastroje, nazwiska, lokalizacje i organizacje.

Skrobanie treści innych niż HTML

Gdy Skrobaczka internetowa natrafi na pliki PDF, XML, JSON i RSS, przekonwertuje ją na aproksymację HTML, co pozwala naszemu skrobakowi internetowemu poprawnie go przeanalizować i wybrać zawartość, którą chcesz wyodrębnić. Na przykład, jeśli chcesz przeanalizować dane JSON, dane zostaną przekonwertowane into hierarchiczna reprezentacja HTML pokazana z boku. Pozwala to normalnie budować instrukcje zgarniania.

W podobny sposób, gdy skrobak ładuje dokument PDF, PDF jest konwertowany into HTML, aby umożliwić wybieranie i usuwanie zdjęć, hiperłączy, tekstu i tabel. Ponieważ jednak plik PDF nie ma rzeczywistej struktury, tabele są identyfikowane za pomocą heurystyki i dlatego nie zawsze są dokładne.

Opcje eksportu

Ta karta pozwala wybrać sposób eksportowania wyników, w tym arkusze kalkulacyjne Excel, XML, JSON, CSV, polecenia SQL lub dokumenty HTML. Dodatkowo ta zakładka pozwala ustawić nazwę spakowanych wyników zgarniania. Jeśli pobierasz tylko pliki lub tworzysz zrzuty z Internetu, nie musisz wybierać opcji eksportu, ponieważ otrzymasz tylko plik ZIP zawierający wyniki. Ta zakładka pozwala również określić, w jaki sposób chcesz wysłać wyniki. Możesz wysłać wyniki za pośrednictwem Amazon S3, Dropbox, Powiadomienie e-mail, FTP i WebDav.

Ostatnią opcją jest Callback URL, który pozwala przetwarzać wyniki zgarniania w Twojej aplikacji przy użyciu naszego zeskrob API.

Nazwę pliku spakowanych wyników lub każdego pliku danych, jeśli zażądasz ich oddzielnego wysłania, można ustawić, odznaczając opcję Użyj domyślnej nazwy pliku i ustawiając żądaną nazwę pliku. Dodatkowo do nazwy pliku można dodać sygnaturę czasową, wstawiając {GrabzIt_Timestamp_UTC+1} w nazwie pliku. +1 oznacza przesunięcie w godzinach od UTC.

Możesz również wyświetlić wyniki zeskrobania, klikając plik Zobacz wyniki przycisk obok twoje zadrapanie, to pokaże wszystkie wyniki zdrapania w czasie rzeczywistym, jak również poprzednie wykonane w ciągu ostatnich 48 godzin.

Zaplanuj Scrape

Podczas tworzenia skrobania internetowego zakładka Zaplanuj skrobanie pozwala ustawić, kiedy ma się rozpocząć skrobanie, a jeśli ma być powtarzane, jak często powinno to robić. Zgarnianie można również skonfigurować tak, aby uruchamiało się po wykryciu zmiany na stronie internetowej. Aby to zrobić Start Po zmianie strony internetowej pole wyboru, a następnie wprowadź adres URL strony internetowej, którą chcesz monitorować, wraz z rozszerzeniem Selektor CSS części strony, którą jesteś intw. Ważne jest, aby została wybrana niewielka część strony, aby uniknąć fałszywych alarmów w wyniku nieistotnych zmian.

Monitorowanie i debugowanie zadrapań

Po rozpoczęciu scraperowania ikona stanu zmieni się na a przetwarzane strony zaczną z czasem rosnąć. Regularnie tworzona jest migawka postępu zgarniania z generowanym plikiem dziennika wraz ze zwykłym zrzutem ekranu ostatniej strony internetowej, na którą napotkał zgarniacz. Pozwala to zobaczyć, co dzieje się podczas zgarniania. Aby znaleźć te informacje, kliknij ikonę rozwijania obok zeskrobania i kliknij Viewer dla złomowania jesteś interested in. Powinno to wyszczególnić, jeśli wystąpiły jakiekolwiek błędy, takie jak problemy z instrukcjami zgarniania.

Po pomyślnym zakończeniu zgarniania ikona stanu zmieni się na , jeśli nie ma rezultatu po otwarciu przeglądarki, a ostatni zrzut ekranu może powiedzieć, co poszło nie tak.

Jednym z najczęstszych problemów zgłaszanych w dziennikach jest to, że nie ma wystarczającego opóźnienia renderowania, aby zeskrobać stronę, często niewielki wzrost Opóźnienie wczytywania strony znalezione w Opcje złomowania zakładka wystarcza na większość stron internetowych.