Narzędzia do przechwytywania i konwertowania Internetu

Wyodrębnij dane i przekształć je into zbiór danych

Jednym z najczęstszych wymagań jest wyodrębnienie danych ze strony internetowej i włączenie ich into struktura tabelaryczna, którą można wyeksportować do dalszego przetwarzania. Ale tylko to, co jest zbiorem danych i jak jest używane Skrobak internetowy GrabzIt?

Przykładowy zestaw danych: cennik

Poniżej znajdują się dane tabeli zawarte w zestawie danych cennik, tabela składa się z trzech kolumn etykieta przedmiotu, opis przedmiotu Cena przedmiotu.

etykieta przedmiotu opis przedmiotu Cena przedmiotu
Aparat fotograficzny Robi zdjęcia cyfrowe $ 99.00

Aby utworzyć ten zestaw danych, musisz użyć następujących instrukcji zeskrobania.

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

Wykorzystuje to Data.save metoda dodania wartość danych do konkretnego zestaw danych kolumna. Za każdym razem Data.save wywoływana jest metoda z tym samym zestawem danych i parametrami nazwy kolumny, do której dodawany jest nowy wiersz. Jednak powyższe instrukcje usuwania nie są bardzo przydatne, ponieważ tworzymy zestaw danych przy użyciu wartości statycznych. Poniższy kod pokazuje HTML strony internetowej, a następnie napiszemy instrukcje scraper, aby dynamicznie wyodrębnić dane ze strony i save it into zbiór danych.

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

Teraz użyjemy Page.getTagValue metoda wyodrębnienia wartości ze znaczników zakresu.

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

Jak widać Page.getTagValue metody wykorzystują filtr, który jednoznacznie identyfikuje element HTML, z którego należy wyodrębnić tekst. W tym przypadku filtry określają, że atrybut HTML id powinien być równy spnLabel, spnDescription or spnPrice odpowiednio. Możesz łatwo wygenerować filtr, klikając Przycisk filtra ikona, która wyświetla kreatora upraszczającego budowę filtra.

Po zbudowaniu zestawu danych, jak pokazano tutaj, możesz zdecydować, w jaki sposób chcesz go wyeksportować na Opcje eksportu patka.