Jednym z najczęstszych wymagań jest wyodrębnienie danych ze strony internetowej i włączenie ich into struktura tabelaryczna, którą można wyeksportować do dalszego przetwarzania. Ale tylko to, co jest zbiorem danych i jak jest używane Skrobak internetowy GrabzIt?
Poniżej znajdują się dane tabeli zawarte w zestawie danych cennik, tabela składa się z trzech kolumn etykieta przedmiotu, opis przedmiotu i Cena przedmiotu.
etykieta przedmiotu | opis przedmiotu | Cena przedmiotu |
---|---|---|
Aparat fotograficzny | Robi zdjęcia cyfrowe | $99.00 |
Aby utworzyć ten zestaw danych, musisz użyć następujących instrukcji zeskrobania.
Data.save('Camera', 'price list', 'item label'); Data.save('Takes digital photos', 'price list', 'item description'); Data.save('$99.00', 'price list', 'item price');
Wykorzystuje to Data.save
metoda dodania wartość danych do konkretnego zestaw danych i kolumna. Za każdym razem Data.save
wywoływana jest metoda z tym samym zestawem danych i parametrami nazwy kolumny, do której dodawany jest nowy wiersz. Jednak powyższe instrukcje usuwania nie są bardzo przydatne, ponieważ tworzymy zestaw danych przy użyciu wartości statycznych. Poniższy kod pokazuje HTML strony internetowej, a następnie napiszemy instrukcje scraper, aby dynamicznie wyodrębnić dane ze strony i save it into zbiór danych.
<html> <body> <span id="spnLabel">Nikon 1055</span> <span id="spnDescription">Great little camera, creates clear sharp images.</span> <span id="spnPrice">$99.99</span> </body> </html>
Teraz użyjemy Page.getTagValue
metoda wyodrębnienia wartości ze znaczników zakresu.
Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label'); Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description'); Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');
Jak widać Page.getTagValue
metody wykorzystują filtr, który jednoznacznie identyfikuje element HTML, z którego należy wyodrębnić tekst. W tym przypadku filtry określają, że atrybut HTML id powinien być równy spnLabel, spnDescription or spnPrice odpowiednio. Możesz łatwo wygenerować filtr, klikając ikona, która wyświetla kreatora upraszczającego budowę filtra.
Po zbudowaniu zestawu danych, jak pokazano tutaj, możesz zdecydować, w jaki sposób chcesz go wyeksportować na Opcje eksportu patka.