Narzędzia do przechwytywania i konwertowania Internetu

Wydobywanie danych z dokumentów PDF

Skrobanie danych z treści dokumentów PDF nie jest tak elastyczne, jak w przypadku dokumentów HTML, jednak wciąż istnieje wiele sposobów na osiągnięcie tego Skrobak internetowy GrabzIt. Najpierw zeskrobuj zawartość PDF, której używasz PDF funkcje zamiast Page funkcje, ale poza tym funkcje działają ogólnie w ten sam sposób.

Filtr dokumentu PDF jest znacznie prostszy niż filtr dokumentu HTML. Przede wszystkim musisz określić, jaki typ treści chcesz wyodrębnić: linki, obrazy lub tekst.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

W przypadku linków i obrazów można ograniczyć, jaki obraz lub link jest zwracany, określając jego pozycję.

PDF.getValue({"type":"image","position":"2"});

Pobiera drugi obraz w dokumencie. W przypadku tekstu, obrazów i linków możesz dodatkowo ograniczyć zwracane dane, określając numer strony.

PDF.getValue({"type":"image","position":"2","page":"5"});

Spowoduje to zwrócenie drugiego obrazu z piątej strony. Tekst zawiera dodatkową opcję numeru wiersza, jednak tekst nie obsługuje pozycji.

PDF.getValue({"type":"text","page":"5","line":"10"});

Otrzymuje dziesiąty wiersz tekstu z piątej strony. Różnice w opcjach filtrowania innych niż te pozwalają na skrobanie danych z dokumentów PDF w bardzo podobny sposób skrobanie danych z dokumentów HTML, jednak ponieważ nie możesz określić, co wyodrębniasz za pomocą filtra PDF, może być konieczne określenie wzorzec aby wyodrębnić prawidłowe informacje z tekstu.