Narzędzia do przechwytywania i konwertowania Internetu

Jak automatycznie wyodrębnić uporządkowane informacje z nieustrukturyzowanego tekstu?

Normalny tekst pisany może zawierać wiele informacji, których nie można łatwo wydobyć. Na przykład zdanie może być recenzją firmy, ale skąd wiesz, czy jest to opinia dobra czy zła?

Zwykły skrobak sieciowy nie byłby w stanie wydobyć tych informacji. Jednak GrabzIt może to zrobić, korzystając z wbudowanych możliwości przetwarzania języka naturalnego. Jak pokazano w poniższym przykładzie, tekst strony jest analizowany i zwraca jedną z następujących wartości: Bardzo ujemna, Negatywna, Neutralna, Pozytywna i Bardzo pozytywna.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

Chociaż Skrobak internetowy GrabzIt potrafi wydobyć znacznie więcej z tekstu, w tym wykrywanie języka, nazwy lokalizacji, nazwiska osób i nazwy organizacji. Przykłady pokazano poniżej.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

Nie musisz samodzielnie pisać żadnej z tych instrukcji, ponieważ pojawią się one automatycznie po wybraniu odpowiedniego elementu HTML w naszym kreatorze skrobaka.