Streszczenie:
Praca dotyczy porównania metod klasyfikacji tekstu dla recenzji. Badanie przeprowadzono na trzech źródłach danych: recenzje produktów sklepu amazon.com, recenzje filmów na portalu IMDb, recenzje restauracji z portalu Yelp. Do przedstawienia dokumentów w postaci ilościowej wykorzystano podejście bag-of-words oraz przekształcenie TF-IDF. Badanie porównuje wyniki klasyfikacji dla algorytmów k najbliższych sąsiadów, wielomianowego klasyfikatora Naiwnego Bayesa, regresji logistycznej, drzewa decyzyjnego, algorytmu random forest oraz klasyfikatora wektorów nośnych. Do oceny wyników klasyfikatorów wykorzystano miary oceny modeli, szczególnie kierując się wynikiem accuracy.