Streszczenie:
Celem niniejszej pracy jest analiza i porównanie metod wektoryzacji oraz ekstrakcji cech do zadania
analizy sentymentu w pisanym tekście z wykorzystaniem technik uczenia maszynowego. W ramach
pracy zostało przeprowadzone badanie dwóch podejść ekstrakcji cech z dokumentów tekstowych -
TF-IDF oraz osadzanie słów (ang. word embedding), różniące się od siebie sposobem reprezentacji
tekstu w formie wektorów. Dla każdej z tych technik został przeprowadzony szereg testów badający
wpływ metod ekstrakcji i selekcji cech na skuteczność algorytmu analizy sentymentu.
Przeprowadzono analizę wpływu selekcji istotnych cech (dla metody TF-IDF) oraz wstępnej filtracji
słów (dla osadzania słów) na dokładność klasyfikacji. Dodatkowo zostaną porównane dwa zbiory
wektorów reprezentujących słowa - word2vec i GloVe, różniące się od siebie sposobem trenowania i
ustalania wartości składowych wektorów reprezentujących słowa.