Streszczenie:
W niniejszej pracy magisterskiej przedstawiono projekt oraz wyniki działania
oprogramowania służącego do szczegółowej analizy treści o tematyce sportowej napisanych
w języku angielskim. Oprogramowanie to skutecznie realizuje najistotniejsze
zadania związane z przetwarzaniem języka naturalnego, tj. przetwarzanie i przygotowywanie
korpusu do analizy, sumaryzację treści, modelowanie tematów oraz analizę
i klasyfikację sentymentu. Funkcjonalności te zostały efektywnie zaimplementowane
przy wykorzystaniu starannie dobranych, złożonych technik i modeli z dziedziny
uczenia maszynowego oraz przetwarzania języka naturalnego.
Oprogramowanie generuje podsumowania za pomocą dwóch różnych metod -
ekstraktywnej i abstrakcyjnej - przy czym ta pierwsza wykorzystuje algorytm PageRank,
a druga uprzednio wytrenowany model RoBERTa. Modelowanie tematów
przeprowadzane jest przy pomocy nieujemnej faktoryzacji macierzy (NMF), która
to metoda okazała się przynosić znacznie lepsze rezultaty niż LDA i LSA. Najskuteczniejszym
modelem w kontekście klasyfikacji sentymentu w poszczególnych
dokumentach okazał się być oparty na leksykonach model VADER, i to on został
wykorzystany do realizacji tego zadania.