Streszczenie:
W ramach niniejszej pracy został opracowany zbiór danych zawierający informację o 83 tysiącach gier. Składa się on z opisów, grafik okładkowych i zdjęć przedstawiających rozgrywkę. Dla danych w postaci tekstowej zostały porównane wyniki uzyskane przez modele korzystające z Universal Sentence Encoder, sieci LSTM oraz BERT-a. Dla danych w postaci graficznej została sprawdzona sieć ResNet50. Następnie zostały zbadane wyniki uzyskiwane przez modele multimodalne, podejmujące decyzję na podstawie kilku cech. Dla każdej z cech został wybrany model osiągający najlepsze wyniki na podstawie jednego typu danych. Zostały sprawdzone modele wykorzystujące dwie cechy we wszystkich możliwych kombinacjach, oraz model wykorzystujący trzy cechy. Zbadano również wpływ zbalansowania zbioru treningowego na osiągane rezultaty. Na końcu pracy dokładność uzyskana dla najlepszego modelu została porównana z danymi zawartymi w literaturze. Na podstawie osiągniętych wyników udało się potwierdzić, że dodanie trzeciej cechy do modelu multimodalnego - zdjęć przedstawiających rozgrywkę, pozwoliło osiągnąć wyższą dokładność.