Streszczenie:
W niniejszej pracy podejmowany jest problem identyfikacji akcentu w zakresie jednego
języka. W tym celu wybrano zbiór pięciu akcentów hiszpańskich z Ameryki Łacińskiej:
argentyński, kolumbijski, chilijski, peruwiański i wenezuelski. Do rozwiązania problemu
wykorzystano 3 różne podejścia. Na początku wyodrębniono globalne parametry statystyczne
obliczone na niskopoziomowych cechach akustycznych, dostępne w zestawach
cech: eGeMAPSv02 oraz ComParE w obrębie biblioteki OpenSMILE [6]. Klasyfikacja
cech została przeprowadzona za pomocą modeli SVM oraz głębokich sieci neuronowych.
Następnie z nagrań pozyskano Mel-spektrogramy oraz podjęto próbę klasyfikacji
za pomocą sieci konwolucyjnych. Ostatnim podejściem był Transfer Learning. Zbadano
możliwość klasyfikacji cech-zagnieżdżeń uzyskanych poprzez przeprocesowanie nagrań
przez pre-trenowane modele wav2vec 2.0 oraz Yamnet. Najlepsze wyniki uzyskano wykorzystując zestawy cech akustycznych eGeMAPSv02 oraz ComParE. Podejście z Melspektrogramami
wygląda obiecująco, jednak problemem wydaje się zbyt mała ilość danych.
Udało się uzyskać pewne sensowne wyniki z zagnieżdżeniami Yamnet, natomiast
wykorzystanie zagnieżdżeń wav2vec 2.0 nie przyniosło pomyślnych rezultatów i wymaga
dalszych badań.