Repozytorium PJATK

Narzędzie do mierzenia jakości korpusów mowy

Repozytorium Centrum Otwartej Nauki

Pokaż uproszczony rekord

dc.contributor.author Litwinowicz, Jakub Edward
dc.date.accessioned 2023-01-02T08:28:33Z
dc.date.available 2023-01-02T08:28:33Z
dc.date.issued 2023-01-02
dc.identifier.issn 2021/M/DS/10
dc.identifier.uri https://repin.pjwstk.edu.pl/xmlui/handle/186319/2048
dc.description.abstract Korpusy mowy posiadają wiele zastosowań. Można na ich podstawie badać własności języka mówionego, czy opracowywać algorytmy np. rozpoznawania mowy lub klasyfikacji mówców. W przypadku niektórych podejść, takich jak uczenie głębokie, posiadanie korpusów ogromnych rozmiarów potrafi pozwolić na stworzenie rozwiązań o wysokiej skuteczności. Jednak korpus niskiej jakości możne uniemożliwić osiągniecie docelowych wyników, z tego powodu ocena jakości sygnału mowy jest kluczowa. Manualne ocenianie nagrań jest kosztowne i czasochłonne, w wyniku tego istnieje zapotrzebowanie na algorytmy automatycznie dokonujące oceny. Wiele metod do oceny jakości mowy nie jest przeznaczone do takich danych, ponieważ zostały stworzone do porównywania sygnału oryginalnego (zwanego referencyjnym) z sygnałem zdegradowanym w wyniku np. zastosowania na nim kodeku. Korpusy mogą służyć do zastosowań, w których nie modyfikuje się sygnału otrzymując drugi, którego jakość można oszacować przyrównując go do oryginalnego sygnału. Oznacza to, ze wymagane jest podejście działające tylko na oryginalnym sygnale. Efektem niniejszej pracy jest aplikacja desktopowa, która umożliwia automatyczna predykcje jakości nagrań w korpusie, estymacje SNR w nagraniach i podsumowanie uzyskanych wyników za pomocą wykresów. Aplikacja posiada również opcje podsumowania różnorodnych cech korpusu takich jak czas trwania poszczególnych fonemów lub najczęściej występujące słowa. W pierwszym rozdziale pracy podsumowano przeanalizowane źródła literatury opisujące metody oceny ogólnej jakości nagrania jak również sposoby szacowania SNR w nagraniach mowy. Drugi rozdział opisuje wykorzystane technologie, narzędzia i korpus nagrań mowy CLARIN. Zawarte w tym rozdziale zostały również opisy metod służących do estymacji SNR i predykcji ogólnej jakości sygnału mowy, na których bazowano w pracy. W ostatnim, trzecim rozdziale znajduje się opis aplikacji, jej funkcjonalności, przypadków jej użycia i wyniki uzyskane na korpusie CLARIN przez metody dostępne z poziomu aplikacji. Opisany został w nim również proces dostosowania modelu przewidującego jakość nagrania mowy do pracy z korpusem CLARIN. pl_PL
dc.language.iso other pl_PL
dc.relation.ispartofseries ;Nr 6293
dc.subject Informatyka pl_PL
dc.title Narzędzie do mierzenia jakości korpusów mowy pl_PL
dc.type Thesis pl_PL


Pliki tej pozycji

Plik Rozmiar Format Przeglądanie

Nie ma plików powiązanych z tą pozycją.

Pozycja umieszczona jest w następujących kolekcjach

Pokaż uproszczony rekord

Szukaj


Szukanie zaawansowane

Przeglądaj

Moje konto