Repozytorium PJATK

Optymalizacja funkcji kosztu w korpusowej syntezie mowy polskiej

DSpace/Manakin Repository

Show simple item record

dc.contributor.advisor Marasek, Krzysztof
dc.contributor.author Szklanny, Krzysztof
dc.date.accessioned 2014-01-31T09:06:00Z
dc.date.available 2014-01-31T09:06:00Z
dc.date.issued 2009-09
dc.identifier.citation Szklanny K., 2009. Optymalizacja funkcji kosztu w korpusowej syntezie mowy polskiej. Rozprawa doktorska. Polsko-Japońska Wyższa Szkoła Technik Komputerowych pl_PL
dc.identifier.uri https://repin.pjwstk.edu.pl/xmlui/handle/186319/219
dc.description Rozprawa doktorska. Opiekun naukowy: dr hab. Krzysztof Marasek. Polsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa, wrzesień 2009 pl_PL
dc.description.abstract Technologie głosowe są na świecie rozwijane co najmniej od połowy lat 70-tych. Ich główną zaletą jest możliwość stworzenia głosowej interakcji między użytkownikiem a komputerem. Text-to-speech system jest modułem konwersji tekstu na mowę. Wykorzystuje się tą technologię do generowania dźwiękowej postaci danych tekstowych. Dzięki temu można tworzyć portale głosowe, czy też aplikacje z głosowym interfejsem. Celem nowoczesnych projektów jest zapewnienie takiej jakości syntezy, by słuchający nie był w stanie odróżnić mowy syntetyzowanej od naturalnej (Turing 1950). Z oczywistych powodów nie jest możliwe stworzenie i nagranie wszystkich form i wszystkich słów dla danego języka, stąd konieczność syntezowania mowy. System TTS definiuje się jako system automatycznego generowania mowy z tekstu ortograficznego, z modułem transkrypcji fonetycznej oraz modułami odpowiedzialnymi za prozodię i intonację. Istnieje kilka metod generowania syntetycznej mowy. Obecnie stosowane są dwie technologie. Pierwsza, zwana regułową syntezą mowy, polega na jej generowaniu poprzez układ symulujący ludzki aparat mowy o zmiennych parametrach. Druga, zwana konkatenacyjną syntezą mowy polega na łączeniu jednostek akustycznych wybieranych z bazy nagrań głosu naturalnego. Synteza korpusowa jest szczególnym rodzajem syntezy konkatenacyjnej (Szklanny i wsp. 2008). W syntezie korpusowej baza językowa jest znacznie większa i zawiera posegmentowane wypowiedzi, na segmenty akustyczne o różnej rozciągłości (np. głoski, difony, trifony, sylaby, wyrazy, całe zdania). Ta sama jednostka występuje wielokrotnie. Chcąc wygenerować zadaną wypowiedź dobierane są takie jednostki, które minimalizują wartość globalnej funkcji kosztu. Funkcja ta zwykle składa się z dwóch części: kosztu doboru jednostki oraz kosztu konkatenacji. Według badań przeprowadzonych dla języka angielskiego (Clark i wsp. 2007) wynika, iż w przypadku kosztu doboru jednostki najistotniejszym parametrem jest akcent. Waga akcentu powinna być jak największa. O ile w języku angielskim dominuje akcent melodyczny, o tyle w polskim jest pewna swoboda w jego realizacji – może mieć on formę melodyczną lub dynamiczną. Istotne znaczenie zajmuje pozycja w frazie. Zatem obecnie zasadniczym problemem w syntezie mowy nie jest stworzenie mowy zrozumiałej, a uzyskanie jej jakości powszechnie akceptowalnej. O tym decyduje poprawna wymowa i właściwe akcentowanie. Funkcja kosztu konkatenacji wyznacza jakość połączenia na podstawie czasu trwania jednostek akustycznych tworzących łączone fragmenty, ich intonacji, konturu widma oraz energii. Na ogół modyfikacje prozodyczne sygnału nie są konieczne (w przypadku syntezy korpusowej), co przekłada się na dużą naturalność brzmienia generowanej mowy. Metoda selekcji jednostek (ang. unit selection) jest najbardziej efektywna i popularna metoda syntezy konkatenacyjnej. Głównym celem pracy było zoptymalizowanie funkcji kosztu w korpusowej syntezie mowy dla języka polskiego. W celu realizacji tego zadania należało przygotować kompletny system syntezy korpusowej. Proces ten obejmował etap przygotowania korpusu, realizacje nagrań, segmentację bazy językowej. Jakość segmentacji została zweryfikowana w prototypowym syntezatorze. Następnie przygotowano nowy głos w środowisku Festival wykorzystując nagraną bazę akustyczną. Praca ta zawierała realizację nowych modułów, jak i dostosowanie już istniejących do wymogów syntezy mowy polskiej. W ten sposób powstał kompletny system korpusowej syntezy mowy. Następnie zoptymalizowano funkcję kosztu wykorzystując do tego algorytm ewolucyjny. Efekt badań został potwierdzony percepcyjnym testem jakości syntetycznej mowy typu MOS (ITU 1996) (ang. mean opinion score). W pracy zostały postawione trzy tezy: funkcje kosztu można optymalizować za pomocą metod heurystycznych. Jedną z metod optymalizacji jest metoda oparta na algorytmie ewolucyjnym optymalizacja funkcji kosztu ma istotny wpływ na poprawienie jakości syntezy korpusowej wybór odpowiedniego mówcy oraz jakość bazy akustycznej ma bardzo duży wpływ na finalną jakość generowanej mowy Pierwszy rozdział pracy jest wprowadzeniem do opisu sygnału mowy. Przedstawiono w nim budowę narządu mowy oraz specyfikę języka polskiego. Omówiona została klasyfikacja dźwięków mowy. W dalszej części opisano reguły transkrypcji fonetycznej. Następnie przedstawiono modele opisu prozodii języka polskiego. W końcowej części rozdziału przedstawiono rodzaje jednostek akustycznych używanych w syntezie mowy oraz podstawowe modele opisu prozodii. W drugim rozdziale zaprezentowano historię syntetyzatorów mowy. Opisano podstawowe rodzaje syntezy, a także dokonano analizy działania systemu TTS oraz jego poszczególnych modułów. System TTS (według (Dutoit 1997, Taylor 2009)) definiuje się jako automatyczny proces generowania mowy od momentu transkrypcji zdania aż po jego wypowiedzenie. Rozdział trzeci stanowi wprowadzenie do jednej z najważniejszej funkcji w korpusowym syntezatorze mowy - funkcji kosztu. W rozdziale czwartym przedstawiono szereg zadań, które twórca systemu korpusowej syntezy mowy musi rozwiązywać. Opisano sposób tworzenia korpusu, rejestracji nagrań oraz ich segmentacji. Przedstawiono również automatyczną metodę korekty posegmentowanych nagrań. W systemach korpusowych istnieje kilka sposobów optymalizacji funkcji kosztu. Pierwszy z nich polega na intuicyjnym dobieraniu parametrów oraz przeprowadzaniu kontrolnych testów percepcyjnych, które mają umożliwić wyznaczenie najlepszych pod względem percepcyjnym współczynników wag. Drugim sposobem jest metoda automatyczna polegająca na trenowaniu poszczególnych wag kosztu doboru jednostki. W rozdziale piątym opisano strukturę i sposób działania algorytmu ewolucyjnego. Przedstawiono strategię (µ+λ) (Michalewicz 2004) wykorzystaną w procesie optymalizacji funkcji kosztu oraz sposób przeprowadzenia badań optymalizacyjnych. W rozdziale szóstym zinterpretowano oraz dokonano analizy wyników badań. Wyniki tego testu wskazują, iż strategie ewolucyjne są skuteczne w procesie optymalizacyjnym i wygenerowane parametry dla funkcji kosztu potwierdziły to w badaniach testowych. Rozdział siódmy zawiera opis testu percepcyjnego MOS, którego wyniki potwierdziły skuteczność wykonanych badań optymalizacyjnych dzięki, którym uzyskano lepszą jakość syntetycznej mowy polskiej. Przedmiotem badań testowych jest porównanie 3 różnych funkcji kosztu, ocenia jakość sygnału syntezy mowy uzyskanej na drodze resyntezy , oraz nagrań pochodzących z bazy akustycznej. pl_PL
dc.description.sponsorship Badania przedstawione w pracy zostały zrealizowane w ramach grantu promotorskiego nr 0641/T02/2006/31 przyznanego przez Ministra Nauki i Szkolnictwa Wyższego. pl_PL
dc.language.iso other pl_PL
dc.publisher Polsko-Japońska Wyższa Szkoła Technik Komputerowych pl_PL
dc.subject synteza mowy polskiej pl_PL
dc.subject synteza korpusowa pl_PL
dc.subject TTS pl_PL
dc.subject ASR pl_PL
dc.subject HTK pl_PL
dc.subject funkcja kosztu pl_PL
dc.subject FESTIVAL pl_PL
dc.subject speech synthesis pl_PL
dc.subject unit-selection speech synthesis pl_PL
dc.subject cost-function pl_PL
dc.title Optymalizacja funkcji kosztu w korpusowej syntezie mowy polskiej pl_PL
dc.type Thesis pl_PL


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search


Advanced Search

Browse

My Account