dc.description.abstract |
W tej oto pracy zostały opisane szczegółowe kroki realizacji projektu, który polega na stworzeniu oprogramowania komputerowego, pozwalającego na próbę wygenerowania mowy syntetycznej, jedynie na podstawie zdjęcia twarzy dowolnej, rzeczywistej osoby i wykorzystanie go w badaniu, mającym na celu sprawdzić jakość osiągniętych efektów. Jednocześnie, cel określony przed przystąpieniem do prac zakładał, że posługiwanie się ścieżką dźwiękową, będącą efektem końcowym prac (wygenerowanym komputerowo nagraniem mowy ludzkiej na podstawie tekstu w języku angielskim), ma być jak najbardziej zbliżone do mowy wypowiadanej naturalnie. Wykorzystane technologie i przeprowadzone prace twórcze w głównej mierze zakrawały o:
• samodzielne utworzenie i wykorzystanie wielkiego zestawu danych
• zamodelowanie architektury sieci neuronowej i wykorzystanie jej w praktyce, po-przez odpowiednie jej wyuczenie
• wykorzystanie gotowych systemów i rozwiązań informatycznych w ujęciu dostosowania ich do własnych celów (ingerencja w kod źródłowy istniejących rozwiązań)
Jako że pod pryzmatem poruszonego problemu nie istnieją żadne stuprocentowo dokładne metody porównania dwóch dowolnych nagrań mowy (co wynika ze specyfiki sposobu tworzenia owych nagrań), w ramach aspektu badawczego, wziętym pod uwagę miernikiem są wrażenia osób badanych. Właścicieli próbek głosu i zdjęć twarzy pod-dano serii zadań porównawczych i pytań, związanych z wrażeniami na temat osiągniętych efektów. |
pl_PL |