Streszczenie:
Celem niniejszej pracy było porównanie kilku wybranych metod dopasowania łańcuchów znakowych do wzorca. Na potrzeby tego projektu utworzono dwie warstwy architektury. Pierwsza to aplikacja webowa, prezentująca część wyników w formie tabelarycznych danych oraz wizualnych wykresów. Druga to implementacja metod dopasowania w bazie danych Oracle za pomocą języka PL/ SQl.
Wybrane algorytmy to edycja odległości Levenshtein, Jaro-Winkler oraz porównanie podciągów za pomocą Dice, Ngram.
Odległości edycji zostały przygotowane przez firmę Oracle i posłużyły jako gotowe wzorce do implementacji, natomiast metody podciągów zostały utworzone jako kod własny na podstawie wzórów oraz opisów działania. Cały proces analizy dopasowań jest uruchamiany w sposób równoległy, tak aby jak najszybciej zaprezentować wyniki działania.
Największym problemem tej pracy był brak środowiska o podwyższonych prametrach zasobów, niezbędnych do przeanalizowania dużych ilości danych.
Wyniki końcowe prezenowane jako wykresy pozwalają na swobodne podjęcie decyzji która metoda poradziła sobie najlepiej, a która najsłabiej na zbiorze danych nazw dostawców.