Streszczenie:
Opisy zdarzeń medycznych zebranych w badaniach klinicznych wymagają
czasochłonnego oraz podatnego na błędy procesu kodowania zgodnie
z międzynarodowymi standardami terminologii medycznej. Celem niniejszej
pracy jest zbadanie możliwości wykorzystania metod z dziedziny wyszukiwania
informacji w celu automatyzacji procesu klasyfikacji tekstu do słownika
MedDRA. W części eksperymentalnej pozyskano dane z 17 badan klinicznych,
które poddano oczyszczeniu i wykorzystano przy przypisywaniu wartości
LLT na podstawie opisu zdarzenia zawartego w Verbatim Term. Sprawdzono
i porównano efektywność metod z zastosowaniem miar odległości łańcuchów
znaków (np. miarę Levenshteina) oraz metod opartych na miarach
częstości słów tj. miary wielkości przecięcia i podobieństwa kosinusowego.
Spośród przebadanych metod najlepszy wynik miary makro F1 równy 0.33
uzyskano dla połączenia miary podobieństwa kosinusowego z miara odległości
łańcuchów znaków. Stosunkowo niska efektywność w porównaniu do wyników
najnowszych doniesień naukowych możne wynikać z faktu zastosowania
prostych bezkontaktowych metod, a także specyfiki słownika MedDRA.