Praca magistrska - Data Science 2022

Praca magistrska - Data Science 2022 https://repin.pjwstk.edu.pl/xmlui/handle/186319/2210 2026-07-21T12:39:04Z 2026-07-21T12:39:04Z Systemy rozproszone czy implementacje lokalne? Jastrzębski, Jakub Zdzisław https://repin.pjwstk.edu.pl/xmlui/handle/186319/2719 2023-05-24T07:31:35Z 2023-05-24T00:00:00Z

Systemy rozproszone czy implementacje lokalne? Jastrzębski, Jakub Zdzisław Celem niniejszej pracy jest przedstawienie sugestii dotyczących metodologii przetwarzania danych. Głównym kryterium wydajności przetwarzania danych był czas wykonania poszczególnych algorytmów. Przetwarzanie różnych algorytmów było obserwowane pod wieloma kątami, takimi jak język programowania, implementacja lokalna czy rozproszona i rozmiar danych. Porównywane zostały prędkości wykonania przy użyciu jednego serwera oraz klastrów obliczeniowych, w tym celu zostało użyto środowisko Spark. Z badań wynika, że dla mniejszych rozmiarów danych, mniej więcej poniżej 1GB, nie opłaca się korzystanie z klastrów obliczeniowych. Co prawda można zauważyć zmniejszenie czasu wykonania, lecz jest ono zbyt kosztowane, aby angażować więcej niż jedną maszynę. Z kolei dla dużych danych sięgających rozmiarów 8GB i większych, warto korzystać z klastrów obliczeniowych, gdyż wzrost jest bardzo zauważalny. Wybór sprzętu i technologii może być problematycznym problemem, z którym zmaga się wiele osób chcących jak najwydajniej przetwarzać dane o dużych rozmiarach dlatego ta praca jest swego rodzaju pomocą w wyborze sprzętowym i technologicznym do rozmiaru danych.

2023-05-24T00:00:00Z Analiza porównawcza wybranych algorytmów grupowania Szymańczyk, Damian https://repin.pjwstk.edu.pl/xmlui/handle/186319/2718 2023-05-24T07:24:49Z 2023-05-24T00:00:00Z

Analiza porównawcza wybranych algorytmów grupowania Szymańczyk, Damian W niniejszej pracy dokonano analizy porównawczej trzech algorytmów grupowania: k-średnich, grupowania hierarchicznego oraz DBSCAN. Praca rozpoczyna się wprowadzeniem w dziedzinę grupowania danych oraz omawia sposób działania ww. algorytmów. Kolejnym etapem są eksperymenty, które zostały przeprowadzone na kilku zbiorach danych opublikowanych jako „Fundamental Clustering Problems Suite” (FCPS): Atom, Chainlink, WingNut, Golfball, Lsun, TwoDiamonds. FCPS składa się z zestawów danych o znanych a priori klasyfikacjach, które mają być odtworzone przez algorytm. Porównanie działania ww. algorytmów przeprowadzono z wykorzystaniem skorygowanego indeksu Rand oraz F-miary. Przedstawiono wizualizację działania ww. algorytmów dla wszystkich zbiorów wykorzystanych w pracy

2023-05-24T00:00:00Z Zastosowanie technik uczenia maszynowego w klasyfikacji ryzyka pożyczkowego Sawicka, Monika https://repin.pjwstk.edu.pl/xmlui/handle/186319/2717 2023-05-24T07:19:20Z 2023-05-24T00:00:00Z

Zastosowanie technik uczenia maszynowego w klasyfikacji ryzyka pożyczkowego Sawicka, Monika Ta praca miała na celu zbadanie, przeanalizowanie i zbudowanie algorytmu uczenia maszynowego, aby poprawnie określić, czy dana osoba, mając określone atrybuty, ma wysokie prawdopodobieństwo niespłacenia pożyczki. Tego typu model mógłby zostać wykorzystany do identyfikacji pewnych cech finansowych przyszłych pożyczkobiorców, którzy mogą mieć potencjał do niespłacania zobowiązań i nie spłaty pożyczki w wyznaczonym terminie. W pracy tej przyjrzano się najpopularniejszym narzędziom wykorzystanym w dziedzinie uczenia maszynowego do oceny ryzyka kredytowego. Pracując na zbiorze danych zawierającym flagowane informacje o pożyczkobiorcach, zaimplementowano klasyczne modele uczenia maszynowego – model SVM, regresji logistycznej, drzew decyzyjnych, lasów losowych oraz model XGBoost.

2023-05-24T00:00:00Z Wykorzystanie technik analizy szeregów czasowych w handlu detalicznym Białach, Michał https://repin.pjwstk.edu.pl/xmlui/handle/186319/2698 2023-03-23T12:41:17Z 2023-03-23T00:00:00Z

Wykorzystanie technik analizy szeregów czasowych w handlu detalicznym Białach, Michał W pracy tej przyjrzano się najpopularniejszym narzędziom wykorzystanym w dziedzinie uczenia maszynowego w celu predykcji marży dla jednej z największych firm specjalizującej się w handlu detalicznym. Pracując na zbiorze danych zawierającym blisko 500 tyś rekordów, stworzono szeregi czasowe zagregowane do tygodni. Następnie wykorzystano sieć neuronową oraz procedurę Prophet w celu predykcji wyników oraz porównania ich ze sobą.

2023-03-23T00:00:00Z