Streszczenie:
Celem niniejszej pracy jest przedstawienie sugestii dotyczących metodologii
przetwarzania danych. Głównym kryterium wydajności przetwarzania
danych był czas wykonania poszczególnych algorytmów. Przetwarzanie
różnych algorytmów było obserwowane pod wieloma kątami, takimi
jak język programowania, implementacja lokalna czy rozproszona i
rozmiar danych. Porównywane zostały prędkości wykonania przy użyciu
jednego serwera oraz klastrów obliczeniowych, w tym celu zostało
użyto środowisko Spark. Z badań wynika, że dla mniejszych rozmiarów
danych, mniej więcej poniżej 1GB, nie opłaca się korzystanie z klastrów
obliczeniowych. Co prawda można zauważyć zmniejszenie czasu wykonania,
lecz jest ono zbyt kosztowane, aby angażować więcej niż jedną maszynę.
Z kolei dla dużych danych sięgających rozmiarów 8GB i większych,
warto korzystać z klastrów obliczeniowych, gdyż wzrost jest bardzo
zauważalny. Wybór sprzętu i technologii może być problematycznym
problemem, z którym zmaga się wiele osób chcących jak najwydajniej
przetwarzać dane o dużych rozmiarach dlatego ta praca jest swego
rodzaju pomocą w wyborze sprzętowym i technologicznym do rozmiaru
danych.