Streszczenie:
Celem niniejszej pracy było przedstawienie charakterystyki pracy z danymi
przy użyciu Sparka. Integralną częścią Sparka jest język Scala, dlatego w pierwszej
części pracy zostały przedstawione podstawowe zagadnienia języka.
Spark jest obecnie używany w wielu przedsiębiorstwach, które przetwarzają
duże zbiory danych. Jest to rozwiązanie, które rozwiązuje problem wykładniczego
przyrostu danych przy liniowym przyroście mocy obliczeniowej. W niniejszej pracy
został opisany rozwój narzędzi do przetwarzania dużych zbiorów danych,
architektura systemu Spark oraz w części praktycznej pracy zostało przedstawionych
wiele przykładów użycia Sparka i transformacji danych.
Scala jest językiem, który umożliwia łatwe skalowanie aplikacji – od bardzo
małych do bardzo dużych. Dzięki możliwości tworzenia klastrów szytych na miarę
Spark dostarcza programistom dokładnie taką moc obliczeniową jaka jest potrzebna
dla danej aplikacji co w połączeniu ze Scalą daje najlepsze wyniki.