Streszczenie:
W niniejszej pracy zajmiemy się problematyką przetwarzania kwerend w sposób przybliżony
(AQP – Approximate Query Processing). Pomimo znacznego wzrostu mocy obliczeniowej
współczesnych komputerów w stosunku do maszyn sprzed trzydziestu lat ilość gromadzonych,
przechowywanych i przetwarzanych danych wciąż rośnie z zawrotną prędkością. W związku z
tym przetwarzanie całych zbiorów danych staje się coraz mniej opłacalne ze względu na koszt
obliczeniowy i czas wykonywania zapytań. Stosuje się więc metody statystyczne, aby w miarodajny
sposób przybliżyć wynik takiego zapytania korzystając nie z całego zbioru, a z losowej
próbki. Bardzo często bowiem nie interesuje nas dokładny wynik. Nawet jeśli chcemy stwierdzić
czy jedna wartość jest większa od drugiej, samo rozważanie odpowiednio dokładnych
przybliżeń zapewni nam wysoce prawdopodobną odpowiedź.
Istnieje wiele narzędzi umożliwiających generowanie próbek, na których można wyliczać przybliżone
wyniki zapytań. Efektem tej mnogości rozwiązań są różnice w dokładności otrzymywanych
szacowań oraz w szybkości ich uzyskiwania. W tej pracy skupimy się na dwóch narzędziach:
Microsoft SQL Server Integration Services oraz Pentaho Data Integration. Stosując zapytania
o różnej budowie porównamy dokładność ich przybliżonych wyników na specjalnie
przygotowanym zbiorze danych.