Web scraping - metody i wyzwania

Repozytorium PJATK
→
Wydział Informatyki / Faculty of Information Technology
→
Praca magisterska - Baza Danych - Inżynieria Oprogramowania, Procesów Biznesowych i Baz Danych 2022
→
Zobacz pozycję

Web scraping - metody i wyzwania

Talar, Jan Maria

URI: https://repin.pjwstk.edu.pl/xmlui/handle/186319/2651

Data: 2023-03-22

Streszczenie:

Praca omawia historię sieci Internet w tym pierwsze kroki w postaci ARPANET oraz upowszechnienie sieci regionalnych aż po nowoczesną sieć światową - po czym omawia technologie na których się opiera w tym protokoły DNS, HTTP oraz TCP/IP. Następnie wyjaśniona jest istota web scrapingu i robotów sieciowych. W kolejnym rozdziale przedstawione są najczęstsze problemy, nad którymi należy się pochylić przy projektowaniu web scraperow oraz praktyczne rozwiązania ułatwiające omijanie zabezpieczeń antyscrapingowych, po czym wymienione są najczęściej wykorzystywane metody w web scrapingu oraz przykładowe implementacje lub kroki służące stworzeniu modeli klasyfikacji treści. W rozdziale analitycznym opisane i porównane zostały trzy narzędzia wspierające web scraping - Selenium, Puppeteer oraz Playwright.

Pokaż pełny rekord