Streszczenie:
Praca omawia historię sieci Internet w tym
pierwsze kroki w postaci ARPANET oraz upowszechnienie
sieci regionalnych aż po nowoczesną sieć światową -
po czym omawia technologie na których się opiera w tym
protokoły DNS, HTTP oraz TCP/IP. Następnie wyjaśniona
jest istota web scrapingu i robotów sieciowych.
W kolejnym rozdziale przedstawione są najczęstsze problemy,
nad którymi należy się pochylić przy projektowaniu
web scraperow oraz praktyczne rozwiązania ułatwiające
omijanie zabezpieczeń antyscrapingowych, po czym
wymienione są najczęściej wykorzystywane metody w web
scrapingu oraz przykładowe implementacje lub kroki służące
stworzeniu modeli klasyfikacji treści. W rozdziale
analitycznym opisane i porównane zostały trzy narzędzia
wspierające web scraping - Selenium, Puppeteer oraz
Playwright.