Co to jest crawler? Słownik Pojęć

Jak działa crawler?

Technicznie rzecz biorąc crawler to program komputerowy, którego zadaniem jest automatyczne uzyskiwanie dostępu do strony internetowej i pobieranie z niej istotnych z punktu widzenia programu informacji. Crawler poszukuje także linków w obrębie strony w celu rekurencyjnego podjęcia tych samych lub podobnych działań. Dzięki m.in. pracy internetowych pająków - bo tak określa się też crawlery - jesteśmy w stanie wyszukiwać interesujące nas informacje.

Obecnie crawlowanie nie jest tak proste jak jeszcze kilkanaście lat temu. Wynika to z faktu, że coraz więcej stron korzysta z JavaScriptu i jego frameworków. Crawlowanie takich stron jest możliwe dzięki temu, że nowoczesne spidery wykorzystują do renderowania przeglądarki w trybie headless.

Googlebot

Roboty wykorzystywane przez firmę Google podejmują się skanowania internetu w celu aktualizowania swojego indeksu. Googlebot korzysta z map witryn i baz danych stworzonych podczas poprzedniego indeksowania, aby określić, dokąd przejść dalej. W sytuacji, gdy robot indeksujący znajdzie nowe linki na stronie internetowej, dodaje je do listy stron, które należy odwiedzić w następnej kolejności. Googlebot odnotowuje wszelkie zmiany w linkach, aby można było zaktualizować indeks.

Wykorzystanie crawlerów w SEO

Crawlery są szeroko wykorzystywane przy optymalizacji stron pod silniki wyszukiwarek. Przykładem takiego oprogramowania jest Screaming Frog, którego rozbudowany interfejs pozwala na precyzyjne określenie, jakie dane mają zostać pozyskiwane podczas wykonywania procesu crawlowania. W wyniku analizy otrzymujemy takie informacje jak:

strony ubogie w treść tzn. thin content,
brakujące teksty alternatywne dla grafik,
zduplikowane nagłówki H1 oraz tytuły stron,
kody odpowiedzi serwera dla adresów URL, a co za tym idzie odnajdowanie uszkodzonych linków,
strukturę serwisu.

Na rynku dostępne jest zarówno komercyjne jak i otwartoźródłowe oprogramowanie:

Screaming Frog,
SEMrush,
Ahrefs,
Sitebulb,
OpenSearchServer,
Apache Nutch™,
Scrapy.

Często zachodzi potrzeba napisania crawlera o niestandardowym działaniu. Z pomocą przychodzą bogate w funkcje biblioteki do różnych języków programowania. Do bardzo popularnych narzędzi z otwartym kodem źródłowym należą Puppeteer (dla języka JavaScript) oraz BeautifulSoup i Scrapy (dla języka Python).

Ostatnia modyfikacja: 2023-05-19 13:21:22

Czy ta definicja była dla Ciebie pomocna?

(4.8/5), głosów: 12

Ocena strony: