Co to jest crawler - Definicja

Crawler - jest to rodzaj bota internetowego, którego głównym celem jest indeksowanie lub pozyskiwanie informacji ze stron internetowych. Najpopularniejszym crawlerem bez wątpienia jest Googlebot, dzięki któremu możemy wygodnie przeszukiwać internet. Crawler często określany jest jako pająk (ang. spider) ze względu na sprawne poruszanie się po sieci.

Co to jest crawler?

Jak działa crawler?

Technicznie rzecz biorąc crawler to program komputerowy, którego zadaniem jest automatyczne uzyskiwanie dostępu do strony internetowej i pobieranie z niej istotnych z punktu widzenia programu informacji. Crawler poszukuje także linków w obrębie strony w celu rekurencyjnego podjęcia tych samych lub podobnych działań. Dzięki m.in. pracy internetowych pająków - bo tak określa się też crawlery - jesteśmy w stanie wyszukiwać interesujące nas informacje.

Obecnie crawlowanie nie jest tak proste jak jeszcze kilkanaście lat temu. Wynika to z faktu, że coraz więcej stron korzysta z JavaScriptu i jego frameworków. Crawlowanie takich stron jest możliwe dzięki temu, że nowoczesne spidery wykorzystują do renderowania przeglądarki w trybie headless.

Googlebot

Roboty wykorzystywane przez firmę Google podejmują się skanowania internetu w celu aktualizowania swojego indeksu. Googlebot korzysta z map witryn i baz danych stworzonych podczas poprzedniego indeksowania, aby określić, dokąd przejść dalej. W sytuacji, gdy robot indeksujący znajdzie nowe linki na stronie internetowej, dodaje je do listy stron, które należy odwiedzić w następnej kolejności. Googlebot odnotowuje wszelkie zmiany w linkach, aby można było zaktualizować indeks.

Wykorzystanie crawlerów w SEO

Crawlery są szeroko wykorzystywane przy optymalizacji stron pod silniki wyszukiwarek. Przykładem takiego oprogramowania jest Screaming Frog, którego rozbudowany interfejs pozwala na precyzyjne określenie, jakie dane mają zostać pozyskiwane podczas wykonywania procesu crawlowania. W wyniku analizy otrzymujemy takie informacje jak:

  • strony ubogie w treść tzn. thin content,
  • brakujące teksty alternatywne dla grafik,
  • zduplikowane nagłówki H1 oraz tytuły stron,
  • kody odpowiedzi serwera dla adresów URL, a co za tym idzie odnajdowanie uszkodzonych linków,
  • strukturę serwisu.

Na rynku dostępne jest zarówno komercyjne jak i otwartoźródłowe oprogramowanie:

  • Screaming Frog,
  • SEMrush,
  • Ahrefs,
  • Sitebulb,
  • OpenSearchServer,
  • Apache Nutch™,
  • Scrapy.

Często zachodzi potrzeba napisania crawlera o niestandardowym działaniu. Z pomocą przychodzą bogate w funkcje biblioteki do różnych języków programowania. Do bardzo popularnych narzędzi z otwartym kodem źródłowym należą Puppeteer (dla języka JavaScript) oraz BeautifulSoup i Scrapy (dla języka Python).

Ostatnia modyfikacja: 2023-05-19 13:21:22

Czy ta definicja była dla Ciebie pomocna?

(4.8/5), głosów: 12
Ocena strony:
Automation Developer
LinkedIn

Chcesz zarabiać więcej pozyskując klientów z Internetu? Skontaktuj się z nami!

Zamów bezpłatną ofertę

Zamów bezpłatną wycenę!

(czytaj więcej) Na podstawie tej zgody będziemy mogli skontaktować się z Tobą za pośrednictwem np. telefonu czy poczty elektronicznej w celu obsługi przez nas twojego zapytania. Administratorem Twoich danych osobowych jest KS Sp. z o.o. Gorzyce 141, 38-230 Nowy Żmigród, NIP: 6852338589. Gwarantujemy spełnienie wszystkich Twoich praw wynikających z ogólnego rozporządzenia o ochronie danych, tj. prawo dostępu, sprostowania oraz usunięcia Twoich danych, ograniczenia ich przetwarzania, a także prawo wyrażenia sprzeciwu wobec przetwarzania Twoich danych osobowych (więcej na temat przetwarzania Twoich danych osobowych znajdziesz w Polityka Prywatności). (zwiń)
Go Top