Terminem ‘Crawl Budget’ określa się ilość podstron w obrębie jednej witryny, jaką boty są w stanie odwiedzić podczas pojedynczej wizyty na stronie. Samo słowo budżet jest dosyć dyskusyjne, ponieważ sugeruje, że wyszukiwarka sama określa limit dla każdej witryny, a specjaliści SEO powinni w swoich działaniach ubiegać się o większy budżet dla swojej strony.

Dla robotów wyszukiwarki indeksowanie jest procesem kosztownym, dlatego liczba stron, które mogą indeksować w ciągu jednego dnia jest ograniczona. Google stara się indeksować jak największą ilość stron, biorąc pod uwagę popularność, częstotliwość aktualizacji treści, informacje o nowych stronach oraz możliwości serwera do obsługi ruchu indeksującego.

Crawl rate limit

Mimo, że wpływ na wysokość otrzymanego budżetu jest niewielki, możemy we właściwy sposób kierować botami Google, tak aby odwiedzały odpowiednie strony.

Najlepszym sposobem ustalenia, ile razy dziennie Google indeksuje adresy URL Twojej witryny, jest monitorowanie trafień googlebota w dziennikach serwera. Sumę trafień przez pewien okres czasu należy podzielić przez liczbę dni w tym okresie. W rezultacie uzyskasz dzienny budżet indeksowania witryny.

Jeśli nie masz dostępu do dzienników serwera, szacunkowe dane dotyczące indeksowania możesz nadal uzyskać korzystając ze starej wersji Google Search Console. Dane dotyczące szybkości indeksowania zawierają pojedynczą „średnią dzienną” obejmującą wszystkie roboty Google.

Crawl rate limit czyli współczynnik indeksacji determinowany jest przez crawl health, czyli inaczej mówiąc “kondycję crawl’a”. Wpływają na nią przede wszystkim czynniki techniczne, takie jak szybkość ładowania się strony czy czas odpowiedzi serwera. Jeżeli prędkość jest odpowiednio wysoka limit indeksacji zostaje zwiększony.

Dzienny crawl budget
Dzienny crawl budget

Co zrobić, aby zwiększyć jakość działań SEO

Spośród wielu zasad SEO, jedną można uznać za pryncypalną: jeśli chcesz, aby Twoja witryna znalazła się w wynikach wyszukiwania należy zadbać o jej obecność w indeksie Google. W indeksie znajdą się wszystkie strony, które zostały przeskanowane i bez przeszkód zaindeksowane przez robota wyszukiwarki. Jeżeli Twoja witryna będzie najlepiej spełniać kryteria Google, odpowiadając trafnie na zapytania, pojawi się wyżej w wynikach i będzie częściej odwiedzana. To z kolei doprowadzi do wzrostu świadomości marki, pozyskania większej ilości potencjalnych klientów i zwiększenia sprzedaży. Na Crawl Budget uwagę powinny zwracać przede wszystkim duże sklepy. Mniejsze witryny nie muszą się martwić o budżet indeksowania, choć usprawnienie pracy robota jest zawsze korzystne.

Roboty indeksujące są w stanie znaleźć, zbadać, ocenić i dopasować Twoją witrynę do potencjalnych zapytań wyszukiwania. Dlatego istotne jest ułatwienie im tego działania, ponieważ nawet doskonale zoptymalizowana strona, która nigdy nie była indeksowana przez roboty wyszukiwarki, nie zostanie wyświetlona w wynikach wyszukiwania. “Zdrowy” crawl budget sprawia, że ważne strony w obrębie witryny są indeksowane w odpowiednim czasie.

Indeksowanie strony internetowej
Indeksowanie strony internetowej

Problem z widocznością w wyszukiwarce Google?

Zdaj się na specjalistów z KS!

Jak robot znajduje strony?

Googlebot każdego dnia zdobywa informacje o ogromnej ilości witryn istniejących w Internecie. W pierwszej kolejności śledzi on linki prowadzące na zewnątrz. Są one swego rodzaju drogowskazami, które prowadzą Googlebota do konkretnej strony. Im więcej linków zewnętrznych na cieszących się popularnością stronach, tym łatwiej i szybciej robot przedostanie się do Twojej strony. Ilość oraz przede wszystkim jakość linków jest brana pod uwagę przez Google jako istotny czynnik rankingowy oceniający wartość strony, do której prowadzą. (Więcej o linkowaniu przeczytasz w artykule: Skuteczny link building.)

Witrynę możesz również zgłosić do indeksacji za pomocą narzędzia Google Search Console. Przesyłanie w ten sposób informacji o stronie jest pomocne w przypadku, gdy nie prowadzi do niej żaden link zewnętrzny. Po takim działaniu możesz mieć pewność, że prędzej czy później boty odwiedzą Twoją stronę, pod warunkiem, że nie jest ona w żaden sposób blokowana, np. poprzez plik robots.txt lub atrybut noindex. (Koniecznie dowiedz się jak sprawdzić czy strona jest w Google.)

Indeksowanie - czyli co Googlebot robi odwiedzając witrynę?

Podczas swojej obecności na stronie, robot dokładnie odczytuje znajdującą się na niej treść. Pozwala mu to właściwie sklasyfikować witrynę oraz wybrać dla niej słowa klucze, na które pojawi się ona w wynikach wyszukiwania. Cały proces zapoznawania się Googlebota z witryną nazywany jest indeksowaniem. To, do jakiej grupy zakwalifikowana zostanie Twoja strona, zależy wprost od jej zawartości. Robot zwraca uwagę przede wszystkim na meta title i meta description, adresy URL, nagłówki i na treść, dlatego właściwie zoptymalizowane pod kątem SEO teksty pełnią tak ważną funkcję. Poza treścią badane są również obrazy, warto więc zadbać o odpowiednie dostosowanie plików graficznych, umieszczając je we właściwym formacie oraz uzupełniając atrybut ALT.

Zarządzanie budżetem indeksowania

Ponieważ nie możesz kontrolować wysokości budżetu, upewnij się, że jest on wykorzystywany na wartościowe adresy URL, czyli takie, które mogą pozyskać najwięcej odwiedzin, konwersji i przychodów. Dostosuj te strony, aby stały się bardziej dostępne i atrakcyjne dla botów. Witryny, które mają większą wartość dla użytkowników odznaczają się wyższym popytem na indeksację, tzw crawl demand.

Cechy stron przyjaznych dla botów:

  • Ogólna kondycja witryny - witryna internetowa, która jest funkcjonalna, stosunkowo szybka i niezawodna; nie jest spamem i nie została zhakowana.
  • Możliwość indeksowania - strony posiadające wewnętrzne linki; odpowiadające na zapytanie oraz nie są zablokowane przed botami.
  • Struktura witryny - podział na kategorie, linkujące między sobą za pomocą odpowiedniego tekstu w odnośniku (anchora).
  • Zoptymalizowany szablon - Sprawdź jak stworzyć lekki szablon strony.
  • Autorytet strony - wysokiej jakości linkowanie zewnętrzne.
  • Świeżość - często aktualizowane treści, oraz linki zewnętrzne umieszczona na stronach z regularnie odświeżanym contentem.
  • Mapy strony - witruna posaiada aktualną mapę strony w formacie XML lub w pliku tekstowym.
  • Jakość treści - treść jest czytelna i odpowiada na zapytanie użytkownika.

Crawl budget, Googlebot
Crawl budget, Googlebot

Jak pomóc botowi sprawnie wydać jego budżet?

Przede wszystkim postaraj się ograniczyć niepotrzebne wydatki. Pierwszy poziom zbędnych kosztów dotyczy wszelkich trafień googlebota na stronach, których nie chcesz wyświetlać w wynikach wyszukiwania. Do tej kategorii należy m.in. duplikacja treści, strony, które powinny zostać przekierowane, strony będące wynikami filtrowania (nawigacja fasetowa), koszyk zakupowy, oraz strony, które zostały usunięte. Można tu również dołączyć strony potwierdzające, gdy formularz zostanie pomyślnie wysłany, strony testowe, zarchiwizowane i te o niskiej jakości.

Aby oszczędzić cenny czas robota i uniknąć zbędnych wydatków na crawl budget trzymaj boty z dala od tych stron. Możesz używać przekierowań, a także dyrektyw mających na celu niedopuszczanie botów do podstron, których nie chcemy indeksować.

Robots.txt

Jest to, mówiąc najprościej, instrukcja dla botów, które odwiedzają witrynę. Dzięki niej możesz określić, jakie adresy mogą odwiedzić roboty, a jakie są dla nich niedostępne, ponieważ np. nie zawierają wartościowych dla bota informacji. Plik robots.txt umieszcza się w głównym katalogu domeny.

Atrybuty przy linkach

Umieszczając przy linkach odpowiednie atrybuty również możesz zezwolić lub zabronić robotom wejścia na konkretną podstronę Twojej witryny. Reguła rel=”nofollow” wskazuje, które linki Googlebot powinien ominąć. Aby całkowicie wykluczyć podstronę z indeksowania należy w kodzie źródłowym umieścić odpowiedni tag .

Błędy 404 i przekierowania

Strony, które odpowiadają błędem 404 mają negatywny wpływ na pracę robota indeksującego. Dlatego ważne jest, dbanie o to, aby wszystkie linki do strony były aktualne. Duża ilość przekierowań 301 również negatywnie wpływa na crawl budget. Im więcej przekierowań tego typu, tym więcej czasu roboty poświęcają na przejścia pomiędzy poszczególnymi stronami w obrębie witryny.

Sitemap.xml

Konstrukcja, aktualizacja i zgłoszenie mapy w GSC znacznie usprawnia indeksowanie właściwych stron i poruszanie się robota po stronie. Z jej pomocą Googlebot z łatwością odnajduje wszystkie adresy URL w obrębie danej witryny i dodaje je do indeksu.

E-book

Twórz blogposty, które pokocha Google

Prowadzisz bloga firmowego, ale Twoje artykuły nie cieszą się względami algorytmów? Pobierz darmowy e-book i sprawdź, jak oczarować Google Twoimi tekstami.

Pobierz e-booka

Podsumowanie

Jeśli chcesz zapewnić swojej witrynie “zdrowy” budżet indeksowania, powinieneś maksymalnie ułatwić Googlebotowi znajdowanie domeny i poruszanie się w jej obrębie. Odpowiednia optymalizacja, porządek w strukturze strony, szybkie ładowanie czy właściwie zastosowane atrybuty przy linkach i dyrektywy w pliku “robots.txt” wpływają na wydajne indeksowanie. Jest to szczególnie ważne w przypadku, gdy witryna składa się z tysięcy podstron.