Crawl budget to budżet indeksowania strony. Prościej mówiąc – pojęcie to określa liczbę podstron, które robot Google może zaindeksować podczas pojedynczej wizyty. Można powiedzieć, że to poziom zainteresowania robotów Google Twoją witryną, który określany jest na podstawie możliwości indeksacji strony. To z kolei wpływa na regularność wyświetlania w wynikach wyszukiwania.
W tym artykule omówimy pojęcia związane z limitem budżetu indeksacji (crawl rate limit) oraz zapotrzebowaniem na indeksację (crawl demand). Odpowiemy na pytanie jak zoptymalizować stronę by zadbać o budżet indeksowania co w przypadku większych stron może mieć wpływ na jej widoczność i lepsze zasięgi.
Spis treści :
W tym momencie w sieci znajduje się ponad 1,5 miliarda stron internetowych. W jaki sposób roboty docierają właśnie do Twojej witryny? Proces ten odbywa się w kilku etapach.
Googleboty najpierw poddają Twoją stronę crawlingowi, aby później móc zaindeksować treści. Dzięki temu zamieszczona zawartość znajduje się w indeksie Google. Aby jednak wyszukiwarka mogła znaleźć wszystkie należące do Ciebie treści, przydatne będą sitemapy, które znacznie ułatwią pracę botom, a Tobie zapewnią oczekiwany ruch.
Pamiętaj jednak, że proces crawlingu odbywa się bardzo szybko na stronach ze stosunkowo niewielką liczbą podstron. Zupełnie inaczej jest w przypadku rozbudowanych witryn. Wówczas należy ustalić priorytety i zastanowić się, które treści poddać crawlingowi. Jak to zrobić? Dowiesz się już za chwilę!
Roboty Google mają określone zasoby do wykorzystania podczas codziennego skanowania stron internetowych. Googlebot stara się indeksować optymalną ilość podstron, jednak by nie doszło do sytuacji w której strona internetowa jest skanowana przez roboty zbyt intensywnie wprowadzony został parametr crawl limit.
Limit indeksowania
Crawl Rate limit to liczba nawiązywanych jednocześnie połączeń, które mogą wystąpić podczas crawlowania witryny. Google stara się indeksować optymalną liczbę stron, więc dopasowuje ten element do wydajności strony bądź serwera.
Limit ma na celu zbilansować proces indeksacji i powstrzymać Google przed nadmiernym indeksowaniem strony które wpływa na przeciążenia serweru na którym znajduje się witryna. Tym samym można powiedzieć że dzięki rate limit nie dojdzie do sytuacji w której podczas crawlowania strony przez robota będzie ona działać wolniej dla użytkownika.
W ten sposób proces indeksacji jest zbalansowany, co obniża ryzyko przeciążenia serwera, na którym znajduje się witryna. Celem ustanowienia crawl limitu jest optymalizacja szybkości działania strony.
Parametr ten zależ przede wszystkim od szybkości strony. W przypadku kiedy strona jest wolna lub czas odpowiedzi serwera długi znacznie wydłuża to proces indeksowania strony. W przypadku kiedy nasza strona ładuje się szybko, posiada mapę witryny, linkowania wewnętrzne prowadzące do kolejnych podstron istnieje duża szansa że googlebot zaindeksuje większość podstron podczas jednej wizyty na stronie. Dzięki tym elementom robot może zaindeksować wszystkie podstrony już podczas jednej wizyty.
Gdzie i jak sprawdzić szybkość swojej strony ?
Szybkość strony internetowej sprawdzić możemy programami online:
https://developers.google.com/speed/pagespeed/insights/
https://gtmetrix.com
Dadzą nam pełny obraz konstrukcji kodu html, czasu ładowania strony oraz odpowiedzi serwera, który nie raz może niemiło zaskoczyć gdyż wartość ta może wynieść ponad 1 sekundę.
Parametr można ustawić w Google Search Console jednak nie ma gwarancji poprawienia indeksacji.
Parametr Crawl Demand określa częstotliwość indeksacji. Ta będzie wyższa w przypadku popularnych oraz częściej aktualizowanych stron. Prościej mówiąc – witryny chętnie odwiedzane przez użytkowników, są atrakcyjne również dla robota, który dokonuje indeksacji.
Od czego zależy crawl demand ?
Można powiedzieć, że Google „widzi”, jak wiele dzieje się wokół Twojej witryny. Warto więc zadbać o jej popularność. Kolejnym czynnikiem jest częste aktualizowanie treści. Roboty chętniej dotrą do świeżej zawartości, aby wyświetlić użytkownikom przydatne informacje. Pamiętaj jednak, że strategia dodawania treści na stronę musi być przemyślana.
Pamiętaj
Częste dodawania niskiej wartości contentu wcale nie przyczyni się do wzrostu Crawl budgetu. Wręcz przeciwnie.
Aby dowiedzieć się w jakim stopniu strona jest zaindeksowana w Google wystarczy wpisać parametr site:nazwadomeny.pl. Po zatwierdzeniu pojawią nam się wyniki wyszukiwania w obrębie naszej domeny czyli strona główna oraz wszystkie podstrony, które ‘widzi’ Google.
Warto przejrzeć ręcznie wyniki by zobaczyć czy nie są zaindeksowane podstrony, które nie powinny znaleźć się w indeksie np: podstrony filtrowania, rejestracji, logowania, robocze podstrony, czy inne podstrony z ‘doklejonymi’ znakami duplikujące nasze główne docelowe podstrony. Warto wtedy wypisać takie podstrony i zgłosić do usunięcia.
Usuwanie podstron z indeksu
Usuwanie niechcianych podstron z indeksu można wykonać poprzez ustawienie na nich odpowiednich przekierowań :
Przekierowanie 301
To przekierowanie przeniesie użytkownika na podstronę na którą chcemy by docelowo trafił z błędnej podstrony
Przekierowanie 410
To przekierowanie da informację google by usuną podstronę z wyników wyszukiwania.
Prosta struktura adresów URL, brak zagnieżdżeń podstron powyżej 3 poziomu, a co za tym idzie – szybka indeksacja, sprawią, że będziesz mógł cieszyć się funkcjonalnością strony oraz możliwością jej dalszej rozbudowy przez długie lata.
Jeżeli jednak Google nie zaindeksuje Twojej strony, nie pojawi się ona w wynikach wyszukiwania, a konsekwencje mogą być wręcz katastrofalne. Niewłaściwe zarządzanie dużym e-commerce z olbrzymią liczbą podstron może sprawić, że Google po prostu do nich nie dotrze. To negatywnie przełoży się na konwersję.
Musisz więc zwracać uwagę, jak wiele podstron dodajesz oraz ile przekierowań pochłania crawl budget witryny. Pamiętaj, że nawet z pozoru niewielka strona może obejmować tysiące linków.
Przy optymalizacji crawl budget niezbędna będzie analiza w Google Search Console ( zobacz poradnik Google Search Console ). Wystarczy odwiedzić zakładkę Stan, aby uzyskać informację, czy strona nie zawiera błędów. Warto również sprawdzić, czy nie pojawiają się problemy z mapą strony, duplikaty podstron, podstrony z przekierowaniami czy strony alternatywne, które zawierają prawidłowy tag strony kanonicznej.
Po otworzeniu raportu, GSC pokaże nam potencjalne problemy na stronie orazi jakie statusy podstron zwracane w panelu. Da nam to informację o potencjalnych problemach w witrynie.
Na co zwrócić uwagę :
Warto zadbać o prędkość strony oraz poprawną budowę tj. architekturę informacji gdyż wpłynie to pozytywnie na proces jej indeksacji oraz w dalszej kolejności bezproblemową rozbudowę o kolejne podstrony.
Aby poprawnie optymalizować stronę należy zwrócić uwagę na kilka aspektów technicznych strony. Zobacz jak wykonać optymalizację strony
Jeśli chcesz zapoznać się z danymi, dotyczącymi aktywności robota, z pomocą przyjdzie Google Search Console. Sekcja Statystyki Indeksowania obejmuje kilka przydatnych elementów, dzięki którym określisz crawl rate.
Stała obserwacja powyższych wskaźników pozwoli Ci zareagować na wiele problemów związanych z crawl budgetem.
Duplikacja treści oraz krótkie w treść podstrony
W przypadku powtarzania tej samej treści w obrębie kilku podstron lub jeżeli ilość treści powtarzanej jest znaczna może dojść do sytuacji osłabienia naszej strony pod względem jakości. Google lubi unikatowy content, który wyczerpuje temat.
Podstrony krótkie w treść generują tzw: ‘thin content’, który daje informację że podstrona nie wyczerpuje danej tematyki a przez to nie należy jej premiować w wynikach wyszukiwania. Z kolei podstrony zawierające powtarzające się treści są uznawane za tożsame między sobą i może dojść do rywalizacji pomiędzy nimi o pojawienie się w wynikach wyszukiwania lub obniżenie jakości całej witryny.
Błędy 404
Pojawiają się w momencie, w którym serwer zwraca kod 200 na nieistniejącej stronie zamiast kodu 404. Może to znacznie zmniejszyć crawl budget, choć problem ten jest łatwy w monitorowaniu. Wystarczy odnaleźć zakładkę błędy indeksowania w Google Search Console
Nawigacja fasetowa
Podstrony generowane poprzez dobór parametrów z np. bocznych filtrów sidebaru na sklepach internetowych mogą generować bardzo dużą liczbę adresów url tworząc tym samym duplikaty w obrębie witryny i znacznie obciążając crawlowanie strony. Jeżeli te podstrony nie generują ruchu oraz stanowią większe ilości warto wykluczyć je z indeksowania poprzez wprowadzenie na tego typu podstronach parametru ‘noindex’
Linkowanie wewnętrzne
Pomocną techniką wspomagającą indeksowanie strony jest linkowanie podstron pomiędzy sobą za pomocą linków w treści. Linkowanie wewnętrzne pomaga także w pozycjonowaniu podstron w wyszukiwarce. Umieszczając w treści artykułu naturalnie frazę kluczową w formie linku prowadzącego do podstrony zamiast typowego ‘zobacz’ lub ‘więcej’ wpływamy pozytywnie na budowanie i przekazanie mocy z jednej podstrony na drugą na określone słowa kluczowe wskazując google sugerowane słowo kluczowe które nabiera wartości.
Wykluczenie indeksowania podstrony
W przypadku podstron zdiagnozowanych jako niepotrzebne do indeksacji warto rozważyć użycie znacznika meta ‘noindex’. To sygnał dla Google by nie indeksował tych podstron. Za pomocą tego parametru możemy zaoszczędzić budżet crawlowania na wartościowe podstrony.
Dodaj mapę strony do Google Search Console
Pomóc robotowi odnaleźć wszystkie podstrony możemy zgłaszając w panelu Google mapę witryny z listą wszystkich podstron dostępnych do indeksacji.
Uważaj na kanibalizację treści
Stosowanie tych samych fraz kluczowych oraz zbliżony konkrekst podstron dla dwóch lub więcej podstron na pewno nie pomoże Ci w pozycjonowaniu, a wręcz sprawi że Google będzie miał problem z pokazaniem podstron na określone frazy kluczowe.
Unikaj ataków hakerskich
Ataki hackerskie również obniżają szansę na zaindeksowanie. Warto więc dbać o bezpieczeństwo witryny. Przeczytaj jak zabezpieczyć wordpress
Logi serwera
Analizując logi możesz sprawdzić, jak poruszał się robot po Twojej stronie. Najlepiej analizować ostatni miesiąc, choć dla dużych serwisów idealny zakres to dwa tygodnie.
Sprawdź robots.txt
Warto sprawdzić, które z blokowanych adresów są crawlowane oraz usunąć niepotrzebne reguły.
Sprawdź, ile adresów wewnętrznych nie jest kanonicznych
Tag kanoniczny dziś bardzo często jest pomijany przez wyszukiwarkę.
Wyższy współczynnik indeksacji strony jest bardzo istotny jednak nie stanowi czynnika rankingowego, więc nie decyduje o pozycjonowaniu. Pamiętaj jednak, że crawling ma duży wpływ na poprawę kondycji strony oraz maksymalizację budżetu na strony wartościowe. Narzędziem, które pozwoli określić, czy pozycjonowanie przebiega prawidłowo będzie audyt SEO.
Link oznaczony jako nofollow nie jest brany pod uwagę przy indeksacji przez Gooogle. To również dzięki temu parametrowi możemy sterować przepływem mocy po stronie i odpowiednio przekazywać moc seo poprzez link do konkretnych podstron. Alternatywnym parametrem jest link oznaczony jako dofollow przekazujący moc indeksacji i moc seo.
Opisane metody optymalizacji pomogą Ci znacznie zwiększyć crawl budget witryny. Czynników tych jest dosyć dużo, a znaczenie może mieć każdy, nawet najmniejszy detal. Absolutną podstawą jest eliminowanie błędów oraz unikanie duplikacji. Szczegółowa analiza w Google Search Console, a także płatne narzędzia będą niezwykle przydatne.
Sprawdzisz to, wpisując w okno wyszukiwań site:nazwa domeny. Wtedy uzyskasz informację o przybliżonej liczbie zaindeksowanych adresów. Dzięki temu możesz ocenić, czy liczba ta odpowiada faktycznej liczbie podstron.
Przede wszystkim pamiętaj, aby adresy w sitemapie zwracały kod odpowiedzi 200. Ponadto unikaj adrsów URL, które zawierają meta robots z treścią „noindex”, stron paginacji oraz stron, które blokowane są plikiem robots.txt. Nieprawidłowa implementacja mapy czy jej błędna zawartość może wpłynąć na zmniejszenie crawl budgetu.
Robot indeksujący nie bierze pod uwagę linków oznaczonych jako nofollow. Dzięki temu możesz ustalić priorytety oraz przekazać moc SEO do innych podstron.
W tym celu wystarczy rzucić okiem na kilka narzędzi online. Możesz to sprawdzić np. na https://developers.google.com/speed/pagespeed/insights/ czy https://gtmetrix.com.
Trudno nie zauważyć, jak istotny jest crawl budget witryny. Tymczasem wielu niedoświadczonych webmasterów czy właścicieli sklepów internetowych pomija ten aspekt. Dzięki właściwej analizie danych oraz optymalizacji zatroszczysz się o crawl rate limit oraz crawl demand, aby wyprzedzić konkurencję. Nie ulega więc wątpliwości, że elementy te mają znaczący wpływ na ruch, a co za tym idzie – na konwersję.