Google wyjaśnia istotne aspekty indeksowania stron

Niedawno w dość obszernym – jak na standardy firmy Google – wpisie Garry Illyes wyjaśnił w jaki sposób roboty indeksujące alokują swoje zasoby. Jak zawsze, warto zapoznać się z komunikatami tej firmy, jednak zachęcamy do sięgnięcia po The SEM Post, gdzie niezawodna Jennifer Slegg opublikowała znacznie szerszą, świetną syntezę tematu. Co ciekawe, przygotowała ją we współpracy z tym samym Garrym Illyesem. To nie pierwszy raz, gdy treści dotyczące Google są znacznie lepsze na zewnętrznych blogach niż w oficjalnych kanałach komunikacji – szewc bez butów chodzi.

Oba źródła posługują się terminem „crawl budget”, który w wolnym ale wiernym tłumaczeniu oznacza ograniczony czas przebywania robotów indeksujących na danej stronie. Firma Google dość precyzyjnie zarządza działaniem swoich automatów by możliwie najszybciej i najwydajniej przetwarzać jak najwięcej wartościowych danych z internetu. Z tym wiążą się oczywiście ograniczenia, które z punktu widzenia pozycjonowania mogą dotknąć właścicieli obszerniejszych stron.

Opracowanie ma bagatela 38 tysięcy znaków i oczywiście jest po angielsku, stąd dla zniesienia bariery czasowo-językowej, przygotowaliśmy najważniejsze wnioski:
– Strony poniżej 4000 adresów nie muszą przejmować się czasem spędzanym przez roboty indeksujące.
– Każda nowa domena jest odwiedzana domyślnie tyle samo razy, dopiero później tempo indeksowania jest dostosowywane do stanu strony.
– Częstość odwiedzin jest obniżana przez niski czas odpowiedzi serwera i występowanie błędów 5xx.
– Roboty indeksujące starają się częściej odwiedzać popularne adresy.
– Pliki CSS i JavaScript również zużywają czas robotów indeksujących.
– Adresy podane w sitemap są częściej indeksowane niż podstrony wykryte samodzielnie przez roboty indeksujące.
– Wszelkie poważne zmiany w strukturze adresów, na przykład wdrożenie certyfikatu SSL, powodują chwilowy duży wzrost aktywności robotów.
– Podstrony czy nawet całe domeny z treścią niskiej jakości są rzadziej indeksowane.
– Google odradza używania atrybutu rel=”nofollow” w linkach nawigacji. Zamiast niego, znacznie lepszym rozwiązaniem ma być meta tag noindex oraz komenda disallow.
– Robot indeksujący weryfikuje zawartość tagu canonical, poświęca czas na sprawdzenie czy faktycznie podany adres jest duplikatem.
– Robot indeksujący podąża maksymalnie za 5 następującymi po sobie przekierowaniami 301.
– Wpuszczanie robotów indeksujących do duplikatów podstron z parametrami w adresie (np. filtry kategorii), z identyfikatorami sesji, do pustych i spamowych podstron zużywa zasoby robotów indeksujących i powoduje, że mogą one nie zaindeksować pozostałych ważniejszych podstron.

Jeden z najciekawszych wątków to konsekwentne zaprzeczanie jakimkolwiek korelacjom zmian w indeksowaniu danej domeny ze zmianami rankingowymi wpływającymi na tą domenę. Usłyszeliśmy bowiem wyraźnie, że strony bardziej poularne są częściej indeksowane, a te o niższej jakości rzadziej. Można z tego wyciągnąć bardzo jasny wniosek, na co zresztą wskazuje Jennifer Slegg:

Co dokładnie Google używa by ustalić popularność? Google nie podzieliło się żadnymi szczegółami, prawdopodobnie żeby uniemożliwić spamerom manipulację tego elementu.

Tymczasem w wielu miejscach ([1] [2] [3]) jesteśmy zapewniani, że nie można łączyć zmian w rankingu ze zmianami w indeksowaniu. Sprzeczność jest oczywista.

Liczymy, że Google będzie kontynuować przejawy otwartej komunikacji w temacie istotnych elementów funkcjonowania wyszukiwarki.

Źródła: Webmasters.googleblog.com, TheSEMPost.com. Źródło grafiki: LCN.com.

Najnowsze wpisy

Jak technologia wspiera nasz dział Google ADS?

Czytaj więcej 

Marka premium – jak stworzyć brand wyróżniający się na rynku?

Czytaj więcej 

404 not found – czym jest ten błąd i jak go unikać?

Czytaj więcej