Robots.txt: Jak řídit vyhledávače a chránit svůj web před zbytečnou zátěží

Rychlá definice

Robots.txt je jednoduchý textový soubor umístěný v hlavním adresáři vašeho webu (např. www.vasedomena.cz/robots.txt).

Funguje jako digitální vyhazovač nebo dopravní policista pro vyhledávací roboty (tzv. crawlery, např. Googlebot nebo SeznamBot). Pomocí jednoduchých příkazů jim říká, do jakých částí webu mají povolený přístup a kam naopak chodit nesmí.

Příklad robots.txt souboru

User-agent: *

# 1. ZÁKAZ VSTUPU DO ADMINISTRACE
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /login/

# 2. ZÁKAZ PROCHÁZENÍ NÁKUPNÍHO PROCESU (Košík v Googlu nepotřebujeme)
Disallow: /kosik/
Disallow: /checkout/
Disallow: /objednavka/

# 3. ZÁKAZ INTERNÍHO VYHLEDÁVÁNÍ (Zabraňuje indexaci nekonečného množství nesmyslných URL)
Disallow: /hledani?q=*
Disallow: /?s=*
Disallow: /search/

# 4. OMEZENÍ FILTRŮ A ŘAZENÍ (Prevence vzniku duplicitního obsahu)
Disallow: /*?sort=*
Disallow: /*?price_from=*
Disallow: /*?filter=*

# 5. VÝSLOVNÉ POVOLENÍ (Pro jistotu, pokud by jiný příkaz něco omylem blokoval)
Allow: /wp-admin/admin-ajax.php
Allow: /*.css
Allow: /*.js

# 6. ODKAZ NA MAPU WEBU (Navede roboty na správnou cestu)

Sitemap: https://www.vasedomena.cz/sitemap.xml

Případně se můžete inspirovat na našem webu: https://unikum.cz/robots.txt

Co přesně jednotlivé části dělají?

User-agent: * – Hvězdička znamená, že následující pravidla platí plošně pro úplně všechny roboty (Googlebot, SeznamBot, Bingbot atd.).
Disallow (Zakázat) – Říká robotům, kam nesmí. Typicky se sem dávají administrace, uživatelské účty, košíky nebo výsledky interního vyhledávání. Zabráníte tak tomu, aby Google indexoval zbytečnosti.
Hvězdičky u parametrů (/*?sort=*) – Skvělá prevence proti duplicitnímu obsahu. Pokud si uživatel na e-shopu seřadí produkty „od nejlevnějšího“, vytvoří se nová URL adresa. Obsah je ale stejný. Tímto příkazem Googlu řeknete, aby tyto seřazené verze vůbec neprocházel a šetřil čas na důležité věci.
Allow (Povolit) – Slouží jako výjimka z pravidla Disallow. Výslovně robotům říkáme, že si smí přečíst CSS (styly) a JS (skripty), aby viděli web ve správném designu a ne jako rozsypaný text.
Sitemap – Zlaté pravidlo na konec. Dáte sem přesnou URL adresu vaší mapy webu. Robot tak okamžitě ví, kde najde kompletní a aktuální seznam všech vašich důležitých stránek.

Proč by vás to mělo zajímat z pohledu byznysu

I když jde o čistě technický soubor, jeho špatné (nebo naopak skvělé) nastavení má obrovský dopad na vaše SEO a potažmo tržby z organického vyhledávání.

Efektivní využití Crawl Budgetu: Google nevěnuje vašemu webu nekonečně mnoho času. Pokud jeho roboti ztratí čas procházením tisíců zbytečných stránek (např. nekonečné kombinace filtrů v e-shopu nebo prázdné košíky), nestihnou zaindexovat vaše nové, ziskové produkty.
Ochrana citlivých sekcí: Určitě nechcete, aby zákazníci přes Google našli vaši administraci, interní ceníky pro partnery nebo výsledky interního vyhledávání. Robots.txt zajistí, že roboti tyto stránky vůbec nebudou procházet.
Snížení zátěže serveru: Agresivní roboti (často z analytických nástrojů třetích stran nebo AI scrapery) mohou váš server natolik vytížit, že se web zpomalí pro reálné zákazníky. Pomocí robots.txt jim můžete vstup zakázat.

Typické chyby v robots.txt

Katastrofální lomítko (Disallow: /): Nejsmrtelnější SEO chyba ze všech. Tento jediný řádek řekne Googlu: „Zákaz vstupu na celý web.“ Často se to stává, když vývojáři zapomenou toto pravidlo odstranit po přesunu webu z testovacího na ostré prostředí. Web pak ze dne na den zmizí z vyhledávání.
Blokování CSS a JavaScript souborů: Pokud vyhledávači zakážete přístup ke stylům stránky, Googlebot váš web uvidí jen jako rozsypaný text bez grafiky. Může ho pak vyhodnotit jako neoptimalizovaný pro mobily a penalizovat vás.
Používání k ochraně tajných dat: Soubor robots.txt je veřejný. Každý si ho může otevřít. Pokud do něj napíšete Disallow: /tajny-adresar-s-fakturami/, doslova tím hackerům ukazujete, kde máte schované cennosti. Robots.txt funguje jen na „slušné“ roboty, nikoliv jako bezpečnostní zámek.

Jak k tomu přistupujeme v UNIKUM?

V rámci technického SEO nenecháváme robots.txt náhodě. Nespokojíme se s tím, že tam „nějaký soubor je“.

Během SEO auditu detailně kontrolujeme, zda váš web neplýtvá rozpočtem procházení (crawl budgetem) na slepé uličky. Správným nastavením robots.txt doslova navigujeme Google přímo k tomu obsahu, který vám vydělává peníze (kategorie, produkty, články), a blokujeme cestu do technického balastu. Chráníme tak vaše pozice ve vyhledávání před zbytečnými technickými propady.

Mini-FAQ

Jak zjistím, co mám ve svém robots.txt?

Je to velmi snadné. Stačí do prohlížeče za adresu vašeho webu připsat /robots.txt (např. www.unikum.cz/robots.txt). Zobrazí se vám prostý text, který aktuálně řídí roboty na vašem webu.

Jaký je rozdíl mezi „robots.txt“ a meta tagem „noindex“?

To je častá past! Robots.txt zakazuje robotovi stránku procházet (vůbec se na ni nepodívá). Noindex robotovi dovolí stránku projít, ale zakáže mu ji zobrazit ve výsledcích vyhledávání (v indexu). Pokud chcete stránku smazat z Googlu, musíte použít noindex. Pokud k ní zároveň zamezíte přístup v robots.txt, Google si noindex nikdy nepřečte a stránka může ve vyhledávání „viset“ dál.