Co je Robots.txt?
Robots.txt je soubor v textové podobě, který dává prohledávačům robotů pokyn, aby indexovaly nebo neindexovaly určité stránky. Je také známý jako správce brány pro celý váš web. Prvním cílem prohledávačů robotů je najít a přečíst soubor robots.txt, než přistoupí k vašemu souboru Sitemap nebo k jakýmkoliv stránkám nebo složkám.
Pomocí souboru robots.txt můžete konkrétněji:
- Regulujte, jak roboti vyhledávačů procházejí váš web
- Poskytněte určitý přístup
- Pomozte vyhledávačům indexovat obsah stránky
- Ukažte, jak uživatelům poskytovat obsah
Robots.txt je součástí protokolu pro vyloučení robotů (REP), který se skládá z direktiv na úrovni webu/stránky/URL. I když roboti vyhledávačů mohou stále procházet celý váš web, je na vás, abyste jim pomohli rozhodnout, zda určité stránky stojí za čas a úsilí.
Proč potřebujete Robots.txt
Váš web ke správnému fungování nepotřebuje soubor robots.txt. Hlavním důvodem, proč potřebujete soubor robots.txt, je to, že když roboti procházejí vaši stránku, žádají o povolení k procházení, aby se mohli pokusit získat informace o stránce k indexování. Web bez souboru robots.txt navíc v podstatě žádá roboty, aby indexovaly web, jak uzná za vhodné. Je důležité si uvědomit, že roboti budou vaše stránky procházet i bez souboru robots.txt.
Umístění vašeho souboru robots.txt je také důležité, protože ho budou hledat všichni roboti www.123.com/robots.txt. Pokud tam nic nenajdou, budou předpokládat, že stránka nemá soubor robots.txt a vše zaindexují. Soubor musí být textový soubor ASCII nebo UTF-8. Je také důležité poznamenat, že pravidla rozlišují malá a velká písmena.
Zde je několik věcí, které robots.txt udělá a nebude:
- Soubor je schopen řídit přístup prohledávačů do určitých oblastí vašeho webu. Při nastavování souboru robots.txt musíte být velmi opatrní, protože je možné zablokovat indexování celého webu.
- Zabraňuje indexování duplicitního obsahu a jeho zobrazování ve výsledcích vyhledávačů.
- Soubor určuje zpoždění procházení, aby se zabránilo přetížení serverů, když prohledávače načítají více částí obsahu současně.
Zde jsou někteří Googleboti, kteří mohou čas od času procházet váš web:
Web Crawler | Řetězec User-Agent |
Googlebot News | Googlebot-News |
Obrázky Googlebota | Googlebot-Image/1.0 |
Googlebot Video | Googlebot-Video/1.0 |
Google Mobile (doporučený telefon) | SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (kompatibilní; Googlebot-Mobile/2.1; +http://www. google.com/bot.html) |
Smartphone Google | Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, jako Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (kompatibilní; Googlebot/2.1; +http://www.google .com/bot.html) |
Google Mobile Adsense | (kompatibilní; Mediapartners-Google/2.1; +http://www.google.com/bot.html) |
Google Adsense | Mediální partneři – Google |
Google AdsBot (kvalita vstupní stránky PPC) | AdsBot-Google (+http://www.google.com/adsbot.html) |
Prohledávač aplikací Google (načítání zdrojů pro mobily) | AdsBot-Google-Mobile-Apps |
Můžete najít a seznam dalších robotů zde.
- Soubory pomáhají při specifikaci umístění souborů Sitemap.
- Zabraňuje také robotům vyhledávačů indexovat různé soubory na webu, jako jsou obrázky a soubory PDF.
Když chce robot navštívit váš web (např. www.123.com), zpočátku zkontroluje www.123.com/robots.txt a najde:
User-agent: *
Disallow: /
Tento příklad dává pokyn všem (User-agents*) robotům vyhledávačů, aby neindexovali (Disallow: /) web.
Pokud jste odstranili lomítko z Disallow, jako v příkladu níže,
User-agent: *
Zakázat:
roboti by byli schopni procházet a indexovat vše na webu. Proto je důležité porozumět syntaxi souboru robots.txt.
Vysvětlení syntaxe souboru robots.txt
Syntaxi Robots.txt lze považovat za „jazyk“ souborů robots.txt. Existuje 5 běžných termínů, se kterými se pravděpodobně setkáte v souboru robots.txt. Oni jsou:
- User-agent: Konkrétní webový prohledávač, kterému dáváte pokyny pro procházení (obvykle vyhledávač). Lze nalézt seznam většiny uživatelských agentů tady.
- Zakázat: Příkaz, který říká uživatelskému agentovi, aby neprocházel konkrétní adresu URL. Pro každou adresu URL je povolen pouze jeden řádek „Disallow:“.
- Allow (Platí pouze pro Googlebot): Příkaz říká Googlebotu, že má přístup ke stránce nebo podsložce, i když její nadřazená stránka nebo podsložka může být zakázána.
- Zpoždění procházení: Počet milisekund, které by měl prohledávač čekat před načtením a procházením obsahu stránky. Upozorňujeme, že Googlebot tento příkaz nepotvrzuje, ale rychlost procházení lze nastavit v Google Search Console.
- Sitemap: Používá se k vyvolání umístění libovolného souboru Sitemap XML spojeného s adresou URL. Poznamenejte si tento příkaz je pouze podporováno od společností Google, Ask, Bing a Yahoo.
Výsledky instrukcí Robots.txt
Když vydáte pokyny k souboru robots.txt, očekáváte tři výsledky:
- Plné povolení
- Úplný zákaz
- Podmíněné povolení
Plné povolení
Tento výsledek znamená, že veškerý obsah na vašem webu může být procházen. Soubory Robots.txt jsou určeny k blokování procházení roboty vyhledávačů, takže tento příkaz může být velmi důležitý.
Tento výsledek může znamenat, že na svém webu vůbec nemáte soubor robots.txt. I když jej nemáte, roboti vyhledávačů jej na vašem webu stále vyhledávají. Pokud to nedostanou, budou procházet všechny části vašeho webu.
Další možností v rámci tohoto výsledku je vytvořit soubor robots.txt, ale ponechat jej prázdný. Když se pavouk začne prolézat, identifikuje a dokonce přečte soubor robots.txt. Protože tam nic nenajde, bude pokračovat v procházení zbytku webu.
Pokud máte soubor robots.txt a máte v něm následující dva řádky,
User-agent:*
Zakázat:
vyhledávač prohledá váš web, identifikuje soubor robots.txt a přečte jej. Dostane se na řádek dva a poté pokračuje v procházení zbytku webu.
Úplný zákaz
Zde se nebude procházet a indexovat žádný obsah. Tento příkaz je vydán tímto řádkem:
User-agent:*
Disallow:/
Když mluvíme o žádném obsahu, máme na mysli, že nic z webu (obsah, stránky atd.) nelze procházet. To není nikdy dobrý nápad.
Podmíněné povolení
To znamená, že lze procházet pouze určitý obsah na webu.
Podmíněné povolení má tento formát:
User-agent:*
Disallow:/
User-agent: Mediapartner-Google
Dovolit:/
Můžete najít úplná syntaxe souboru robots.txt zde.
Pamatujte, že blokované stránky lze stále indexovat, i když jste zakázali adresu URL, jak je znázorněno na obrázku níže:
Můžete obdržet e-mail z vyhledávačů, že vaše adresa URL byla indexována jako na snímku obrazovky výše. Pokud na vaši zakázanou adresu URL odkazují jiné weby, jako je například text kotvy v odkazech, bude indexována. Řešením je 1) chránit své soubory na serveru heslem, 2) použít metaznačku noindex nebo 3) stránku úplně odstranit.
Může robot stále procházet a ignorovat můj soubor robots.txt?
Ano. je možné, že robot může obejít soubor robots.txt. Je to proto, že Google používá další faktory, jako jsou externí informace a příchozí odkazy, aby určil, zda má být stránka indexována či nikoli. Pokud nechcete, aby byla stránka vůbec indexována, měli byste použít metaznačku noindex robots. Další možností by bylo použití HTTP hlavičky X-Robots-Tag.
Mohu blokovat jen špatné roboty?
Teoreticky je možné blokovat špatné roboty, ale v praxi to může být obtížné. Podívejme se na několik způsobů, jak toho dosáhnout:
- Špatného robota můžete zablokovat jeho vyloučením. Musíte však znát jméno, které konkrétní robot skenuje v poli User-Agent. Poté musíte do souboru robots.txt přidat sekci, která vylučuje špatného robota.
- Konfigurace serveru. To by fungovalo pouze v případě, že operace špatného robota pochází z jedné IP adresy. Konfigurace serveru nebo síťový firewall zablokují špatnému robotu přístup k vašemu webovému serveru.
- Použití pokročilých konfigurací pravidel brány firewall. Ty automaticky zablokují přístup k různým IP adresám, kde existují kopie špatného robota. Dobrým příkladem robotů pracujících na různých IP adresách je případ unesených počítačů, které mohou být dokonce součástí většího botnetu (více informací o botnetu tady).
Pokud špatný robot pracuje z jediné IP adresy, můžete mu zablokovat přístup k vašemu webovému serveru pomocí konfigurace serveru nebo pomocí síťového firewallu.
Pokud kopie robota fungují na několika různých IP adresách, je obtížnější je zablokovat. Nejlepší možností je v tomto případě použít pokročilé konfigurace pravidel brány firewall, které automaticky blokují přístup k IP adresám, které vytvářejí mnoho připojení; bohužel to může ovlivnit i přístup dobrých robotů.
Jaké jsou některé z nejlepších SEO postupů při používání robots.txt?
V tuto chvíli vás možná zajímá, jak se v těchto velmi složitých vodách robots.txt pohybovat. Podívejme se na to podrobněji:
- Ujistěte se, že neblokujete žádný obsah nebo části svého webu, které chcete procházet.
- Použijte jiný blokovací mechanismus než robots.txt, chcete-li, aby byla hodnota odkazu předána ze stránky s robots.txt (což znamená, že je prakticky zablokována) do cíle odkazu.
- Nepoužívejte soubor robots.txt k tomu, aby se ve výsledcích vyhledávače nezobrazovala citlivá data, jako jsou soukromé informace o uživatelích. Mohlo by to umožnit dalším stránkám odkazovat na stránky, které obsahují soukromé informace o uživateli, což může způsobit indexování stránky. V tomto případě byl soubor robots.txt vynechán. Další možnosti, které zde můžete prozkoumat, jsou ochrana heslem nebo noindex meta směrnice.
- Není třeba zadávat direktivy pro každý z prohledávačů vyhledávače, protože většina uživatelských agentů, pokud patří ke stejnému vyhledávači, se řídí stejnými pravidly. Google používá Googlebot pro vyhledávače a Googlebot Image pro vyhledávání obrázků. Jedinou výhodou znalosti toho, jak specifikovat každý prohledávač, je to, že můžete přesně vyladit způsob procházení obsahu na vašem webu.
- Pokud jste změnili soubor robots.txt a chcete, aby jej Google aktualizoval rychleji, odešlete jej přímo společnosti Google. Pokyny, jak to udělat, získáte kliknutím tady. Je důležité si uvědomit, že vyhledávače ukládají obsah souboru robots.txt do mezipaměti a aktualizují jej alespoň jednou denně.
Základní pokyny pro soubor robots.txt
Nyní, když máte základní znalosti o SEO ve vztahu k souboru robots.txt, jaké věci byste měli mít na paměti při používání souboru robots.txt? V této části se podíváme na několik pokynů, které je třeba dodržovat při používání souboru robots.txt, i když je důležité si jej skutečně přečíst celou syntaxi.
Formát a umístění
Textový editor, který se rozhodnete použít k vytvoření souboru robots.txt, musí být schopen vytvářet standardní textové soubory ASCII nebo UTF-8. Použití textového procesoru není dobrý nápad, protože mohou být přidány některé znaky, které mohou ovlivnit procházení.
I když lze k vytvoření souboru robots.txt použít téměř jakýkoli textový editor, tento nástroj je vysoce doporučeno, protože umožňuje testování na vašem webu.
Zde jsou další pokyny pro formát a umístění:
Jak již bylo zmíněno, robots.txt není nejlepší způsob, jak zabránit indexování citlivých osobních údajů. To je oprávněná obava, zvláště nyní s nedávno implementovaným GDPR. Ochrana osobních údajů by neměla být ohrožena. Doba.
Jak potom zajistíte, aby robots.txt nezobrazoval citlivá data ve výsledcích vyhledávání?
Použití samostatného podadresáře, který je na webu „unlistable“, zabrání distribuci citlivého materiálu. Pomocí konfigurace serveru můžete zajistit, aby byl „nelistovatelný“. Jednoduše uložte všechny soubory, které nechcete, aby robots.txt navštívil a indexoval, do tohoto podadresáře.
Nevede uvedení stránek nebo adresářů v souboru robots.txt k nechtěnému přístupu?
Jak bylo uvedeno výše, umístěním všech souborů, které nechcete indexovat, do samostatného podadresáře a následným zrušením seznamu prostřednictvím konfigurací serveru by mělo být zajištěno, že se neobjeví ve výsledcích vyhledávání. Jediný výpis, který pak provedete v souboru robots.txt, je název adresáře. Jediný způsob, jak se k těmto souborům dostat, je přes přímý odkaz na jeden ze souborů.
Zde je příklad:
Namísto
User-Agent:*
Disallow:/foo.html
Disallow:/bar.html
Použití
User-Agent:*
Disallow:/norobots/
Poté musíte vytvořit adresář „norobots“, který obsahuje foo.html a bar.html. Všimněte si, že konfigurace vašeho serveru musí být jasná, že nebude generovat výpis adresáře pro adresář „norobots“.
To nemusí být příliš bezpečný přístup, protože osoba nebo robot, který útočí na váš web, stále vidí, že máte adresář „norobots“, i když nemusí být schopni zobrazit soubory v adresáři. Někdo by však mohl publikovat odkaz na tyto soubory na svých webových stránkách nebo, což je ještě horší, odkaz se může zobrazit v souboru protokolu, který je přístupný veřejnosti (např. protokol webového serveru jako referrer). Je také možná chybná konfigurace serveru, která vede k výpisu adresáře.
Co to znamená? Robots.txt vám nemůže pomoci s řízením přístupu z prostého důvodu, že pro to není určen. Dobrým příkladem je značka „Zákaz vjezdu“. Jsou lidé, kteří budou i tak porušovat pokyn.
Pokud existují soubory, ke kterým chcete mít přístup pouze oprávněné osoby, konfigurace serveru pomůže s ověřováním. Pokud používáte CMS (Content Management System), máte řízení přístupu na jednotlivých stránkách a kolekci zdrojů.
Můžete optimalizovat robots.txt pro SEO?
Absolutně. Nejlepším průvodcem, jak optimalizovat soubor robots.txt, je obsah webu. Rychlé připomenutí: Robots.txt by nikdy neměl být používán k blokování stránek, aby je neprocházeli roboti vyhledávačů. Použijte jej pouze k blokování částí vašeho webu, které nejsou přístupné veřejnosti, například přihlašovací stránky jako wp-admin.
Toto je zakázaný řádek pro přihlašovací stránku Neila Patela na jedné z jeho webových stránek:
User-agent:*
Disallow:/wp-admin/
Povolit:/wp-admin/admin-ajax.php
Tento zákazový řádek můžete použít k zablokování indexování vašeho přihlášení.
Pokud existují určité stránky, které nechcete indexovat, použijte stejný příkaz jako výše. Příklad:
User-agent:*
Disallow:/page/
Za lomítkem zadejte stránku, kterou nechcete indexovat, a zavřete ji dalším lomítkem. Například:
User-agent:*
Disallow:/page/děkuji/
Které stránky můžete chtít vyloučit z indexování?
- Duplicitní obsah, který je úmyslný. Co to znamená? Někdy záměrně vytváříte duplicitní obsah, abyste dosáhli určitého účelu. Dobrým příkladem je verze konkrétní webové stránky vhodná pro tisk. Pomocí souboru robots.txt můžete zablokovat indexování verze identického obsahu vhodné pro tisk.
- Děkovné stránky. Důvod, proč chcete zablokovat indexování této stránky, je jednoduchý: Má to být poslední krok v prodejní cestě. Než vaši návštěvníci dorazí na tuto stránku, měli by projít celým prodejním trychtýřem. Pokud bude tato stránka indexována, znamená to, že můžete přijít o potenciální zákazníky nebo že získáte falešné potenciální zákazníky.
Příkaz k zablokování takové stránky je:
Disallow:/děkuji/
Noindex a NoFollow
Jak jsme v tomto článku říkali, použití souboru robots.txt není 100% zárukou, že vaše stránka nebude indexována. Podívejme se na dva způsoby, jak zajistit, aby vaše blokovaná stránka skutečně nebyla indexována.
Direktiva noindex
Toto funguje ve spojení s příkazem disallow. Ve své direktivě použijte obojí, jako v:
Disallow:/děkuji/
Direktiva nofollow
To funguje tak, že konkrétně instruuje roboty Google, aby neprocházeli odkazy na stránce. Toto není součástí souboru robots.txt. Chcete-li pomocí příkazu nofollow zablokovat procházení a indexování stránek, musíte najít zdrojový kód konkrétní stránky, kterou nechcete indexovat.
Vložte toto mezi otevírací a zavírací značku hlavy:
„nofollow“ a „noindex“ můžete používat současně. Použijte tento řádek kódu:
Generování souboru robots.txt
Pokud je pro vás obtížné napsat soubor robots.txt pomocí všech nezbytných formátů a syntaxe, kterým musíte porozumět a dodržovat je, můžete použít nástroje, které tento proces zjednoduší. Dobrým příkladem je náš bezplatný generátor robots.txt.
Tento nástroj vám umožňuje vybrat typ výsledku, který na svém webu potřebujete, a soubor nebo adresáře, které chcete přidat. Můžete dokonce otestovat svůj soubor a zjistit, jak je na tom vaše konkurence.
Testování souboru robots.txt
Musíte otestovat svůj soubor robots.txt, abyste se ujistili, že funguje podle očekávání.
Použijte tester robots.txt od Googlu.
Chcete-li to provést, přihlaste se ke svému účtu správce webu.
- Dále vyberte svou nemovitost. V tomto případě je to váš web.
- Klikněte na „procházet“ na levém postranním panelu.
- Klikněte na „robots.txt tester“.
- Nahraďte jakýkoli stávající kód svým novým souborem robots.txt.
- Klikněte na „test“.
Pokud je soubor platný, měli byste vidět textové pole „povoleno“. Další informace naleznete v tomto podrobném průvodci Google robots.txt tester.
Pokud je váš soubor platný, je nyní čas jej nahrát do kořenového adresáře nebo jej uložit, pokud existuje, jako jiný soubor robots.txt.
Jak přidat robots.txt na váš web WordPress
Chcete-li do svého souboru WordPress přidat soubor robots.txt, probereme možnosti pluginu a FTP.
Pro možnost zásuvného modulu můžete použít podobný zásuvný modul Vše v jednom SEO balíčku
Chcete-li to provést, přihlaste se do svého řídicího panelu WordPress
Přejděte dolů, dokud se nedostanete na „pluginy“
Klikněte na „přidat nový“
Přejděte na „hledat pluginy“
Zadejte „All in One SEO Pack“
Nainstalujte jej a aktivujte
V části Obecné nastavení pluginu All in One SEO můžete nakonfigurovat pravidla noindex a nofollow tak, aby byla zahrnuta do vašeho souboru robots.txt.
Můžete určit, jaké adresy URL by měly být NOINDEX, NOFOLLOW. Ponecháte-li tyto nezaškrtnuté, budou ve výchozím nastavení indexovány:
Chcete-li ve svém souboru robots.txt vytvořit pokročilá pravidla, klikněte na správce funkcí a poté na tlačítko aktivace pod souborem robots.txt.
Robots.txt se nyní zobrazuje přímo pod správcem funkcí. Klikněte na to. Zobrazí se sekce s názvem „vytvořit soubor robots.txt“.
Existuje sekce pro tvorbu pravidel, která vám umožňuje vybrat a vyplnit pravidla, která chcete pro svůj web, v závislosti na tom, co nechcete indexovat.
Po vytvoření pravidla klikněte na „přidat pravidlo“.
Pravidlo pak bude uvedeno ve vytvořené složce robots.txt.
Zobrazí se zpráva oznamující, že „Možnosti vše v jednom“ byly aktualizovány.
Další metodou, kterou můžete použít, je nahrát soubor robots.txt přímo do vašeho FTP klienta (File Transfer Protocol), jako je FileZilla.
Jakmile vygenerujete svůj soubor robots.txt, můžete jej vyhledat a nahradit. Váš soubor robots.txt bude umístěn v: „/applications/[FOLDER NAME]/public_html.“
Jak upravit soubor robots.txt na vašem Wix
Wix generuje soubor robots.txt pro webové stránky využívající platformu pro tvorbu webu. Chcete-li jej zobrazit, přidejte do své domény „/robots.txt“. Soubory přidané do robots.txt mají co do činění se strukturou webů Wix, například odkazy noflashhtml, které nepřispívají k hodnotě SEO vašeho webu založeného na Wix.
Pokud váš web používá Wix, nemůžete svůj soubor robots.txt upravovat. Můžete použít pouze další možnosti, jako je přidání „značka noindex” na stránky, které nechcete indexovat.
Chcete-li vytvořit značku noindex pro konkrétní stránku:
- Klikněte na Nabídka stránek
- Klikněte na Nastavení možnost pro tuto konkrétní stránku
- Vybrat SEO (Google) tag
- Zapnout Skrýt tuto stránku ve výsledcích vyhledávání
Jak upravit soubor robots.txt na vašem Shopify
Stejně jako u Wix, Shopify automaticky přidá na váš web neupravitelný soubor robots.txt. Pokud nechcete, aby byly některé stránky indexovány, musíte přidat „značku noindex“ nebo zrušit publikování stránky. Můžete také přidat metaznačky do sekce záhlaví stránek, které nechcete indexovat. Toto byste měli přidat do záhlaví:
Shopify vytvořilo podrobného průvodce, jak na to skrýt stránky před vyhledávači které můžete sledovat.
Další možností je stáhnout si aplikaci tzv Sitemap a NoIndex Manager od Orbis Labs. Můžete jednoduše zkontrolovat možnosti noindex nebo nofollow pro každou stránku na vašem webu Shopify: