Navigare rapidă în pagină:

  • Ce este robots.txt?
  • Reguli de instrucțiuni utilizator-agent
  • Permiteți și permiteți regulile de indicare
  • Specificați gazda și harta site-ului
  • Exemplu Robots.txt pentru WordPress

Realitatea modernă este că, în Runet, niciun site care se respectă nu se poate descurca fără un fișier numit robots.txt – chiar dacă nu ai nimic care să-l împiedice să-l indexeze (deși aproape fiecare site are pagini tehnice și conținut duplicat care trebuie să fie închis de la indexare). ), atunci, cel puțin, merită cu siguranță să scrieți o directivă cu www și fără www pentru Yandex - pentru asta sunt folosite regulile de scriere robots.txt, care vor fi discutate mai jos.

scriere

Ce este robots.txt?

Istoricul fișierului cu acest nume datează din 1994, când consorțiul W3C a decis să introducă un astfel de standard pentru ca site-urile să poată furniza motoarele de căutare instrucțiuni de indexare.

Fișierul cu acest nume trebuie salvat în directorul rădăcină al site-ului, plasarea lui în orice alte foldere nu este permisă.

Fișierul îndeplinește următoarele funcții:

  • interzice indexarea oricăror pagini sau grupuri de pagini
  • permite indexarea oricăror pagini sau grupuri de pagini
  • indică funcționarea Yandex, care oglindă a site-ului este cea principală (cu www sau fără www)
  • arată locația fișierului sitemap
  • Toate cele patru puncte sunt extrem de importante pentru optimizarea site-ului pentru motoarele de căutare. Interdicția de indexare vă permite să blocați paginile de indexare care conțin conținut duplicat - de exemplu, pagini de etichetare, arhive, rezultate de căutare, pagini cu versiuni tipărite și așa mai departe. Prezența conținutului duplicat (atunci când același text, chiar și în cantitatea mai multor oferte, este prezent pe două sau mai multe pagini) este un dezavantaj pentru site în clasamentul motoarelor de căutare,prin urmare, ar trebui să existe cât mai puține duplicate posibil.

    Directiva allow nu are o valoare independentă, deoarece implicit toate paginile sunt disponibile pentru indexare. Funcționează împreună cu disallow — atunci când, de exemplu, o secțiune este complet închisă de motoarele de căutare, dar doriți să deschideți o anumită pagină în ea.

    Arătarea către oglinda principală a site-ului este, de asemenea, unul dintre cele mai importante elemente în optimizare: motoarele de căutare consideră www.yoursite.ru și yoursite.ru ca două resurse diferite, cu excepția cazului în care le spui în mod explicit altfel. Ca urmare, există duplicarea conținutului — apariția duplicatelor, o scădere a puterii legăturilor externe (linkurile externe pot fi plasate atât cu www, cât și fără www) și, ca urmare, acest lucru poate duce la o clasare mai scăzută în rezultatele cautarii.

    Pentru Google, oglinda principală este prescrisă în instrumentele pentru webmasteri (http://www.google.ru/webmasters/), dar pentru Yandex, aceste instrucțiuni pot fi prescrise numai în același robots.tkht.

    Indicarea către un fișier xml cu o hartă a site-ului (de exemplu, sitemap.xml) permite motoarelor de căutare să găsească acest fișier.

    Reguli de instrucțiuni utilizator-agent

    User-agent în acest caz este un motor de căutare. Când scrieți instrucțiunile, este necesar să indicați dacă acestea se vor aplica tuturor motoarelor de căutare (apoi se adaugă un asterisc — *) sau dacă sunt destinate unui anumit motor de căutare, de exemplu, Yandex sau Google.

    Pentru a specifica User-agent pentru toți roboții, scrieți următoarea linie în fișier:

    Agent utilizator: *

    Pentru Yandex:

    Agent utilizator: Yandex

    Pentru Google:

    Agent utilizator: GoogleBot

    Permiteți și permiteți regulile de indicare

    În primul rând, trebuie remarcat faptul că un fișier robots.txt trebuie să conțină cel puțin o directivă disallow pentru a fi valid. Acum să luăm în considerareaplicarea acestor directive pe exemple specifice.

    Cu ajutorul acestui cod, permiteți indexarea tuturor paginilor site-ului:

    Agent utilizator: * Nu permiteți:

    Și cu ajutorul acestui cod, dimpotrivă, toate paginile vor fi închise:

    Agent utilizator: * Nu permite: /

    Pentru a interzice indexarea unui anume director numit folder, specificați:

    Agent utilizator: * Nu permite: /folder

    Pentru a interzice indexarea unui anume director numit folder, specificați:

    Agent utilizator: * Nu permite: /folder

    De asemenea, puteți utiliza asteriscuri pentru a înlocui un nume arbitrar:

    Agent utilizator: * Nu permite: *.php

    Important: asteriscul înlocuiește în întregime numele fișierului, adică nu puteți specifica fișier*.php, doar *.php (dar toate paginile cu extensia .php vor fi interzise, ​​pentru a evita acest lucru - puteți specifica o anumită adresă de pagină) .

    Directiva allow, așa cum sa menționat mai sus, este folosită pentru a crea excepții în disallow (altfel nu are sens, deoarece paginile implicite sunt deja deschise).

    De exemplu, să interzicem indexarea paginii din folderul arhivă, dar să lăsăm deschisă pagina index.html din acest director:

    Permite: /archive/index.html Nu permiteți: /arhivă/

    Specificați gazda și harta site-ului

    Gazda este oglinda principală a site-ului (adică numele domeniului plus www sau numele domeniului fără acest prefix). Gazda este specificată numai pentru robotul Yandex (în același timp, trebuie să existe cel puțin o comandă de respingere).

    Pentru a indica gazda robots.txt ar trebui să conțină următoarea intrare:

    Agent utilizator: Yandex Nu permiteți: Gazdă: www.vashsayt.ru

    În ceea ce privește harta site-ului, harta site-ului robots.txt este specificată prin simpla scriere a căii complete către fișierul corespunzător cu numele domeniului:

    Harta site-ului:http://vashsayt.ru/sitemap.xml

    Cum să faci un sitemap pentru WordPress este scris aici.

    Exemplu Robots.txt pentru WordPress

    Pentru wordpress, instrucțiunile trebuie specificate în așa fel încât să închidă toate directoarele tehnice (wp-admin, wp-includes etc.) la indexare, precum și paginile duplicate create de etichete, fișiere rss, comentarii și căutare.

    Ca exemplu de robots.txt pentru wordpress, puteți lua fișierul de pe site-ul nostru:

    Agent utilizator: Yandex Nu permiteți: /wp-admin Nu permiteți: /wp-includes Nu permiteți: /wp-login.php Nu permiteți: /wp-register.php Nu permiteți: /xmlrpc.php Nu permiteți: /căutare Nu permiteți: */trackback Nu permiteți: */feed/ Nu permiteți: */feed Nu permiteți: */comments/ Nu permiteți: /?feed= Nu permiteți: /?s= Nu permiteți: */page/* Nu permiteți: */comentare Nu permiteți: */tag/* Nu permiteți: */attachment/* Permite: /wp-content/uploads/

    Gazdă: www.runcms.org

    Agent utilizator: Googlebot Nu permiteți: /wp-admin Nu permiteți: /wp-includes Nu permiteți: /wp-login.php Nu permiteți: /wp-register.php Nu permiteți: /xmlrpc.php Nu permiteți: /căutare Nu permiteți: */trackback Nu permiteți: */feed/ Nu permiteți: */feed Nu permiteți: */comments/ Nu permiteți: /?feed= Nu permiteți: /?s= Nu permiteți: */page/* Nu permiteți: */comentare Nu permiteți: */tag/* Nu permiteți: */attachment/* Permite: /wp-content/uploads/

    Agent utilizator: * Nu permiteți: /wp-admin Nu permiteți: /wp-includes Nu permiteți: /wp-login.php Nu permiteți: /wp-register.php Nu permiteți: /xmlrpc.php Nu permiteți: /căutare Nu permiteți: */trackback Nu permiteți: */feed/ Nu permiteți: */feed Nu permiteți: */comments/ Nu permiteți: /?feed= Nu permiteți: /?s= Nu permiteți: */page/* Nu permiteți: */comentare Nu permiteți: */tag/* Nu permiteți: */attachment/* Permite: /wp-content/uploads/

    Harta site-ului:http://www.runcms.org/sitemap.xml

    Puteți descărca fișierul robots.txt de pe site-ul nostru folosind acest link.

    Dacă aveți întrebări după ce ați citit acest articol, adresați-le în comentarii!