Cum utilizați fișierul robots.txt pentru a preveni indexarea paginilor de pe site?
O zi buna!
Această sarcină este rezolvată folosind comanda Disallow.
Voi da exemple concrete:
1. Dacă trebuie să închideți anumite pagini (de exemplu, adresa unui flux RSS):
Agent utilizator: * Nu permiteți: /page1.html Nu permiteți: /posts/page2.html
2. Dacă trebuie să închideți secțiunea site - folosind secțiunea postări ca exemplu, închideți pagina site.ru/posts + toate paginile de tip site.ru/posts/page1.html, site.ru/posts/page2 .html etc.:
Agent utilizator: * Nu permiteți: /postări/
3. Dacă doriți să închideți toate paginile sau secțiunile (dosarele), în numele cărora apare cuvântul „postări”:
Agent utilizator: * Nu permiteți: postări
4. Dacă trebuie să închideți paginile generate dinamic care au adresa site.ru/?page=xxx:
Agent utilizator: * Nu permite: /*?pagina*
5. Dacă trebuie să utilizați robots txt pentru a interzice în întregime indexarea site-ului (da, uneori și acest lucru este necesar):
Agent utilizator: * Nu permite: /
De asemenea, puteți citi mai în detaliu despre fișierul robots txt în articolul meu de la linkul dat.
Ca măsură suplimentară, puteți utiliza și o metaetichetă dacă motorul permite plasarea acesteia pe pagini individuale (pentru WordPress, în special, pluginul All in Seo Pack face acest lucru):
În general, interzicerea indexării este un lucru foarte important în optimizarea motoarelor de căutare, deoarece majoritatea motoarelor creează acum pagini care dublează același conținut și este foarte important să închideți aceste duplicate folosind metodele de mai sus.