Robots.txt tutorial basico para SEO

El Robots.txt o protocolo de exclusión de robots, sirve para evitar que los robots de los motores de búsqueda sean capaces de analizar parte o la totalidad de las páginas de un sitio web. Esta orden funciona a modo de recomendación, por lo que algunos robots podrán hacer caso omiso de ello.

Esto puede tener diferentes utilidades:

Se utiliza en ocasiones para hacer algunas secciones privadas, aunque los archivos de robots.txt están disponibles de forma pública por lo que cualquier persona con un navegador y conocimientos informáticos medios puede acceder a dicha información.

En cuanto al posicionamiento web (SEO) se refiere:

Sirve para optimizar específicamente el sitio para cada uno de los motores de búsqueda importantes, y excluir en el robots.txt la visita de los demás buscadores a los contenidos dirigidos a uno de ellos.
Sirve para impedir el acceso de un robot a contenido duplicado, contenido al que se pueda acceder por diferentes vías. El contenido duplicado no gusta en absoluto a los buscadores y la eliminación del mismo hace que el que queda gana muchos puntos para su posicionamiento.
Sirve para reducir la sobrecarga del servidor en los casos en los que algunos robots envían excesivas peticiones. Se puede averiguar revisando estadísticas. Se podría conseguir así:

User-agent: nombredelrobot

Crawl-delay: 30

Sirve para fijar un sitemap en su interior. Ej:

Sitemap: http://www.posicionatuweb.com/sitemap.xml

Sirve para prohibir zonas y que no aparezcan en los buscadores, cuando si nos interesa que las puedan ver los usuarios en la navegación.

A CONTINUACIÓN SE EXPLICA CÓMO SE CONSTRUYE UN FICHERO ROBOTS.TXT

- “User-agent” es el robot al que se le envía la orden, un * indica que la orden es para todos los robots.

- “Disallow: /” prohíbe la entrada al sitio indicado a continuación, como “Disallow: /chat/” que prohíbe la entrada al chat.

- “#” permite añadir texto que no será interpretado por el robot.

EJEMPLO

User-agent: Googlebot
Disallow: /*.js$
Disallow: /2009/*
Disallow: /2010/*
Disallow: /articulos/*/pagina/*