El Robots.txt o protocolo de exclusión de robots, sirve para evitar que los robots de los motores de búsqueda sean capaces de analizar parte o la totalidad de las páginas de un sitio web. Esta orden funciona a modo de recomendación, por lo que algunos robots podrán hacer caso omiso de ello.
Esto puede tener diferentes utilidades:
- Se utiliza en ocasiones para hacer algunas secciones privadas, aunque los archivos de robots.txt están disponibles de forma pública por lo que cualquier persona con un navegador y conocimientos informáticos medios puede acceder a dicha información.
En cuanto al posicionamiento web (SEO) se refiere:
- Sirve para optimizar específicamente el sitio para cada uno de los motores de búsqueda importantes, y excluir en el robots.txt la visita de los demás buscadores a los contenidos dirigidos a uno de ellos.
- Sirve para impedir el acceso de un robot a contenido duplicado, contenido al que se pueda acceder por diferentes vías. El contenido duplicado no gusta en absoluto a los buscadores y la eliminación del mismo hace que el que queda gana muchos puntos para su posicionamiento.
- Sirve para reducir la sobrecarga del servidor en los casos en los que algunos robots envían excesivas peticiones. Se puede averiguar revisando estadísticas. Se podría conseguir así:
User-agent: nombredelrobot
Crawl-delay: 30
- Sirve para fijar un sitemap en su interior. Ej:
Sitemap: http://www.posicionatuweb.com/sitemap.xml
- Sirve para prohibir zonas y que no aparezcan en los buscadores, cuando si nos interesa que las puedan ver los usuarios en la navegación.
A CONTINUACIÓN SE EXPLICA CÓMO SE CONSTRUYE UN FICHERO ROBOTS.TXT
- “User-agent” es el robot al que se le envía la orden, un * indica que la orden es para todos los robots.
- “Disallow: /” prohíbe la entrada al sitio indicado a continuación, como “Disallow: /chat/” que prohíbe la entrada al chat.
- “#” permite añadir texto que no será interpretado por el robot.
EJEMPLO
User-agent: Googlebot
Disallow: /*.js$
Disallow: /2009/*
Disallow: /2010/*
Disallow: /articulos/*/pagina/*