Tutorial completo sobre los sitemap.xml

Publicado el 31 mayo 2011 por Pau Pastor López @SeoWebConsultor

Es requisito fundamental para la optimización de un sitio web y la búsqueda de enlaces que aumenten la importancia del mismo, que todas las páginas del sitio web estén indexadas en los motores de búsqueda.

Las arañas de los buscadores rastrearán la página que se añada a su índice en busca de enlaces que lleven a otras páginas web (del propio sitio web o externas), de esta forma, la araña del buscador indexará todas las páginas web del sitio si todas están bien conectadas entre ellas, no presentan errores en sus enlaces o links rotos, y en un lenguaje informático que sean capaces de entender.

No siempre es el caso, y como vía alternativa para asegurar la indexación de todas las páginas del sitio web, existen los “Sitemap.xml”.


Un sitemap.xml es un archivo XML que contiene una lista de las páginas del sitio junto con información adicional que indica con qué frecuencia la página cambia sus contenidos, cuándo fue su última actualización y qué importancia tiene con respecto a las demás páginas del sitio web.

El protocolo Sitemap.xml se construye con etiquetas XML (Tags) incluidas en un archivo con codificación UTF-8. Los valores de datos deben utilizar códigos de escape para ciertos caracteres especiales, tal como se acostumbra en HTML.

Por ejemplo, las comillas dobles (“) deben ser reemplazadas por " y los signos menor (<) y mayor (>) por < y > respectivamente.


EL SITEMAP.XML DEBE:

  • Comenzar con una etiqueta de apertura <urlset> y terminar con una de cierre </urlset>
  • Especificar el protocolo estándar al que responde dentro de la etiqueta de apertura <urlset> (ver en el ejemplo)
  • Incluir una entrada <url> por cada dirección URL (que corresponderá a cada una de las páginas del sitio) como nodo XML padre.
  • Incluir un nodo XML hijo <loc> para cada dirección URL (cada nodo XML padre <url>).

EJEMPLO DE SITEMAP.XML

<?xml version=”1.0″ encoding=”UTF-8″?>

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″&gt;

<url>

<loc> http://www.dominio.com/ </loc>

</url>

<url>

<loc> http://www.dominio.com/perfil.htm </loc>

</url>

</urlset>

Cada URL puede contener nodos adicionales como son los siguientes:

<lastmod>Fecha</lastmod>
Fecha de la última modificación de la página.
Esta fecha debe expresarse en formato AAAA-MM-DD.
<changefrec>Frec</changefrec>
Indica la constancia con que la página cambia su contenido, y le dice al motor cada cuanto debería consultar la página para actualizar su índice. Se trata de un valor aproximado, y no obliga a la araña a consultarlo como se indique.

Los valores que puede tomar son los siguientes:

  • always (siempre, para páginas que cambian al entrar en ellas como las dinámicas)
  • hourly (cada hora)
  • daily (diariamente)
  • weekly (semanalmente)
  • monthly (mensualmente)
  • yearly (anualmente)
  • never (nunca, páginas archivadas)

<priority>Valor</priority>

Indica la importancia de cada página web con respecto a las demás. Evidentemente no servirá de nada poner en todas las páginas del sitio un valor alto, puesto que el valor numérico que se asigna no sirve para nada más que para establecer una jerarquía en el valor de las páginas web del sitio.

Puede tomar valores entre 0 y 1. Por defecto su valor será de 0.5

El motor de búsqueda de Google ofrece con sus herramientas para Webmasters la posibilidad de confeccionar un Sitemap.xml de forma sencilla. Se puede observar también en el siguiente ejemplo los nodos adicionales explicados.


EJEMPLO DE GOOGLE SITEMAP:

<?xml version=”1.0” encoding=”UTF-8”?>

<urlset xmlns=http://www.google.com/schemas/sitemap/0.84>

<url>

<loc> http://www.dominio.com/ </loc>

<last mod> 2010-03-04 </lastmod>

<changefreq> monthly </changefreq>

<priority> 0.9 </priority>

</url>

</urlset>


El archivo XML del Sitemap.xml se aloja en el servidor como un archivo más del sitio, aunque este no puede contener URL de otros archivos más genéricos que él.

Ej: Si el archivo del Sitemap.xml fuera http://www.dominiox.com/extension.htm, éste no podría contener http://www.dominiox.com.

Por ello es recomendable colocar sitemap.xml directamente en el root del sitio.

A partir de este punto solo queda enviar el sitemap a los buscadores, que generalmente disponen de una página específica para aceptarlo.

El formato Sitemaps 0.90 es aceptado por Google, Yahoo! y Microsoft.


Por otro lado, existen páginas web que pueden generar de forma automática un Sitemap.xml siguiendo unas instrucciones sencillas:


También podría interesarte :

Quizás te interesen los siguientes artículos :