Todo sobre el archivo robots.txt

¿QUÉ ES EL ARCHIVO Y PARA QUÉ SIRVE?

Para empezar, es importante saber qué son los archivos robots.txt, o también conocidos como arañas o bots. Y bien, son archivos de texto públicos¹ con extensión .txt que creamos y que subimos al sitio web.

Es importantísimo tener una carpeta guardada con todos los archivos generados por esa página, entre ellos el robots.txt, el cual está compuesto básicamente por una lista de robots no admitidos. Con esto, podemos dar acceso a nuestra página de manera más selectiva e impedir que los robots de ciertos buscadores no rastreen contenido que deseamos que no sea indexado, con lo cual no aparecerá en los resultados posteriores a la búsqueda.

En resumen, somos nosotros los que decidimos quién entra y qué pueden o no ver²; aunque también tiene otras funcionalidades como:

  • Evitar que ciertas páginas sean accesibles para los buscadores a través de la indexación.
  • Bloquear el acceso a ciertos archivos.
  • Impedir la indexación de contenido duplicado.
  • Indicar la localización de los sitemaps (mapa del sitio web o, dicho de otra manera: listado de URL’s que componen una página y que queremos que sean indexadas para que así el buscador la rastree).

(*)¹Cualquier persona tecleando www.example.com/robots.txt puede acceder fácilmente a la información.
(*)²Con la creación de un índice podemos indicarle al buscador cuáles son las URL’s de la web que no deberían ser rastreadas.

 

 

¿CÓMO SE CREA EL ARCHIVO ROBOTS.TXT?

 

Ya tenemos claro qué es y sus distintas funcionalidades, pero, ¿cómo se genera un archivo de este tipo? Pues bien, antes que nada, debemos tener en cuenta que no es obligatorio, solo es necesario cuando queremos que cierta información no aparezca en los resultados del buscador.

La forma más sencilla es crearlo a mano mediante un documento de texto y subirlo junto con la raíz del dominio. Si, por ejemplo queremos visualizar el archivo robots.txt de la empresa DoctorSEO, sería tal que así:

 

Y en cuanto al documento de texto que debemos crear, las distintas estructuras que podría llegara a tener depende de si nuestro objetivo es bloquear o desbloquear cierto contenido. Esta sería su estructura:

 

 

  • User-agent:
  • Disallow:

 

  • User-agent:
  • Allow:

 

 

Para ello, debemos tener en cuenta una serie de comandos muy importantes:

  • User-agent o agente de usuario: nombre del robot al que aplicamos la regla.
  • Disallow: este comando indica al agente de usuario que no queremos que acceda a una URL, ni la rastree ni tampoco indexarla.
  • Allow: indicamos al rastreador del buscador que sí queremos que esa URL, directorio o subdirectorio sea desbloqueada y así rastreada e indexada.
  • Crawl-delay: este comando indica al robot el tiempo de espera en segundos entre página y página.
  • Sitemap: indica la ruta donde se puede encontrar un mapa del sitio en XML.

 

 

 

 

Debemos seguir también unas pautas a la hora de la creación de estos archivos, puesto que es crucial. Algunas de estas pautas son:

 

  • Respetar las minúsculas/mayúsculas, la puntuación y los espacios.
  • Cada grupo User-agent / Disallow debe estar separado por una línea en blanco.

 

Si quieres saber más sobre  robots.txt o tienes alguna consulta, no dudes en visitar nuestra página web. ¡Estaremos encantados!

 

 

 

REFERENCIAS:

Todo lo que Necesitas Saber Sobre el Archivo Robots.txt

Human Level – Qué es el archivo robots.txt

 

No Comments
 

Leave a Comment

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

¿Nos da un +1?

 

Información

+34 (958) 095800

hola@doctorseo.es

Calle Entrala y Durán, 13
Local 18015 Granada España

Enlaces

Certificados

Banner de Bing Ads

Últimos Tuits

© 2015 DoctorSEO. Todos los derechos reservados.