Por lo general, el
robots es un archivo de texto (txt) que indica a los rastreadores o arañas web el indexar determinadas secciones de tu sitio, con una sencilla lista de comandos para permitir o restringir el acceso:
Allow y Disallow . Es importante que analices que secciones de tu sitio deben ser privadas y cuales quieres que aparezcan en
Google y otros motores de búsqueda . Los rastreadores o crawlers más comunes son
Googlebot
, Googlebot-News, Googlebot-Image, Bingbot, Slurp, etc. Podemos utilizar diferentes reglas para cada uno de ellos o simplemente asignar los mismos permisos para todos, los rastreadores también se conocen como Agentes de Usuario (User Agent en Inglés), acá te dejo un ejemplo:
Ejemplo 1 de
archivo robots.txt . Indicando a TODOS los rastreadores indexar TODAS las secciones de mi sitio web, EXCEPTO la de inicio de sesión (login). User-Agent: * Allow: / Disallow: /login
Ejemplo 2 de archivo robots.txt. Indicando a GOOGLEBOT indexar TODAS las secciones de mi sitio web, EXCEPTO la de mi panel. User-Agent: Googlebot Allow: / Disallow: /panel
Ejemplo 3 de archivo
robots.txt . Comúnmente utilizado para sitios creados con
wordpress
indicando a TODOS los rastreadores indexar TODAS las secciones de mi sitio web o blog, EXCEPTO las secciones/carpetas de FEED, TRACKBACK, ADMINISTRADOR, CONTENIDO, LIBRERIAS y otras que no deben ser visibles para los usuarios. Y como extra le indico la ruta donde
se encuentra mi archivo SITEMAP
. User-agent: * Disallow: /feed/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /xmlrpc.php Disallow: /wp- Allow: /wp-content/uploads/ Sitemap:
http://posicionamiento.mx/sitemap.xml
Es muy sencillo crear el ROBOTS.TXT , solo no olvides utilizar la sintaxis correcta. Cualquier duda que tengas déjala en los comentarios y te ayudare.