¿Qué es el archivo robots.txt?
El archivo robots.txt es un archivo de texto que contiene instrucciones para los bots (principalmente rastreadores de motores de búsqueda) que intentan acceder a un sitio web. Define qué áreas del sitio los rastreadores tienen permitido o no permitido acceder. Puedes excluir fácilmente dominios completos, directorios completos, uno o más subdirectorios, o archivos individuales del rastreo de los motores de búsqueda utilizando este simple archivo de texto. Sin embargo, este archivo no protege contra el acceso no autorizado.
El archivo robots.txt se almacena en el directorio raíz de un dominio. Por lo tanto, es el primer documento que los rastreadores abren cuando visitan tu sitio. Sin embargo, el archivo no solo controla el rastreo. También puedes integrar un enlace a tu mapa del sitio (sitemap), que proporciona a los rastreadores de motores de búsqueda una visión general de todas las URLs existentes de tu dominio.
Cómo funciona el archivo robots.txt
En 1994, se publicó un protocolo llamado REP (Protocolo de Exclusión de Robots). Este protocolo establece que todos los rastreadores de motores de búsqueda (agentes de usuario) deben buscar primero el archivo robots.txt en el directorio raíz de tu sitio y leer las instrucciones que contiene. Solo entonces, los robots pueden comenzar a indexar tu página web. El archivo debe ubicarse directamente en el directorio raíz de tu dominio y debe estar escrito en minúsculas porque los robots leen el archivo robots.txt y sus instrucciones con sensibilidad a mayúsculas y minúsculas. Desafortunadamente, no todos los robots de motores de búsqueda siguen estas reglas. Al menos, el archivo funciona con los motores de búsqueda más importantes como Bing, Yahoo y Google. Sus robots de búsqueda siguen estrictamente las instrucciones del REP y del archivo robots.txt.
En la práctica, el archivo robots.txt puede utilizarse para diferentes tipos de archivos. Si lo usas para archivos de imagen, evita que estos archivos aparezcan en los resultados de búsqueda de Google. Los archivos de recursos no importantes, como archivos de script, estilo e imagen, también pueden bloquearse fácilmente con robots.txt. Además, puedes excluir páginas web generadas dinámicamente del rastreo utilizando comandos adecuados. Por ejemplo, las páginas de resultados de una función de búsqueda interna, las páginas con IDs de sesión o las acciones de usuario como los carritos de compras pueden bloquearse. También puedes controlar el acceso de los rastreadores a otros archivos no relacionados con imágenes (páginas web) utilizando el archivo de texto. De este modo, puedes evitar los siguientes escenarios:
- los robots de búsqueda rastrean muchas páginas web similares o no importantes
- se desperdicia innecesariamente tu presupuesto de rastreo
- tu servidor se sobrecarga por los rastreadores
Sin embargo, en este contexto, debes tener en cuenta que el archivo robots.txt no garantiza que tu sitio o páginas sub-páginas individuales no sean indexadas. Solo controla el rastreo de tu sitio web, pero no la indexación. Si no deseas que las páginas web sean indexadas por los motores de búsqueda, debes establecer la siguiente metaetiqueta en el encabezado de tu página web:
<meta name="robots" content="noindex">
Sin embargo, no deberías bloquear archivos que sean de alta relevancia para los robots de búsqueda. Ten en cuenta que los archivos CSS y JavaScript también deben estar desbloqueados, ya que se utilizan para el rastreo, especialmente por los robots móviles.
¿Qué instrucciones se utilizan en robots.txt?
Tu archivo robots.txt debe guardarse como un archivo de texto en formato UTF-8 o ASCII en el directorio raíz de tu página web. Debe haber solo un archivo con este nombre. Contiene uno o más conjuntos de reglas estructurados en un formato claramente legible. Las reglas (instrucciones) se procesan de arriba a abajo, distinguiendo entre mayúsculas y minúsculas.
Los siguientes términos se utilizan en un archivo robots.txt:
user-agent
: denota el nombre del rastreador (los nombres se pueden encontrar en la base de datos de Robots)disallow
: evita el rastreo de ciertos archivos, directorios o páginas weballow
: sobrescribe disallow y permite el rastreo de archivos, páginas web y directoriossitemap
(opcional): muestra la ubicación del mapa del sitio*
: representa cualquier cantidad de caracteres$
: representa el final de la línea
Las instrucciones (entradas) en robots.txt siempre consisten en dos partes. En la primera parte, defines a qué robots (user-agents) se aplica la siguiente instrucción. La segunda parte contiene la instrucción (disallow
o allow
). “user-agent: Google-Bot” y la instrucción “disallow: /clients/” significan que el bot de Google no tiene permitido buscar en el directorio /clients/. Si no se desea que todo el sitio web sea rastreado por un bot de búsqueda, la entrada es: “user-agent: ” con la instrucción “disallow: /”. Puedes usar el signo de dólar “$” para bloquear páginas web que tengan una cierta extensión. La declaración “disallow: /.doc$” bloquea todas las URLs con una extensión .doc. Del mismo modo, puedes bloquear formatos de archivo específicos en robots.txt: “disallow: /*.jpg$”.
Por ejemplo, el archivo robots.txt para el sitio web https://www.example.com/ podría verse así:
User-agent: *
Disallow: /login/
Disallow: /card/
Disallow: /fotos/
Disallow: /temp/
Disallow: /search/
Disallow: /*.pdf$
Sitemap: https://www.example.com/sitemap.xml
¿Qué papel juega robots.txt en la optimización de motores de búsqueda?
Las instrucciones en un archivo robots.txt tienen una fuerte influencia en el SEO (Optimización de Motores de Búsqueda), ya que el archivo te permite controlar los robots de búsqueda. Sin embargo, si los agentes de usuario se restringen demasiado con instrucciones de disallow
, esto podría tener un efecto negativo en el ranking de tu sitio web. También debes considerar que no clasificarás con las páginas web que hayas excluido con disallow
en robots.txt.
Antes de guardar el archivo en el directorio raíz de tu sitio web, debes verificar la sintaxis. Incluso errores menores pueden llevar a que los bots de búsqueda ignoren las reglas de disallow
y rastreen sitios web que no deberían ser indexados. Tales errores también pueden resultar en que las páginas ya no sean accesibles para los bots de búsqueda y que URLs completas no sean indexadas debido a disallow
. Puedes verificar la corrección de tu robots.txt utilizando Google Search Console. Bajo “Estado Actual” y “Errores de Rastreo”, encontrarás todas las páginas bloqueadas por las instrucciones de disallow
.
Al usar correctamente robots.txt, puedes asegurarte de que todas las partes importantes de tu sitio web sean rastreadas por los bots de búsqueda. En consecuencia, el contenido importante de tu página puede ser indexado por Google y otros motores de búsqueda.
Te podría interesar leer nuestro artículo: Cómo aprovechar al máximo el archivo .htaccess y cómo usarlo en tu sitio web
Algunos ejemplos para su aplicación
1- Para bloquear todos los bots que intenten acceder a tu sitio, el código del archivo robots.txt debería ser el siguiente:
User-agent: *
Disallow: /
2- Aquí si le quieres indicar al Googlebot que no rastree tu página de admin de WordPress:
User-agent: Googlebot
Disallow: /wp-admin/
3- Si deseas evitar que Googlebot acceda a todas las entradas de tu blog excepto a una:
User-agent: Googlebot
Disallow: /blog
Allow: /blog/ejemplo-post
4- El comando “crawl-delay” especifica un retraso de rastreo en segundos. Está pensado para evitar que los rastreadores sobrecarguen un servidor (es decir, que ralenticen tu web). Google ya no acepta este comando, pero otros buscadores como Bing y Yandex sí.
Si quieres que el rastreador espere 10 segundos después de cada acción de rastreo, debe configurar en tu robots.txt:
User-agent: *
Crawl-delay: 10
A tener en cuenta:
Los rastreadores leen de arriba a abajo y coinciden con el primer grupo de comandos más específico. Por tanto, empieza tu archivo robots.txt con user agents específicos, y luego pasa al comodín más general (*) que coincide con todos los rastreadores.
Dejamos aquí un ejemplo complejo de un robots.txt:
User-agent: Googlebot
Disallow: /clients/
User-agent: *
Disallow: /archive/
Disallow: /support/
Sitemap: https://www.yourwebsite.com/sitemap.xml
En el ejemplo de arriba, el archivo le indica al bot de Google que no puede rastrear el directorio /clients. Luego, le indicamos a todos los motores de búsqueda que los directorios /archive y /support no deben ser accedidos. Por último, añadimos el sitemap de nuestro sitio web, donde básicamente en dicho archivo “sitemap.xml” le indicamos a los motores de búsqueda donde sí queremos que los mismos rastreen o indexen.
Si te gustó este artículo, suscríbete a nuestro canal de YouTube para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en X (Twitter), Facebook e Instagram.