Un archivo robotstxt bloquea el robot de google

Ejemplo de robots.txt

Robots.txt ayuda a controlar el rastreo de los robots de los motores de búsqueda. Además, el archivo robots.txt puede contener una referencia al sitemap XML para informar a los rastreadores sobre la estructura de URL de un sitio web. Las subpáginas individuales también pueden excluirse de la indexación utilizando la etiqueta meta robots y, por ejemplo, el valor noindex.
El llamado «Protocolo estándar de exclusión de robots» se publicó en 1994. Este protocolo establece que los robots de los motores de búsqueda (también: agente de usuario) buscan primero un archivo llamado «robots.txt» y leen sus instrucciones antes de comenzar la indexación. Por lo tanto, es necesario archivar un archivo robots.txt en el directorio raíz del dominio con este nombre exacto en minúsculas, ya que la lectura del texto de los robots distingue entre mayúsculas y minúsculas. Lo mismo se aplica a los directorios en los que se anota el robots.txt.
Cada archivo consta de dos bloques. En primer lugar, el creador especifica para qué agente(s) de usuario deben aplicarse las instrucciones. A continuación, hay un bloque con la introducción «Disallow», tras el cual se pueden enumerar las páginas que deben excluirse de la indexación. Opcionalmente, el segundo bloque puede consistir en la instrucción «allow» para complementarlo con un tercer bloque «disallow» para especificar las instrucciones.

Sintaxis de robots.txt

Esto ayuda a los sitios a evitar posibles problemas de seguridad y cualquier conflicto potencial que pueda dar lugar a que se indexen páginas que no tienen que aparecer en los resultados de búsqueda. Sin embargo, robots.txt también puede ser un medio eficaz.
Por ejemplo, en el ejemplo de archivo robots.txt anterior hay activos de codificación almacenados en la carpeta /cgi-bin del sitio web, por lo que añadir una línea de rechazo permite que los rastreadores observen que no hay activos dentro de esta carpeta que el sitio quiera indexar.
También puede designar dentro del archivo robots.txt los activos que desea evitar que aparezcan en los resultados de búsqueda, incluyendo imágenes específicas, archivos de vídeo y audio, así como bloquear archivos de imagen, script o estilo sin importancia (si cree que las páginas cargadas sin estos recursos no se verán afectadas significativamente por la pérdida).
Utilice el archivo robots.txt para gestionar el tráfico de rastreo y también para evitar que los archivos de imagen, vídeo y audio aparezcan en las SERP. Tenga en cuenta que esto no impedirá que otras páginas o usuarios enlacen a su imagen, vídeo o archivo de audio.

Generador de robots.txt

Un archivo robots.txt es un archivo de texto plano que especifica si un rastreador debe o no acceder a carpetas, subcarpetas o páginas específicas, junto con otra información sobre su sitio. El archivo utiliza el estándar de exclusión de robots, un protocolo establecido en 1994 para que los sitios web se comuniquen con los rastreadores y otros robots. Es absolutamente esencial que utilice un archivo de texto sin formato: La creación de un archivo robots.txt utilizando HTML o un procesador de textos incluirá un código que los rastreadores de los motores de búsqueda ignorarán si no pueden leer.
Cuando el propietario de un sitio quiere dar alguna orientación a los rastreadores web, coloca su archivo robots.txt en el directorio raíz de su sitio, por ejemplo, https://www.example.com/robots.txt. Los robots que siguen este protocolo buscarán y leerán el archivo antes de buscar cualquier otro archivo del sitio. Si el sitio no tiene un archivo robots.txt, el rastreador asumirá que el webmaster no ha querido dar ninguna instrucción específica y pasará a rastrear todo el sitio.
El agente de usuario es el nombre de la araña a la que se dirige, mientras que las líneas directivas proporcionan las instrucciones para ese agente de usuario concreto. La línea de agente de usuario siempre va antes de las líneas de directiva en cada conjunto de directivas. Un robots.txt muy básico tiene el siguiente aspecto:

Blogger personalizado de robots.txt

Bloquear páginas no públicas: A veces tienes páginas en tu sitio que no quieres que se indexen. Por ejemplo, puedes tener una versión de una página en fase de pruebas. O una página de inicio de sesión. Estas páginas deben existir. Pero no quiere que personas al azar aterricen en ellas. Este es un caso en el que se utiliza robots.txt para bloquear estas páginas de los rastreadores y bots de los motores de búsqueda.
Evitar la indexación de recursos: El uso de meta directivas puede funcionar tan bien como el Robots.txt para evitar que las páginas sean indexadas. Sin embargo, las meta directivas no funcionan bien para los recursos multimedia, como los PDF y las imágenes. Ahí es donde entra en juego robots.txt.
Además, si tiene miles de páginas que desea bloquear, a veces es más fácil bloquear toda la sección de ese sitio con robots.txt en lugar de añadir manualmente una etiqueta noindex a cada página.
Fuera de estos tres casos extremos, recomiendo utilizar las meta directivas en lugar de robots.txt. Son más fáciles de implementar. Y hay menos posibilidades de que ocurra un desastre (como bloquear todo el sitio).