Robots txt no index

generador de robots.txt

La implicación del primer comentario en esa pregunta de Meta era que el archivo robots.txt existía pero era inaccesible (por cualquier razón), en lugar de no estar allí en absoluto. Eso podría causar algunos problemas a los rastreadores de la web, pero eso es una especulación.
El archivo Robots.txt es una convención estrictamente voluntaria entre los motores de búsqueda; son libres de ignorarlo o implementarlo de la manera que deseen. Dicho esto, salvo la araña ocasional que busca direcciones de correo electrónico o similares, casi todos lo respetan. Su formato y lógica son muy, muy simples, y la regla por defecto es permitir (ya que sólo se puede desautorizar). Un sitio sin un robots.txt será totalmente indexado.
(Además, me gustaría añadir que no tener un robots.txt también es un problema en el sentido de que no podrá proporcionar un sitemap para él. Recuerda que los sitemaps sólo se localizan o bien especificándolos en el archivo Robots.txt o bien mediante el envío directo a los buscadores, pero claro, esto último significa que tienes que hacerlo uno a uno, en lugar de que todos lo encuentren rápidamente.

robots.txt disallow all

La Norma de Exclusión de Robots es puramente consultiva, depende completamente de ti si la sigues o no, y si no estás haciendo algo desagradable lo más probable es que no pase nada si decides ignorarla.
Dicho esto, cuando sorprendo a los rastreadores que no respetan el robot.txt en los distintos sitios web a los que doy soporte, hago todo lo posible por bloquearlos, independientemente de que sean problemáticos o no. Incluso los rastreadores legítimos pueden hacer que un sitio se detenga con demasiadas solicitudes a recursos que no están diseñados para manejar el rastreo, por lo que le aconsejo encarecidamente que reconsidere y ajuste su rastreador para que respete plenamente el robots.txt.

noindex, nofollow

El robots.txt se encuentra en el directorio raíz de su sitio web. Si tiene un sitio web de WordPress, el archivo .htaccess y wp-config.php también se encuentran en esta carpeta. Sólo puede haber un robots.txt por dominio. Los subdominios tienen su propio documento.
Las páginas bloqueadas con Disallow no se rastrean y normalmente no se indexan. Esto significa también que estas páginas no transmiten ningún link juice. Así que si tienes una URL con muchos buenos backlinks, pero no quieres que se indexe, utiliza la etiqueta meta ‘noindex’ en su lugar.
La metaetiqueta ‘noindex’ se incrusta en el código HTML o en la cabecera de respuesta HTTP. Noindex» no prohíbe el rastreo por parte del bot, sino la inclusión de la URL en el índice del motor de búsqueda.

ejemplo de robots.txt

Estas instrucciones piden a los robots que se mantengan alejados de todas las páginas del sitio. La idea detrás de esta implementación es evitar que el contenido del entorno de ensayo sea indexado por los motores de búsqueda.
El breve y sencillo archivo robots.txt que vimos anteriormente obviamente no es el que se necesitará una vez que el nuevo sitio web entre en funcionamiento. El robots.txt «real» será un poco más complejo. Es una buena idea añadir ya este robots.txt final al entorno de ensayo, por las siguientes razones:
Un hábito muy similar (pero menos común) es establecer todas las páginas del entorno de ensayo como «noindex». De nuevo, la idea es evitar que se indexen, pero los problemas son los mismos que los descritos anteriormente:
Quieres ser capaz de comprobar qué páginas están correctamente configuradas como «noindex» antes de que el sitio web salga a la luz, o qué páginas necesitan ser configuradas como «noindex», pero aún no lo están. Y definitivamente no quiere que su nuevo sitio web salga a la luz con todas las páginas configuradas como «noindex».
Por supuesto, es muy importante asegurarse de que los motores de búsqueda no indexen su entorno de pruebas, pero bloquear todas las páginas mediante robots.txt o establecer todas las páginas como «noindex» no es la forma correcta de hacerlo. Los entornos de ensayo deberían estar protegidos con un nombre de usuario y una contraseña HTTP, o el acceso debería estar limitado a determinadas direcciones IP.

  Plantillas wordpress responsive español