Portada » Todo lo que necesitas saber sobre el archivo Robots.txt en WordPress

Todo lo que necesitas saber sobre el archivo Robots.txt en WordPress

Q: ¿Cómo saber si una web tiene un archivo robots.txt?

Para verificar la existencia de un archivo robots.txt en un sitio web, ingresa la URL del sitio seguida de /robots.txt en tu navegador.

Q: ¿Dónde encontrar el archivo robots.txt?

El archivo robots.txt generalmente se ubica en el directorio raíz del sitio. Accede a él mediante la URL del sitio seguida de /robots.txt.

Q: ¿Cómo puedo verificar si mi archivo robots.txt está bien configurado?

Utiliza herramientas en línea como TechnicalSEO o Ryte para validar la configuración de tu archivo robots.txt.

Q: ¿Qué comandos son importantes en un archivo robots.txt?

Los comandos clave son User-agent, que define a qué robots se dirige la instrucción, y Disallow, que indica las rutas no rastreables. Allow permite el rastreo de contenido específico.

Q: ¿Qué errores suelen cometerse con el archivo robots.txt?

Un error común es usar robots.txt para evitar la indexación de páginas en Google. Para ello, es mejor usar la etiqueta meta noindex.

Q: ¿Cómo puedo crear o modificar un archivo robots.txt en WordPress?

Plugins como Yoast SEO, Rank Math y All in One SEO Pack permiten crear o modificar el archivo robots.txt en WordPress.

Q: ¿Cómo puedo ver mi archivo robots.txt en WordPress?

Accede a tu archivo robots.txt en https://tu-dominio.com/robots.txt o desde el panel de administración de WordPress si usas un plugin de SEO.

06 septiembre, 2023

Alejandro Frades

Todo lo que necesitas saber sobre el archivo Robots.txt en WordPress Modular

La optimización para motores de búsqueda (SEO) es una parte esencial en el desarrollo web, especialmente para sitios web construidos en WordPress. Uno de los elementos cruciales para controlar cómo interactúan los motores de búsqueda con tu sitio web es el archivo robots.txt. Este archivo permite controlar qué páginas de tu sitio web quieres bloquear o permitir para su rastreo . A través de este artículo, exploraremos cómo puedes crear y editar el archivo robots.txt en tu sitio WordPress.

Tabla de contenidos

¿Qué es el archivo Robots.txt y dónde se encuentra?

El archivo robots.txt es simplemente un archivo de texto colocado en la raíz de tu sitio web. Sirve como una especie de «mapa del sitio» para los motores de búsqueda, indicándoles qué áreas de tu sitio deben ser exploradas y cuáles no. Puedes encontrar este archivo accediendo al panel de control de tu hosting WordPress.

¿Cuándo es útil Implementar un archivo Robots.txt?

La utilización de un archivo robots.txt resulta útil cuando quieres bloquear el acceso a ciertas páginas o recursos en tu sitio. Por ejemplo, si tienes una carpeta que contiene archivos en desarrollo que no quieres que aparezcan en los resultados de búsqueda, puedes utilizar robots.txt para evitarlo.

¿Cómo puedo ver mi robots.txt?

Para ver el archivo robots.txt de tu sitio web, simplemente necesitas añadir /robots.txt al final de la URL de tu sitio web. Por ejemplo, si tu sitio web es https://www.ejemplo.com, puedes ver tu archivo robots.txt visitando https://www.ejemplo.com/robots.txt en tu navegador web.

Si te salta un error 404 , lo mas seguro es que no tengas, eso no significa que sea malo, simplemente que no tienes. El robots.txt es necesario SOLO cuando queremos bloquear el acceso del rastreo algunas paginas o sectores de la web.

Cómo crear, utilizar y actualizar un archivo robots.txt

Un archivo robots.txt es un archivo de texto que se encuentra en la raíz de un sitio web y que sirve para indicar a los rastreadores de los motores de búsqueda qué páginas pueden rastrear y cuáles no. Estos archivos se basan en un conjunto de comandos y directrices que los rastreadores deben seguir.

Crear un archivo robots.txt

Para crear un archivo robots.txt, siga estos pasos:

Abra un editor de texto plano, como el Bloc de notas en Windows o TextEdit en macOS.
Cree un nuevo archivo y guárdelo como «robots.txt».
Agregue los comandos y directrices que desee al archivo.

Código genérico :

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

Utilizar un archivo robots.txt

Una vez que haya creado un archivo robots.txt, debe subirlo a la raíz de su sitio web. Los rastreadores de los motores de búsqueda seguirán las instrucciones del archivo robots.txt cada vez que rastreen su sitio web.

Comandos y directrices de robots.txt

Los archivos robots.txt utilizan un conjunto de comandos y directrices para indicar a los rastreadores qué páginas pueden rastrear y cuáles no.

Comandos de robots.txt

Los comandos de robots.txt son instrucciones que los rastreadores deben seguir. Los comandos más comunes son:

User-agent: Indica el tipo de rastreador al que se aplica el comando. Por ejemplo, el comando User-agent: Googlebot se aplica al rastreador de Google.
Disallow: Indica al rastreador que no rastree la URL o el directorio especificado. Por ejemplo, el comando Disallow: /images/ indica al rastreador que no rastree el directorio /images/.
Allow: Indica al rastreador que rastree la URL o el directorio especificado. Por ejemplo, el comando Allow: /admin/ indica al rastreador que rastree el directorio /admin/.
Sitemap: Indica al rastreador la URL de un mapa del sitio web. Un mapa del sitio web es un archivo que proporciona una lista de todas las páginas de un sitio web.

Directrices de robots.txt

Las directrices de robots.txt son instrucciones que los rastreadores deben seguir, pero que no son tan estrictas como los comandos. Las directrices más comunes son:

Crawl-delay: Indica al rastreador la cantidad de tiempo que debe esperar entre cada solicitud. Por ejemplo, el comando Crawl-delay: 10 indica al rastreador que debe esperar 10 segundos entre cada solicitud.
Cache-control: Indica al rastreador cuánto tiempo debe almacenar en caché el contenido de una página. Por ejemplo, el comando Cache-control: max-age=300 indica al rastreador que debe almacenar en caché el contenido de una página durante 300 segundos.
Host: Indica al rastreador el nombre de host que debe utilizar para rastrear una página. Por ejemplo, el comando Host: www.example.com indica al rastreador que debe utilizar el nombre de host www.example.com para rastrear una página.

Actualizar un archivo robots.txt

Si modifica su sitio web, es importante actualizar su archivo robots.txt para reflejar los cambios. Para actualizar un archivo robots.txt, siga estos pasos:

Abra el archivo robots.txt con un editor de texto plano.
Haga los cambios necesarios.
Guarde los cambios y suba el archivo a la raíz de su sitio web.

Plugins para editar o acceder al robots.txt

Existen varios plugins en WordPress que te permiten crear o modificar el archivo robots.txt directamente desde el panel de administración. Aquí te describo cómo podrías hacerlo con algunos plugins populares:

Yoast SEO

Instala y activa el plugin Yoast SEO desde el panel de WordPress.
Navega hasta «SEO» en el menú lateral y luego selecciona «Herramientas».
Encuentra y selecciona la opción «Editor de archivos».
Aquí podrás ver tu archivo robots.txt actual y realizar modificaciones, o crear uno nuevo si no existe.

All in One SEO Pack

Instala y activa el plugin All in One SEO Pack.
En el menú lateral de WordPress, ve a «All in One SEO» y luego a «Editor de archivos».
Aquí podrás editar tu archivo robots.txt o crear uno nuevo.

Rank Math

Instala y activa el plugin Rank Math.
Ve a «Rank Math» en el menú lateral y luego selecciona «Herramientas».
Encuentra y selecciona «Editor de archivos».
Este es el lugar donde podrás modificar tu archivo robots.txt.

WP Robots Txt

Instala y activa el plugin WP Robots Txt.
Navega hasta «Configuración» y luego a «Lectura».
Verás una sección donde podrás editar tu archivo robots.txt.

Ejemplos de uso y reglas comunes en Robots.txt

Bloquear todas las imágenes

User-agent: *
Disallow: /images/

Este archivo robots.txt bloquea todo el contenido de imágenes en el sitio web.

Bloquear un directorio específico

User-agent: *
Disallow: /admin/

Este archivo robots.txt bloquea el directorio /admin/ en el sitio web.

Permitir un directorio específico

User-agent: *
Allow: /admin/

Este archivo robots.txt permite el directorio /admin/ en el sitio web.

Indicar el nombre de host

User-agent: *
Host: www.example.com

Este archivo robots.txt indica al rastreador que debe utilizar el nombre de host www.example.com para rastrear el sitio web.

Indicar la tasa de rastreo

User-agent: *
Crawl-delay: 10

Este archivo robots.txt indica al rastreador que debe esperar 10 segundos entre cada solicitud.

Indicar la duración del almacenamiento en caché

User-agent: *
Cache-control: max-age=300

Bloquear GPT

User-agent: GPTBot
Disallow: /

Bloquear todas las páginas que contengan la palabra «privado»

User-agent: *
Disallow: /*privado*/

Este archivo robots.txt bloquea todas las páginas que contengan la palabra «privado» en su URL.

Bloquear todas las páginas que contengan la extensión «.pdf»

User-agent: *
Disallow: /*.pdf$

Este archivo robots.txt bloquea todas las páginas que tengan la extensión «.pdf» en su URL.

Permitir todas las páginas que contengan la palabra «blog»

User-agent: *
Allow: /*blog*/

Permitir todas las páginas que tengan la extensión «.png» o «.jpg»

User-agent: *
Allow: /*.png$
Allow: /*.jpg$

Herramienta para verificar la correctitud de tu archivo robots.txt

TechnicalSEO Robots.txt Validator: Esta herramienta en línea es fácil de usar y ofrece un análisis detallado de tu archivo robots.txt. Puedes acceder a ella visitando TechnicalSEO Robots.txt Validator.
Google Search Console: Esta herramienta gratuita de Google te permite verificar diferentes aspectos de tu sitio web, incluido el archivo robots.txt. Simplemente inicia sesión con tu cuenta de Google y sigue las instrucciones para agregar tu sitio web. Robots Testing Tool
Ryte Free Tools: Ofrece una variedad de herramientas gratuitas para el análisis del sitio web, incluido un comprobador de robots.txt. Accede a la herramienta visitando Ryte Free Tools.

Cómo ver el archivo robots.txt de otros sitios web

El archivo robots.txt de un sitio web generalmente es de acceso público y se coloca en el directorio raíz del dominio. Puedes ver este archivo para cualquier sitio web siguiendo los pasos que se detallan a continuación:

Abrir el Navegador Web: Abre tu navegador web favorito.
Ingresar la URL del Sitio: Escribe la URL del sitio web del cual quieres ver el archivo robots.txt>. Asegúrate de llegar hasta el dominio, sin ninguna página o ruta adicional.
Añadir /robots.txtal Final de la URL: Una vez que estés en el dominio principal (por ejemplo, https://www.ejemplo.com), añade /robots.txt al final de la URL. Esto debería verse algo así: https://www.ejemplo.com/robots.txt.
Presiona Enter: Después de añadir /robots.txt, presiona Enter para cargar la página.

Si el sitio tiene un archivo robots.txt, deberías ser capaz de verlo. Si recibes un error 404, eso generalmente significa que el sitio no tiene un archivo robots.txt.

Error: Uso del archivo robots.txt para controlar la indexación en los resultados de búsqueda

El archivo robots.txt es útil para guiar a los rastreadores de motores de búsqueda sobre qué partes de un sitio web se pueden rastrear y cuáles no. Sin embargo, un error común es utilizar este archivo con la intención de evitar que ciertas páginas aparezcan en los resultados de búsqueda de Google u otros motores.

Si bien es cierto que un Disallow en el robots.txt evitará que los rastreadores visiten la página, esto no garantiza que la página no aparezca en los resultados de búsqueda. Es más, si hay enlaces externos que apuntan a la página, esta podría aparecer en los resultados con un título pero sin descripción meta.

¿Cómo solucionarlo?

Si realmente quieres que una página no aparezca en los resultados de búsqueda, lo más efectivo es utilizar una etiqueta noindex en el encabezado HTML de la página. Esta etiqueta le indica a los motores de búsqueda que no indexen la página, a diferencia del robots.txt, que simplemente le pide al rastreador que no la visite.

¿Qué hacer después de aplicar noindex?

Una vez que hayas aplicado la etiqueta noindex a las páginas que deseas excluir de los resultados de búsqueda, puedes utilizar herramientas como Google Search Console para verificar que Google ha rastreado y respetado la etiqueta noindex.

¿Puedo bloquear la URL después?

Una vez confirmado que la página ha sido desindexada, podrías añadir una directiva Disallow en el archivo robots.txt para que los rastreadores no visiten la página en el futuro. Sin embargo, hay que tener en cuenta que hacer esto podría hacer que la página vuelva a aparecer en los resultados de búsqueda si se eliminan las etiquetas noindex. Por lo tanto, si decides tomar este camino, es crucial mantenerse al tanto del estado de indexación de la página.

Otros errores comunes del uso de Robots.txt

Uso incorrecto de mayúsculas y minúsculas: Los comandos y las rutas en robots.txt son sensibles a mayúsculas y minúsculas. Por ejemplo, /Privado/ y /privado/ serían consideradas diferentes.
Sintaxis errónea: Un error muy común es escribir mal los comandos o usar una sintaxis incorrecta, lo que hace que los robots de búsqueda ignoren las directivas.
Bloqueo de recursos importantes: Algunos olvidan que bloquear ciertos archivos o directorios podría tener un impacto negativo en la indexación del sitio. Por ejemplo, si bloqueas tu hoja de estilos CSS, los motores de búsqueda podrían tener problemas para entender el diseño y la estructura del sitio.
Espacios adicionales o faltantes: Algunos robots son muy estrictos con los espacios en la sintaxis, por lo que un espacio extra o la falta de uno puede hacer que la directiva sea inválida.
No actualizar el archivo: Es común olvidar actualizar el robots.txt cuando se hacen cambios significativos en el sitio web, lo que podría resultar en problemas de indexación.
Orden incorrecto de las directivas: El orden en el que se colocan las reglas importa. Los robots de búsqueda leerán las reglas en el orden en que aparecen y aplicarán la primera regla que coincida.
Uso de directivas no estándar: Aunque algunas directivas como Crawl-delay o Noindex son utilizadas por algunos robots, no son estándar y podrían no ser reconocidas por todos.
Comandos contradictorios: Poner comandos que se contradicen entre sí en el mismo archivo puede confundir a los robots de búsqueda. Por ejemplo, utilizando Allow: y Disallow: en la misma ruta.
No incluir la ubicación del Sitemap: Es recomendable incluir la ubicación del archivo de mapa del sitio XML para facilitar el rastreo del sitio web.
Ignorar los comentarios: Usar comentarios (#) para documentar las reglas puede ser útil para futuras referencias, pero algunos editores olvidan que cualquier texto que siga al signo # en la misma línea será ignorado.

Fuentes Oficiales de Google sobre Robots.txt

Conclusiones finales

En resumen, el archivo robots.txt es una herramienta poderosa pero delicada que puede influir significativamente en cómo los motores de búsqueda interactúan con tu sitio web. Usarlo correctamente puede mejorar la eficiencia del rastreo y ayudar a dirigir la atención hacia las páginas que realmente importan. Sin embargo, un error en su configuración podría resultar en problemas de indexación o en la exposición de páginas que preferirías mantener privadas. Dado su impacto, es fundamental entender bien sus comandos, evitar errores comunes y hacer uso de las herramientas de verificación para asegurarse de que todo funciona como se espera.

Si quieres llevar el SEO de tu página WordPress al siguiente nivel, no dudes en consultar nuestra lista de los 5 mejores plugins de SEO para WordPress. En este artículo, encontrarás opciones de plugins que te permitirán no solo gestionar tu archivo robots.txt, sino también optimizar muchos otros aspectos importantes para el posicionamiento de tu sitio.

Preguntas Frecuentes sobre robots.txt

¿Cómo saber si una web tiene un archivo robots.txt?

Para saber si un sitio web tiene un archivo robots.txt, simplemente ve a tu navegador y escribe la URL del sitio web seguido de /robots.txt. Por ejemplo: https://www.ejemplo.com/robots.txt. Si aparece un archivo de texto, eso significa que el sitio web tiene un archivo robots.txt.

¿Dónde encontrar el archivo robots.txt?

Normalmente, el archivo robots.txt se coloca en el directorio raíz del sitio web. Se puede acceder a él escribiendo la URL del sitio web seguida de /robots.txt en la barra de direcciones de tu navegador.

¿Cómo puedo verificar si mi archivo robots.txt está bien configurado?

Puedes utilizar herramientas gratuitas en línea para validar la configuración de tu archivo robots.txt. Algunas opciones son TechnicalSEO y Ryte.

¿Qué comandos son importantes en un archivo robots.txt?

Los comandos más comunes y útiles son User-agent, que especifica a qué robots va dirigida la instrucción, y Disallow, que señala las rutas que no deben ser rastreadas. Allow es otro comando que indica explícitamente qué contenido puede ser rastreado.

¿Qué errores suelen cometerse con el archivo robots.txt?

Uno de los errores más comunes es utilizar el archivo robots.txt para evitar que ciertas páginas se indexen en los resultados de búsqueda de Google. Aunque puede prevenir el rastreo, no garantiza que la página no se indexe. Si quieres evitar la indexación, es mejor utilizar la etiqueta meta noindex.

¿Cómo puedo crear o modificar un archivo robots.txt en WordPress?

Hay varios plugins disponibles para WordPress que permiten crear o modificar fácilmente un archivo robots.txt. Algunos de los más populares son Yoast SEO, Rank Math y All in One SEO Pack.

¿Cómo puedo ver mi archivo robots.txt en WordPress?

Normalmente puedes ver tu archivo robots.txt navegando a https://tu-dominio.com/robots.txt. Si estás utilizando un plugin de SEO como Yoast, también puedes ver y editar el archivo desde el panel de administración de WordPress.

Autor