¿Sabes que son los crawlers y como intervienen en tu sitio web?

Los crawlers también llamados rastreadores webs o indexadores, aunque muchos expertos en el tema los consideran como bots rastreadores. Estos son aplicaciones o programas informáticos que tienen la labor de analizar automáticamente las páginas webs conectadas a Internet, con la tarea de realizar copias de su página web para captar su información y así sea aprovechada por un motor de búsqueda.

¿Qué son exactamente los crawlers?

Los crawlers son programas automatizados que van explorando los sitios web en Internet, siguiendo enlaces y visitando páginas para recolectar información. Estas herramientas desempeñan un papel crucial en la indexación de contenido en los motores de búsqueda y en la recopilación de datos para diversas aplicaciones en línea.

Piensa por un momento que un crawler es un explorador virtual que sigue enlaces de página en página a lo largo de la web. Comienza su recorrido en una página web específica, generalmente la página de inicio de un sitio web, y luego sigue los enlaces que encuentra en esa página para acceder a otras páginas. Cada vez que llega a una nueva página, analiza su contenido, la estructura y los elementos, como textos, imágenes, enlaces y metadatos.

Funcionamiento de los crawlers

Básicamente, el funcionamiento de los crawlers es una simulación automatizada de cómo los humanos exploran la web, pero a una escala mucho mayor y de manera mucho más eficiente.

Primeramente, el proceso de rastreo comienza con la selección de una o varias URLs iniciales. Estas URL pueden ser la página de inicio de un sitio web o cualquier otra página relevante. La primera URL se coloca en la cola de rastreo.

El crawler descarga la página web usando solicitudes HTTP o HTTPS, igual que un navegador web. La página descargada incluye el código HTML, CSS, JavaScript y otros recursos necesarios.

Una vez en una página, el crawler identifica y sigue los enlaces internos y externos presentes en la página, analizando el código HTML. Esto implica identificar las etiquetas de enlace (<a>) y extraer las URLs asociadas. Estas URLs se agregan a la lista de URLs para luego rastrear y repetir el ciclo.

Mientras navega por las páginas, el crawler extrae información importante, como texto, imágenes, videos, enlaces y etiquetas HTML. Esta información se utiliza para construir un índice de contenido que los motores de búsqueda luego utilizan para ofrecer resultados de búsqueda relevantes.

Los crawlers suelen seguir las directrices establecidas en el archivo “robots.txt” de un sitio web. Este archivo indica qué partes del sitio son accesibles para el rastreo y cuáles deben ser excluidas. Es importante mencionar que los webmasters o responsables del sitio web pueden controlar los aspectos de cómo los crawlers interactúan con su página a través del archivo robots.txt.

Por su parte, la información recopilada por el crawler se envía a la base de datos del motor de búsqueda, donde se indexa y organiza. La indexación permite que los motores de búsqueda generen resultados precisos y relevantes cuando los usuarios realizan consultas de búsqueda.

Los crawlers también revisan sitios web periódicamente para asegurarse de que su índice de contenido esté actualizado. Esto es especialmente importante para sitios que agregan nuevo contenido con regularidad.

Importancia de los crawlers para el SEO

Los crawlers desempeñan un papel esencial en el mundo del SEO (Optimización de Motores de Búsqueda) para que los motores de búsqueda indexen y clasifiquen correctamente el contenido de un sitio web. Aquí te presento las principales razones por las cuales los crawlers son esenciales para el SEO:

  1. Los crawlers recorren la web y recopilan información de diferentes páginas. Esta información se utiliza para construir un índice, que es una base de datos organizada de contenido web. Cuando un usuario realiza una búsqueda, el motor de búsqueda puede acceder rápidamente a este índice para mostrar resultados relevantes.
  2. El objetivo principal del SEO es hacer que un sitio web sea visible y relevante en los resultados de búsqueda. Los crawlers juegan un papel crucial en esto al asegurarse de que las páginas se indexen correctamente y sean accesibles para los usuarios que buscan información relacionada.
  3. Estos bots rastreadores pueden acceder a áreas de la web que pueden no estar fácilmente accesibles para los usuarios, como enlaces profundos y páginas con contenido más profundo en la estructura del sitio. Esto garantiza que todo el contenido relevante sea rastreado e indexado.
  4. Los crawlers van visitando sitios web de manera regular para identificar cambios y nuevo contenido. Esto garantiza que los motores de búsqueda tengan información actualizada y precisa sobre el contenido de un sitio web.
  5. Los motores de búsqueda utilizan algoritmos para clasificar las páginas en función de su relevancia para ciertas palabras clave y consultas. Los datos recopilados por los crawlers, como contenido, etiquetas y enlaces, ayudan a los motores de búsqueda a determinar qué páginas son las más relevantes para ciertos términos de búsqueda.
  6. Los crawlers también pueden ayudar a identificar problemas técnicos en un sitio web, como enlaces rotos, problemas de velocidad de carga o errores de marcado. Solucionar estos problemas técnicos puede mejorar la experiencia del usuario y el rendimiento del sitio en los motores de búsqueda.
  7. Los crawlers también pueden utilizarse para rastrear y analizar la estrategia de SEO de la competencia. Esto puede proporcionar información valiosa sobre las palabras clave que utilizan, la estructura de su sitio y otras tácticas de optimización.
  8. Al rastrear un sitio web, los crawlers pueden ayudar a los webmasters a comprender cómo se relacionan las páginas entre sí y cómo fluye la estructura del sitio. Esto puede ayudar en la organización y navegación del sitio, lo que a su vez mejora la experiencia del usuario.

Crawlers y el archivo robots.txt

El archivo robots.txt es un archivo de texto que se coloca en la raíz del sitio y contiene directrices específicas para que los bots pueden rastrear partes del sitio y cuáles se deben evitar.  Este archivo es crucial para controlar cómo los bots rastreadores interactúan con un sitio web.

En palabras más simples, el archivo robots.txt actúa como un “semáforo” para los crawlers. Cuando un bot rastreador llega a un sitio web, primero busca y lee el archivo robots.txt. En este archivo, los propietarios del sitio pueden establecer reglas sobre qué partes del sitio pueden ser rastreadas y cuáles no.

El archivo robots.txt utiliza directivas para comunicar a los bots qué partes del sitio deben ser excluidas del rastreo. La directiva más común es “Disallow”, que indica que el bot no debe rastrear una determinada sección o página. Por ejemplo, si se establece “Disallow: /privado/”, los bots no rastrearán ninguna página que esté dentro del directorio “privado”.

Además de las directivas de exclusión, el archivo robots.txt también puede contener directivas de permiso, como “Allow”. Esto le dice a los bots que ciertas partes del sitio están permitidas para el rastreo, incluso si se ha establecido una directiva “Disallow” más amplia.

Aunque los bots rastreadores pueden respetar las directivas establecidas en el archivo robots.txt, no todos los bots cumplirán necesariamente con estas directivas. Los motores de búsqueda importantes, como Google, generalmente respetan estas directivas, pero es importante recordar que bots maliciosos o no autorizados pueden ignorarlas.

También hay otras formas de bloquearlo con el archivo .htaccess. Es importante saber que desde cPanel puedes hacer uso de la herramienta AWStats, que te permite visualizar algunos bots y rastreadores que llegan a tu sitio web.

Esperamos que este artículo le haya ayudado a conocer los que es un crawler, su funcionamiento y lo importante que puede ser para su sitio web.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de WordPress. También puede encontrarnos en  Twitter, Facebook e Instagram.

Robots.txt: Qué es y como funciona este archivo

El archivo robots.txt es una herramienta esencial para gestionar la forma en que los motores de búsqueda rastrean tu sitio web. Aprende cómo proteger tu contenido y optimizar tu sitio con nuestro artículo completo sobre el archivo robots.txt. ¡Descúbrelo ahora!

El archivo robots.txt es un archivo de texto que contiene instrucciones para los bots (principalmente rastreadores de motores de búsqueda) que intentan acceder a un sitio web. Define qué áreas del sitio los rastreadores tienen permitido o no permitido acceder. Puedes excluir fácilmente dominios completos, directorios completos, uno o más subdirectorios, o archivos individuales del rastreo de los motores de búsqueda utilizando este simple archivo de texto. Sin embargo, este archivo no protege contra el acceso no autorizado.

El archivo robots.txt se almacena en el directorio raíz de un dominio. Por lo tanto, es el primer documento que los rastreadores abren cuando visitan tu sitio. Sin embargo, el archivo no solo controla el rastreo. También puedes integrar un enlace a tu mapa del sitio (sitemap), que proporciona a los rastreadores de motores de búsqueda una visión general de todas las URLs existentes de tu dominio.

En 1994, se publicó un protocolo llamado REP (Protocolo de Exclusión de Robots). Este protocolo establece que todos los rastreadores de motores de búsqueda (agentes de usuario) deben buscar primero el archivo robots.txt en el directorio raíz de tu sitio y leer las instrucciones que contiene. Solo entonces, los robots pueden comenzar a indexar tu página web. El archivo debe ubicarse directamente en el directorio raíz de tu dominio y debe estar escrito en minúsculas porque los robots leen el archivo robots.txt y sus instrucciones con sensibilidad a mayúsculas y minúsculas. Desafortunadamente, no todos los robots de motores de búsqueda siguen estas reglas. Al menos, el archivo funciona con los motores de búsqueda más importantes como Bing, Yahoo y Google. Sus robots de búsqueda siguen estrictamente las instrucciones del REP y del archivo robots.txt.

En la práctica, el archivo robots.txt puede utilizarse para diferentes tipos de archivos. Si lo usas para archivos de imagen, evita que estos archivos aparezcan en los resultados de búsqueda de Google. Los archivos de recursos no importantes, como archivos de script, estilo e imagen, también pueden bloquearse fácilmente con robots.txt. Además, puedes excluir páginas web generadas dinámicamente del rastreo utilizando comandos adecuados. Por ejemplo, las páginas de resultados de una función de búsqueda interna, las páginas con IDs de sesión o las acciones de usuario como los carritos de compras pueden bloquearse. También puedes controlar el acceso de los rastreadores a otros archivos no relacionados con imágenes (páginas web) utilizando el archivo de texto. De este modo, puedes evitar los siguientes escenarios:

  • los robots de búsqueda rastrean muchas páginas web similares o no importantes
  • se desperdicia innecesariamente tu presupuesto de rastreo
  • tu servidor se sobrecarga por los rastreadores

Sin embargo, en este contexto, debes tener en cuenta que el archivo robots.txt no garantiza que tu sitio o páginas sub-páginas individuales no sean indexadas. Solo controla el rastreo de tu sitio web, pero no la indexación. Si no deseas que las páginas web sean indexadas por los motores de búsqueda, debes establecer la siguiente metaetiqueta en el encabezado de tu página web:

<meta name="robots" content="noindex">

Sin embargo, no deberías bloquear archivos que sean de alta relevancia para los robots de búsqueda. Ten en cuenta que los archivos CSS y JavaScript también deben estar desbloqueados, ya que se utilizan para el rastreo, especialmente por los robots móviles.

Tu archivo robots.txt debe guardarse como un archivo de texto en formato UTF-8 o ASCII en el directorio raíz de tu página web. Debe haber solo un archivo con este nombre. Contiene uno o más conjuntos de reglas estructurados en un formato claramente legible. Las reglas (instrucciones) se procesan de arriba a abajo, distinguiendo entre mayúsculas y minúsculas.

Los siguientes términos se utilizan en un archivo robots.txt:

  • user-agent: denota el nombre del rastreador (los nombres se pueden encontrar en la base de datos de Robots)
  • disallow: evita el rastreo de ciertos archivos, directorios o páginas web
  • allow: sobrescribe disallow y permite el rastreo de archivos, páginas web y directorios
  • sitemap (opcional): muestra la ubicación del mapa del sitio
  • *: representa cualquier cantidad de caracteres
  • $: representa el final de la línea

Las instrucciones (entradas) en robots.txt siempre consisten en dos partes. En la primera parte, defines a qué robots (user-agents) se aplica la siguiente instrucción. La segunda parte contiene la instrucción (disallow o allow). “user-agent: Google-Bot” y la instrucción “disallow: /clients/” significan que el bot de Google no tiene permitido buscar en el directorio /clients/. Si no se desea que todo el sitio web sea rastreado por un bot de búsqueda, la entrada es: “user-agent: ” con la instrucción “disallow: /”. Puedes usar el signo de dólar “$” para bloquear páginas web que tengan una cierta extensión. La declaración “disallow: /.doc$” bloquea todas las URLs con una extensión .doc. Del mismo modo, puedes bloquear formatos de archivo específicos en robots.txt: “disallow: /*.jpg$”.

Por ejemplo, el archivo robots.txt para el sitio web https://www.example.com/ podría verse así:

User-agent: *
Disallow: /login/
Disallow: /card/
Disallow: /fotos/
Disallow: /temp/
Disallow: /search/
Disallow: /*.pdf$

Sitemap: https://www.example.com/sitemap.xml

Las instrucciones en un archivo robots.txt tienen una fuerte influencia en el SEO (Optimización de Motores de Búsqueda), ya que el archivo te permite controlar los robots de búsqueda. Sin embargo, si los agentes de usuario se restringen demasiado con instrucciones de disallow, esto podría tener un efecto negativo en el ranking de tu sitio web. También debes considerar que no clasificarás con las páginas web que hayas excluido con disallow en robots.txt.

Antes de guardar el archivo en el directorio raíz de tu sitio web, debes verificar la sintaxis. Incluso errores menores pueden llevar a que los bots de búsqueda ignoren las reglas de disallow y rastreen sitios web que no deberían ser indexados. Tales errores también pueden resultar en que las páginas ya no sean accesibles para los bots de búsqueda y que URLs completas no sean indexadas debido a disallow. Puedes verificar la corrección de tu robots.txt utilizando Google Search Console. Bajo “Estado Actual” y “Errores de Rastreo”, encontrarás todas las páginas bloqueadas por las instrucciones de disallow.

Al usar correctamente robots.txt, puedes asegurarte de que todas las partes importantes de tu sitio web sean rastreadas por los bots de búsqueda. En consecuencia, el contenido importante de tu página puede ser indexado por Google y otros motores de búsqueda.

Te podría interesar leer nuestro artículo: Cómo aprovechar al máximo el archivo .htaccess y cómo usarlo en tu sitio web

Algunos ejemplos para su aplicación

1- Para bloquear todos los bots que intenten acceder a tu sitio, el código del archivo robots.txt debería ser el siguiente:

User-agent: *
Disallow: /

2- Aquí si le quieres indicar al Googlebot que no rastree tu página de admin de WordPress:

User-agent: Googlebot
Disallow: /wp-admin/

3- Si deseas evitar que Googlebot acceda a todas las entradas de tu blog excepto a una:

User-agent: Googlebot
Disallow: /blog
Allow: /blog/ejemplo-post

4- El comando “crawl-delay” especifica un retraso de rastreo en segundos. Está pensado para evitar que los rastreadores sobrecarguen un servidor (es decir, que ralenticen tu web). Google ya no acepta este comando, pero otros buscadores como Bing y Yandex sí.
Si quieres que el rastreador espere 10 segundos después de cada acción de rastreo, debe configurar en tu robots.txt:

User-agent: *
Crawl-delay: 10

A tener en cuenta:

Los rastreadores leen de arriba a abajo y coinciden con el primer grupo de comandos más específico. Por tanto, empieza tu archivo robots.txt con user agents específicos, y luego pasa al comodín más general (*) que coincide con todos los rastreadores.

Dejamos aquí un ejemplo complejo de un robots.txt:

User-agent: Googlebot
Disallow: /clients/
User-agent: *
Disallow: /archive/
Disallow: /support/
Sitemap: https://www.yourwebsite.com/sitemap.xml

En el ejemplo de arriba, el archivo le indica al bot de Google que no puede rastrear el directorio /clients. Luego, le indicamos a todos los motores de búsqueda que los directorios /archive y /support no deben ser accedidos. Por último, añadimos el sitemap de nuestro sitio web, donde básicamente en dicho archivo “sitemap.xml” le indicamos a los motores de búsqueda donde sí queremos que los mismos rastreen o indexen.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  X (Twitter)Facebook e Instagram.

¿Cómo borrar la memoria caché del navegador?

La caché del navegador acelera la navegación, pero borrarla puede resolver problemas de visualización y proteger tu privacidad.

La memoria caché del navegador es una función que acelera la navegación en línea al almacenar en caché las imágenes y los archivos de los sitios web que visitas con frecuencia. Sin embargo, a veces puede ser necesario borrar la memoria caché del navegador para resolver problemas de visualización o para proteger tu privacidad. Esto no solo acelera el proceso de carga, sino que también optimiza el uso de ancho de banda.

En este artículo, te mostraremos cómo borrar la memoria caché del navegador en los navegadores más populares.

  1. Abre Google Chrome y haz clic en los tres puntos verticales en la esquina superior derecha de la pantalla.
  2. Selecciona “Más herramientas” y luego “Borrar datos de navegación”.
  3. Selecciona el período de tiempo que deseas borrar y asegúrate de que la casilla “Imágenes y archivos almacenados en caché” esté marcada.
  4. Haz clic en “Borrar datos”.
  1. Abre Mozilla Firefox y haz clic en el botón de menú en la esquina superior derecha de la pantalla.
  2. Selecciona “Opciones” y luego “Privacidad y seguridad”.
  3. Desplázate hacia abajo hasta “Historial” y haz clic en “Eliminar datos de navegación”.
  4. Selecciona el período de tiempo que deseas borrar y asegúrate de que la casilla “Caché” esté marcada.
  5. Haz clic en “Eliminar ahora”.
  1. Abre Microsoft Edge y haz clic en los tres puntos horizontales en la esquina superior derecha de la pantalla.
  2. Selecciona “Configuración” y luego “Privacidad, búsqueda y servicios”.
  3. Desplázate hacia abajo hasta “Eliminar datos de navegación” y haz clic en “Elegir qué borrar”.
  4. Selecciona el período de tiempo que deseas borrar y asegúrate de que la casilla “Imágenes y archivos almacenados en caché” esté marcada.
  5. Haz clic en “Borrar ahora”.

Vista de Microsoft Edge.

No hay necesidad de preocuparse por eliminar los datos almacenados en caché, ya que no se eliminarán ni los datos personales ni la información relevante. La memoria caché del navegador simplemente almacena copias de archivos de páginas web que se han visitado anteriormente, lo que permite que el navegador cargue estos archivos más rápidamente en futuras visitas.

Borrar la memoria caché del navegador es una tarea sencilla que puede ayudarte a resolver problemas de visualización y a proteger tu privacidad en línea. Si tienes dificultades para borrar la memoria caché del navegador en tu navegador preferido, asegúrate de consultar la documentación oficial o buscar tutoriales en línea. ¡Espero que este artículo te sea útil! Si necesitas más ayuda, no dudes en preguntar.

También le podría interesar nuestro artículo: ¿Cómo refrescar la caché de tu navegador?

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  X (Twitter)Facebook e Instagram, además de LinkedIn.

¿Qué es SEO y cómo puede beneficiar a tu negocio?

En la actualidad, una presencia digital fuerte es vital para cualquier negocio, y el SEO es fundamental para conseguirlo. Analizaremos qué es el SEO, cómo ayuda a nuevos usuarios, webmasters y negocios de comercio electrónico, y las tendencias actuales en este ámbito.

Pero, ¿qué es exactamente el SEO y cómo puede ayudarte a destacar en el vasto mundo de Internet? En este artículo, exploraremos qué es el SEO, cómo puede beneficiar a nuevos usuarios, webmasters y negocios de comercio electrónico, y revisaremos algunas de las tendencias más recientes en este campo.

SEO, o Search Engine Optimization (Optimización para Motores de Búsqueda), es el conjunto de prácticas y técnicas utilizadas para mejorar la visibilidad de un sitio web en los resultados orgánicos de los motores de búsqueda como Google, Bing y Yahoo. El objetivo del SEO es aumentar la cantidad y calidad del tráfico hacia un sitio web a través de resultados de búsqueda no pagados.

Para los nuevos usuarios que se inician en el mundo digital, el SEO puede parecer un concepto abrumador. Sin embargo, es una herramienta invaluable para:

  1. Aumentar la visibilidad: Ayuda a que su sitio web aparezca en los primeros resultados de búsqueda, lo que incrementa la probabilidad de ser visto por potenciales clientes.
  2. Generar tráfico orgánico: Atrae visitantes que están buscando activamente información relacionada con sus productos o servicios, lo que puede traducirse en mayores conversiones.
  3. Construir credibilidad y confianza: Los sitios web que aparecen en los primeros lugares de los resultados de búsqueda suelen ser percibidos como más confiables y autoritativos.

Para los webmasters, el SEO es una herramienta esencial para:

  1. Mejorar la estructura del sitio: Las prácticas de SEO a menudo implican optimizar la estructura y el contenido del sitio, lo que mejora la experiencia del usuario.
  2. Monitorear y analizar el rendimiento: Herramientas como Google Analytics y Google Search Console permiten a los webmasters rastrear el rendimiento de su sitio y ajustar sus estrategias de SEO en consecuencia.
  3. Competir en el mercado: Con una estrategia de SEO bien ejecutada, incluso las pequeñas empresas pueden competir con grandes marcas en el espacio digital.

En el mundo del comercio electrónico, el SEO es fundamental para:

  1. Aumentar las ventas: Un mayor tráfico de calidad puede llevar a un aumento en las ventas y en el reconocimiento de la marca.
  2. Optimización de la experiencia del usuario: Las prácticas de SEO mejoran la usabilidad y navegabilidad del sitio, lo que puede llevar a una mayor satisfacción del cliente y fidelización.
  3. Reducción de costos publicitarios: A diferencia de los anuncios pagados, el tráfico orgánico es gratuito, lo que puede reducir significativamente los costos de adquisición de clientes.

Te podría interesar nuestro artículo: Cómo optimizar las imágenes para SEO

El mundo del SEO está en constante evolución. Algunas de las tendencias más recientes incluyen:

  1. Búsqueda por voz: Con el aumento de dispositivos como Google Home y Amazon Echo, la optimización para búsquedas por voz está cobrando relevancia.
  2. Contenido de calidad: Google premia cada vez más el contenido relevante y de alta calidad que proporciona un valor real a los usuarios.
  3. Experiencia móvil: Con más personas utilizando dispositivos móviles para navegar, la optimización para móviles es crucial.
  4. Inteligencia artificial y aprendizaje automático: Google y otros motores de búsqueda están utilizando IA y aprendizaje automático para entender mejor las consultas de los usuarios y ofrecer resultados más precisos.

El SEO es una herramienta poderosa que puede transformar la presencia en línea de tu negocio. Ya seas un nuevo usuario, un webmaster o una empresa de comercio electrónico, entender y aplicar las mejores prácticas de SEO puede llevarte a alcanzar tus objetivos digitales. Mantente al día con las últimas tendencias y adapta tus estrategias para seguir destacando en el competitivo mundo de los motores de búsqueda.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de WordPress. También puede encontrarnos en  TwitterFacebook e Instagram.

WordPress: Cómo hacer Copias de Seguridad vía FTP

En este artículo, descubrirás por qué es crucial hacer copias de seguridad de tu sitio WordPress mediante FTP. Aprenderás no solo la importancia de proteger tu sitio web y minimizar el tiempo de inactividad, sino también cómo realizar el procedimiento paso a paso y cómo restaurar tu sitio en caso de cualquier imprevisto.

Realizar copias de seguridad en WordPress mediante FTP es una práctica crucial para asegurar la protección y el buen funcionamiento de tu sitio web. Este método implica transferir todos los archivos y datos de tu instalación de WordPress a un lugar seguro en tu ordenador local, utilizando un cliente FTP (Protocolo de Transferencia de Archivos). El proceso abarca la copia de los archivos del sitio web (temas, plugins, medios, entre otros) y la exportación de la base de datos que almacena todo el contenido y las configuraciones de tu sitio.

Hacer una copia de seguridad de tu sitio WordPress es crucial por diversas razones:

  1. Protección contra pérdida de datos: En caso de problemas técnicos, ataques cibernéticos o errores humanos, una copia de seguridad te permite restaurar tu sitio de manera rápida.
  2. Actualizaciones seguras: Antes de actualizar plugins, temas o la versión de WordPress, contar con una copia de seguridad garantiza que puedes revertir los cambios si algo sale mal.
  3. Recuperación ante ataques: Si tu sitio es hackeado, una copia de seguridad te permite restaurar una versión limpia del sitio, reduciendo el tiempo de inactividad.
  4. Tranquilidad: Saber que dispones de una copia de seguridad actualizada te proporciona tranquilidad y te permite concentrarte en el crecimiento de tu sitio.

Antes de comenzar, debemos tener en cuenta los siguientes requisitos:

  • Cliente FTP (como FileZilla)
  • Credenciales FTP (proporcionadas por tu proveedor de hosting)
  • Acceso al panel de control (necesario para acceder a PHPMyAdmin)

PASOS:

  1. Conéctese al servidor vía FTP.

Introduce las credenciales FTP (host, nombre de usuario y contraseña) y conéctate al servidor. Es importante obtener estas credenciales desde la sección correspondiente en el panel de control de tu proveedor de hosting.

Normalmente, el host es tu propio dominio. El nombre de usuario y contraseña puede usar los mismos que usa para loguearse a su panel de control; salvo que haya creado algún usuario de FTP específico para utilizar.

En (1) colocaremos el host. En (2) se pone el usuario y en (3) la password correspondiente. En el punto (4) se coloca el puerto, el cual generalmente suele ser 21.

En el panel de FileZilla, navega a la carpeta raíz de tu instalación de WordPress.
En cPanel, dicha carpeta está en: /home/usuariocpanel/public_html
En Plesk, se encuentra en: /Directorio Principal/httpdocs
En HestiaCP, lo verá en: /home/usuariohestia/web/nombredeldominio/public_html

2. Seleccionar y descargar los archivos de WordPress.

  • Selecciona todas las carpetas y archivos dentro del directorio de WordPress (incluyendo wp-admin, wp-content, wp-includes y los archivos en el directorio raíz).
  • Arrastra los archivos seleccionados desde el panel del servidor (a la derecha) al panel local (a la izquierda) en FileZilla. Esto iniciará la descarga de todos los archivos a tu ordenador.
  • Crea una carpeta en tu ordenador para almacenar la copia de seguridad, por ejemplo, backup-wordpress-[fecha].
  • Mueve todos los archivos descargados desde el servidor FTP.

3. Guardar la Base de Datos.

Los archivos del sitio no incluyen la base de datos, la cual es crucial para el funcionamiento del sitio.
Ahora detallaremos el proceso para descargar la base:

Acceder a phpMyAdmin:

  • Inicia sesión en tu panel de control de hosting (como cPanel, HestiaCP o Plesk).
  • Busca la sección de bases de datos y selecciona phpMyAdmin.

Seleccionar la base de datos de WordPress:

  • En phpMyAdmin, en la columna de la izquierda, selecciona la base de datos que usa tu instalación de WordPress.

Exportar la base de datos:

  • Haz clic en la pestaña «Exportar» en la parte superior.

  • Selecciona el método «Rápido» y el formato «SQL».
  • Haz clic en «Continuar o GO» para descargar el archivo de la base de datos a tu ordenador.
  • Para finalizar correctamente este proceso, recomendamos guardar la copia de la base de datos (archivo SQL) dentro del mismo directorio en donde guardaste los datos del sitio.

Una vez que hayas finalizado todos los pasos para crear una copia de seguridad, a continuación explicaremos cómo restaurar esa copia.

Subir los archivos:

  • Conéctate a tu servidor FTP usando FileZilla de la misma forma que detallamos en los pasos anteriores.
  • Sube los archivos de tu copia de seguridad desde tu ordenador al directorio raíz de WordPress en el servidor.

Restaurar la base de datos:

  • Accede a phpMyAdmin en tu panel de control de hosting como lo explicamos en el paso anterior.
  • Selecciona la base de datos de WordPress.
  • Usa la opción «Importar» para subir el archivo SQL de la copia de seguridad.
  • Selecciona el archivo que se encuentra en tu PC; deja las demás opciones como están por defecto y haz clic sobre el botón “Importar”.

Te podrían interesar conocer nuestros planes de WordPress Hosting.

Resumen

Hacer una copia de seguridad de tu sitio WordPress mediante FTP es crucial para proteger tu sitio web. Este procedimiento asegura que puedas restaurar tu sitio en caso de cualquier imprevisto, manteniendo tus datos seguros y reduciendo al mínimo el tiempo de inactividad. Realiza copias de seguridad de manera regular y conserva múltiples versiones para garantizar una recuperación eficiente cuando sea necesario.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  X (Twitter), Facebook e Instagram, además de LinkedIn.

Maximizando la configuración del archivo local.cf en SpamAssassin

Guía para configurar el archivo local.cf en SpamAssasin

El correo electrónico sigue siendo una herramienta fundamental en la comunicación moderna, pero también es una puerta abierta para el correo no deseado o “spam”. Para combatir este problema, herramientas como SpamAssassin se han vuelto indispensables. Una parte crucial de optimizar SpamAssassin radica en la configuración adecuada del archivo local.cf. En este artículo, exploraremos los pasos esenciales para personalizar esta configuración y mejorar la eficacia del filtrado de spam.

El archivo local.cf es fundamental para optimizar el filtrado de correo no deseado y personalizar las reglas según las necesidades específicas de tu sistema.

El archivo local.cf es donde se encuentran las configuraciones específicas del usuario para SpamAssassin. Estas configuraciones determinan cómo SpamAssassin evalúa y clasifica los correos electrónicos entrantes.

Conocer en detalle este archivo le servirá para configurarlo en nuestros servidores con HestiaCP.

Vista del archivo local.cf desde el Panel de Control de Hestia.

  1. Ubicación del Archivo: El archivo local.cf generalmente se encuentra en el directorio /etc/mail/spamassassin/. Si no existe, puedes crearlo manualmente. En el caso de servidores con panel de control Hestia se localizan en /etc/spamassassin/.
  2. Editar con un Editor de Texto: Utiliza un editor de texto como Nano o Vim para abrir el archivo local.cf. Puedes usar el siguiente comando en la terminal:
    nano /etc/mail/spamassassin/local.cf. Desde el panel de control Hestia los puedes realizar directamente desde la Configuración del Servidor.
  3. Habilitar o deshabilitar reglas:  Puedes comentar o descomentar reglas específicas para activarlas o desactivarlas. Ya que muchas de sus funciones vienen comentadas de forma predeterminada. Por ejemplo:
    #Descomentar para habilitar la regla
    #rewrite_header Subject ****SPAM****
  4. Configuraciones Clave:
    • Score Threshold: Este es el puntaje mínimo necesario para que un correo electrónico sea marcado como spam. Ajusta este valor según tus preferencias. Por ejemplo:
      required_score 5.0
    • Reglas de Whitelist y Blacklist: Puedes especificar direcciones de correo electrónico que siempre deben ser aceptadas o rechazadas. Por ejemplo:
      whitelist_from correo@ejemplo.com
      blacklist_from spam@ejemplo.com
    • Configuraciones de Tests: SpamAssassin utiliza una variedad de pruebas para determinar si un correo electrónico es spam. Puedes habilitar, deshabilitar o ajustar estas pruebas según tus necesidades. Por ejemplo, darle un valor de 3.0 a lista negra de URIBL (Universal Realtime Blackhole List) o un puntaje de 2.0 a los correos que contienen únicamente imágenes y muy poco contenido de texto.
      score URIBL_BLACK 3.0
      score HTML_IMAGE_ONLY_08 2.0
  5. Agregar reglas personalizadas: Puedes crear tus propias reglas personalizadas y agregarlas al archivo local.cf. Por ejemplo:
    #Regla personalizada para detectar correos con "Viagra" en el asunto
    body VIAGRA_SUBJECT /Viagra/i
    score VIAGRA_SUBJECT 5.0
  6. Guardar y Salir: Una vez que hayas realizado los ajustes necesarios, guarda los cambios y cierra el editor de texto.
  7. Reiniciar SpamAssassin: Para aplicar las nuevas configuraciones, reinicia el servicio de SpamAssassin. Puedes hacerlo con el siguiente comando:
    systemctl restart spamassassin
    Si los cambios los realizas desde HestiaCP, simplemente al guardar el archivo con el check de “Reiniciar” tildado, para que este se reiniciara automáticamente.

Para más información valiosa sobre este temas puede consultar su documentación oficial en spamassassin.apache.org

Configurar el archivo local.cf en SpamAssassin es un paso fundamental para mejorar la eficacia del filtrado de spam. Al ajustar las configuraciones según tus necesidades específicas, puedes reducir significativamente la cantidad de correo no deseado que llega a tu bandeja de entrada, manteniendo así tu experiencia de correo electrónico limpia y segura.

¡Explora y experimenta con las diferentes opciones disponibles en local.cf para encontrar la combinación perfecta que se adapte a tus requisitos de seguridad y preferencias personales!

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  X (Twitter)Facebook e Instagram.

Fuente de imagen: pixabay.com

Lista de Verificación para la Configuración Inicial de WordPress

Logo de WordPress

Si has decidido utilizar WordPress para tu sitio web, es crucial llevar a cabo una serie de configuraciones iniciales antes de comenzar a diseñar y añadir plugins. Aquí tienes una lista de verificación completa, además de información adicional sobre temas relacionados para asegurar que tu sitio esté optimizado desde el principio.

En primera instancia, lo primordial es informar a los motores de búsqueda que no indexen nuestro sitio. Para hacerlo, simplemente:

  • Accede a “Ajustes” > “Lectura”.
  • Marca la opción “Pedir a los motores de búsqueda que no indexen este sitio”.

Recuerda desactivar esta opción una vez hayas finalizado el diseño de tu web para asegurarte de que tu sitio sea visible para los motores de búsqueda.

Es crucial realizar una limpieza inicial del contenido preinstalado. Por ejemplo, en WordPress, suele haber una entrada estándar titulada “Hello World!”. Eliminar esta entrada es esencial, ya que si permanece pública, podríamos terminar compitiendo con otros sitios que no la han eliminado al desactivar la indexación de motores de búsqueda.

Se aconseja eliminar páginas que vengan de manera predeterminada. De igual forma, es importante eliminar plugin que no sean necesarios y que no los tengas que utilizar.

Sabías que dentro de nuestros de servicio de hosting ofrecemos servidores dedicados para WordPress con tecnología LiteSpeed.

Ahora nos dirigimos a la sección de “Ajustes”. En esta área, específicamente en “Ajustes Generales”, podemos personalizar aspectos clave de nuestro sitio web, como el título, la descripción, el horario y el idioma.

Si tenemos la intención de mantener un blog con publicaciones, debemos dirigirnos a “Ajustes de Escritura”. Aquí, tenemos la opción de cambiar el formato de entrada predeterminado según nuestras preferencias.

Es importante tener en cuenta que, por defecto, la página de inicio en WordPress es la página de entradas. Sin embargo, si deseamos modificar esto, primero necesitamos crear nuestra propia página de inicio. Luego, en la sección de “Ajustes de Lectura”, podemos seleccionar una página estática como nuestra página de inicio personalizada. Además, aquí también podemos especificar qué página deseamos que sirva como la página de entradas del sitio.

Te recomiendo desactivar los comentarios. Puedes hacerlo fácilmente yendo a la sección de “Ajustes”, luego seleccionando “Comentarios” y desactivando la opción que permite enviar comentarios en nuevas entradas. Igualmente, esta opción queda a tu criterio si necesitas interactuar con tus usuarios.

En cuanto a la estructura de enlaces permanentes, es importante elegir una que sea amigable para el SEO. Te sugiero seleccionar la opción de “nombre de la entrada” en la sección de “Ajustes de Enlaces Permanentes”. Esta elección suele ser la más recomendada para una configuración básica y amigable con los motores de búsqueda. Sin embargo, si prefieres ordenar tus enlaces por categorías, puedes optar por una estructura personalizada.

Por último, pero no menos importante, no olvides configurar la página de privacidad de tu sitio. Esto se puede hacer fácilmente en la sección de “Ajustes de Privacidad”. Es fundamental seleccionar la página adecuada para garantizar que tu sitio cumpla con las políticas de privacidad y protección de datos.

Una vez que hayamos tomado una decisión, en cuanto al tema que vamos a utilizar para nuestro sitio, procedemos a instalarlo y eliminamos cualquier tema preinstalado que no vayamos a utilizar. Esto nos ayudará a liberar espacio en el servidor y mantener una instalación ordenada y eficiente.

Recuerda que, si solo vamos a utilizar un tema, no tiene sentido ocupar espacio con otros temas que no necesitamos. Además, es recomendable instalar un tema hijo para realizar cualquier modificación personalizada sin afectar al tema principal.

Ver nuestro artículo: Mejores prácticas para optimizar el rendimiento de WordPress

Esperamos que esta guía te haya proporcionado la información necesaria para realizar una configuración inicial completa y comprender las diversas funciones de WordPress. Desde la configuración de la indexación de motores de búsqueda hasta la personalización de temas y ajustes de privacidad, hemos cubierto una amplia gama de aspectos importantes para asegurar que tu sitio esté optimizado y listo para su lanzamiento. Con estos conocimientos, podrás aprovechar al máximo tu experiencia con WordPress y crear un sitio web exitoso y funcional.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  X (Twitter)Facebook e Instagram.

Fuente: Blog WordPress

¿Cómo refrescar la caché de tu navegador?

Su navegador posee una carpeta en la cual ciertos ítems que han sido bajados y guardados para su uso en el futuro. Imágenes (como íconos y botones), fotos e inclusive sitios webs enteros son ejemplos de ítems que son guardados o cacheados. Cuando visita un sitio web, su navegador controla si existen copias de los archivos de la página ya guardados en la caché. Si es así, esto evitará que se baje todo el contenido de la página y que la misma cargue más rápido.

Refresco de caché.

A continuación dejaremos algunos ejemplos de como liberar la caché en los navegadores más conocidos.

Existen dos caminos para llegar el mismo punto en Chrome.

Forma uno:

Vaya hasta el extremo derecho en su navegador y haga clic sobre el botón con los tres puntos. Es el paso marcado como punto 1 en la imagen anterior.
Selecciones luego Historial (2); y nuevamente Historial (3). Puede obviar todos estos pasos usando la combinación de teclas Ctrl+H.

En la nueva pestaña que se abre, vaya y haga clic sobre el punto 4 en “Borrar datos de navegación”.

Estamos ahora en la pantalla final para poder borrar el caché de su Google Chrome. En el punto 5 puede seleccionar el lapso de tiempo a borrar: desde las últimas horas, un par de días o la totalidad de su caché.
En el punto 6 selecciona qué desea borrar. Y finaliza la operación de refresco de caché haciendo clic en el botón del punto 7.

Forma dos:

Vaya hasta el extremo derecho en su navegador y haga clic sobre el botón con los tres puntos. Es el paso marcado como punto 1 en la imagen anterior.
Haga clic en Configuración, como marca el punto 2.

Haga clic entonces en el punto 3: Privacidad y seguridad.
Luego, seleccione “Borrar datos de navegación” como indica el punto 4.
Se abrirá nuevamente la pantalla que detallamos anteriormente:

En el punto 5 puede seleccionar el lapso de tiempo a borrar: desde las últimas horas, un par de días o la totalidad de su caché.
En el punto 6 selecciona qué desea borrar. Y finaliza la operación de refresco de caché haciendo clic en el botón del punto 7.

En el navegador, diríjase al extremo derecho del mismo y haga clic en el botón con las tres líneas, como marca el punto 1 en la imagen anterior. Ahora debe ir al punto 2 de la imagen y seleccionar Historial.

El paso anterior lo redirigirá a la pestaña Historial. Ahora debe seleccionar, como indica el punto 3, “Limpiar historial reciente…“.

Ahora, en el punto 4 podrá seleccionar el lapso de tiempo que desea borrar de la caché. Este período puede ser desde la última hora de navegación, un par de días o todo el historial.
En el punto 5 puede seleccionar qué contenido de navegación quiere borrar.
En el punto 6 puede eligir si quiere eliminar las configuraciones que haya guardado en los sitios web que visita.
Haciendo clic en el botón marcado en el punto 7 procede a borrar la caché en su navegador Mozilla Firefox.

En el navegador, diríjase al extremo derecho del mismo y haga clic en el botón con los tres puntos, como marca el punto 1 en la imagen anterior.
Luego vaya al punto 2, “Historial” y haga clic allí. Puede obviar este paso usando la combinación de teclas Ctrl+H.

En la próxima pestaña que se abre, haga clic sobre “Borrar Historial“, marcado aquí en el punto 3.

Ya en esta parte final, en el punto 4 seleccionaremos que deseamos borrar del historial de navegación. Limpiaremos la caché usando el botón “Borrar” que está marcado en el punto 5.

Esperamos que este artículo le haya ayudado a entender un poco el tema de la caché en su navegador y como puede borrarlo con unos sencillos pasos. 

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  Twitter, Facebook e Instagram.

¿Cómo liberar espacio de la cuenta de correo predeterminada de nuestro hosting?

A la hora de administrar nuestro sitio web, muchas veces hemos entrado a verificar el espacio de nuestras cuentas de email y nos encontrado con una cuenta que no posee un @ (arroba) y tampoco tiene presente nuestro dominio. Pero por alguna razón tienen una etiqueta que dice “Sistema”.

Esta cuenta no es más que la cuenta de correo predeterminada de nuestro sitio web. Pero ¿Qué significa esto? La cuenta predeterminada es la encargada de recibir todos esos correos electrónicos que no son válidos para el dominio principal del sitio web.

Para entender un poco mejor lo antes mencionado, vamos a ejemplificar. Digamos que usted tienen una cuenta de correo electrónico usuario@ejemplo.com y un cliente o un remitente escribe a usuario_1@ejemplo.com, la dirección predeterminada será la encargada de recibir este correo. En otras palabras, la cuenta predeterminada puede recibir mensajes para sus direcciones de correo electrónico existentes si contienen errores tipográficos u otros problemas. Otro ejemplo común, es maria.garcia@ejemplo.com es una cuenta real con más de 5gb de almacenamiento, y  otro remitente le escribe a maria_garcia@ejemplo.com, la respuesta a esto es que todo esos correos que sean enviados a maria_garcia@ejemplo.com llegaran a la cuenta predeterminada.

Ahora que ya sabemos que es y cómo funciona la cuenta predeterminada, debemos entender que esta cuenta, puede llegar almacenar muchos correos e ir ocupando espacio de nuestra cuota de hosting, limitando así este recurso valioso para nuestro sitio web. A continuación, te damos alternativas para poder eliminar estos megas que sobran.

La opción más rápida es entrar en “Consultar Email” por cpanel y usar el cliente de correo como Roundcube y eliminar todo lo que se pueda visualizar.

Otra forma para poder ver y analizar que vamos a borrar el contenido de la cuenta predeterminada de correo, debemos ir al botón “Administrar” que se ubica al lado de cuenta predeterminada, junto con “Consultar Email” y “Conectar dispositivos”.

Luego podemos ver la siguiente pantalla.

Una vez ingresado podremos ver la siguiente pantalla. Donde se puede tomar acciones sobre algunos elementos de las cuentas de correo.

Otra opción para liberar un poco el espacio de las cuentas de correo es conectarse vía FTP, y verificar dentro de la carpeta /mail, se pueden visualizar dos carpetas /cur y /new eliminando el contenido de estas carpetas podemos liberar espacio en nuestro hosting. ATENCION, borrar solo el contenido de estas carpetas y NO las carpetas directamente, de igual forma, la carpeta /mail contienen el contenido de otras las otras cuentas de correo electrónico, así que tengan mucho cuidado a la hora de eliminar algún archivo fuera de las carpetas antes mencionada.

Para saber sobre la configuración de la cuenta predeterminada de correo electrónicos, será en una próxima entrega.

Esperamos que este artículo le haya ayudado a como administrar el espacio de nuestra cuenta de correo predeterminada. 

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  Twitter, Facebook e Instagram.

¿Cómo ver el consumo de ancho de banda de mi sitio web?

En esta oportunidad nos centraremos en conocer como ver y controlar el ancho de banda desde nuestros sitios web con cPanel (panel de control) y el Plesk. Ya que desde Sitios Hispanos muchos de nuestros planes de Web Hosting, el ancho de banda está limitado, sean para los planes Linux como también para los planes Windows.

Por si no sabías cPanel y Plesk, son los paneles de control más populares para administrar servidores donde se alojan nuestros sitios web. cPanel está desarrollado para la gran mayoría de servidores Linux, mientras que Plesk está orientado a esos servidores con Windows.

Mantener y gestionar adecuadamente el ancho de banda, puede ahorrarte costos extras, un mejor rendimiento, mantienen la experiencia del usuario y también posibilita que tu sitio web esté disponible. Recuerda que muchos de los sitios que ofrecen servicio de hosting web, cuentan con planes limitados en cuanto al ancho de banda y exceder estos límites implican costos extras del presupuesto, suspensión temporal del servicio. Administrar este recurso es esencial para garantizar un sitio web eficiente, rentable y confiable.

Para ello, vamos a conocer como ver desde nuestro panel de control, sea cPanel o Plesk.

cPanel

cpanel

Desde el cPanel se tienen varias opciones para ver el consumo del ancho de banda, la forma más rápida pero no tan detallada. En la página principal del panel de control, en el lado derecho se localiza un apartado llamado Estadísticas, donde muestra recursos como el Uso del disco, cantidad de dominio y subdominios, Alias y ancho de banda.

Otra alternativa, para ver el consumo del ancho de banda de nuestro sitio es ir al apartado “Ancho de banda” en la sección de Métricas.

Esta vez nos muestra las estadísticas del consumo de ancho de banda por protocolos como HTTP, FTP, IMAP, POP3 y SMTP. Nos muestra diferentes barras, para precisar el consumo de las últimas 24 horas, de la semana, incluso las del mes.

La otra alternativa más detalla es usar la herramienta AWStats, la cual hemos hablando en un anterior artículo.

Ver nuestro artículo: AWStats: Qué es y como leer las estadíticas de esta herramienta.

Plesk

Por su parte en Plesk, podemos ver el consumo de ancho de banda desde las Estadísticas web, que se localiza en la pagina principal.

Al igual que en cPanel, Plesk cuenta con una sección de Estadísticas desde el menú principal al lado izquierdo. Donde se podrá visualizar el consumo de los protocolos más usado en tu hosting como HTTP, FTP, IMAP/POP3 y SMTP.

Esperemos que este articulo le sea de utilidad a la hora de gestionar el consumo de su ancho de banda, ya sea desde un panel de control con cPanel o Plesk, y lo importante que puede ser su administración para minimizar algún inconveniente o incidente con el servicio de hosting.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales. También puede encontrarnos en  X (Twitter), Facebook e Instagram.