¿Sabes que son los crawlers y como intervienen en tu sitio web?

Los crawlers también llamados rastreadores webs o indexadores, aunque muchos expertos en el tema los consideran como bots rastreadores. Estos son aplicaciones o programas informáticos que tienen la labor de analizar automáticamente las páginas webs conectadas a Internet, con la tarea de realizar copias de su página web para captar su información y así sea aprovechada por un motor de búsqueda.

¿Qué son exactamente los crawlers?

Los crawlers son programas automatizados que van explorando los sitios web en Internet, siguiendo enlaces y visitando páginas para recolectar información. Estas herramientas desempeñan un papel crucial en la indexación de contenido en los motores de búsqueda y en la recopilación de datos para diversas aplicaciones en línea.

Piensa por un momento que un crawler es un explorador virtual que sigue enlaces de página en página a lo largo de la web. Comienza su recorrido en una página web específica, generalmente la página de inicio de un sitio web, y luego sigue los enlaces que encuentra en esa página para acceder a otras páginas. Cada vez que llega a una nueva página, analiza su contenido, la estructura y los elementos, como textos, imágenes, enlaces y metadatos.

Funcionamiento de los crawlers

Básicamente, el funcionamiento de los crawlers es una simulación automatizada de cómo los humanos exploran la web, pero a una escala mucho mayor y de manera mucho más eficiente.

Primeramente, el proceso de rastreo comienza con la selección de una o varias URLs iniciales. Estas URL pueden ser la página de inicio de un sitio web o cualquier otra página relevante. La primera URL se coloca en la cola de rastreo.

El crawler descarga la página web usando solicitudes HTTP o HTTPS, igual que un navegador web. La página descargada incluye el código HTML, CSS, JavaScript y otros recursos necesarios.

Una vez en una página, el crawler identifica y sigue los enlaces internos y externos presentes en la página, analizando el código HTML. Esto implica identificar las etiquetas de enlace (<a>) y extraer las URLs asociadas. Estas URLs se agregan a la lista de URLs para luego rastrear y repetir el ciclo.

Mientras navega por las páginas, el crawler extrae información importante, como texto, imágenes, videos, enlaces y etiquetas HTML. Esta información se utiliza para construir un índice de contenido que los motores de búsqueda luego utilizan para ofrecer resultados de búsqueda relevantes.

Los crawlers suelen seguir las directrices establecidas en el archivo “robots.txt” de un sitio web. Este archivo indica qué partes del sitio son accesibles para el rastreo y cuáles deben ser excluidas. Es importante mencionar que los webmasters o responsables del sitio web pueden controlar los aspectos de cómo los crawlers interactúan con su página a través del archivo robots.txt.

Por su parte, la información recopilada por el crawler se envía a la base de datos del motor de búsqueda, donde se indexa y organiza. La indexación permite que los motores de búsqueda generen resultados precisos y relevantes cuando los usuarios realizan consultas de búsqueda.

Los crawlers también revisan sitios web periódicamente para asegurarse de que su índice de contenido esté actualizado. Esto es especialmente importante para sitios que agregan nuevo contenido con regularidad.

Importancia de los crawlers para el SEO

Los crawlers desempeñan un papel esencial en el mundo del SEO (Optimización de Motores de Búsqueda) para que los motores de búsqueda indexen y clasifiquen correctamente el contenido de un sitio web. Aquí te presento las principales razones por las cuales los crawlers son esenciales para el SEO:

  1. Los crawlers recorren la web y recopilan información de diferentes páginas. Esta información se utiliza para construir un índice, que es una base de datos organizada de contenido web. Cuando un usuario realiza una búsqueda, el motor de búsqueda puede acceder rápidamente a este índice para mostrar resultados relevantes.
  2. El objetivo principal del SEO es hacer que un sitio web sea visible y relevante en los resultados de búsqueda. Los crawlers juegan un papel crucial en esto al asegurarse de que las páginas se indexen correctamente y sean accesibles para los usuarios que buscan información relacionada.
  3. Estos bots rastreadores pueden acceder a áreas de la web que pueden no estar fácilmente accesibles para los usuarios, como enlaces profundos y páginas con contenido más profundo en la estructura del sitio. Esto garantiza que todo el contenido relevante sea rastreado e indexado.
  4. Los crawlers van visitando sitios web de manera regular para identificar cambios y nuevo contenido. Esto garantiza que los motores de búsqueda tengan información actualizada y precisa sobre el contenido de un sitio web.
  5. Los motores de búsqueda utilizan algoritmos para clasificar las páginas en función de su relevancia para ciertas palabras clave y consultas. Los datos recopilados por los crawlers, como contenido, etiquetas y enlaces, ayudan a los motores de búsqueda a determinar qué páginas son las más relevantes para ciertos términos de búsqueda.
  6. Los crawlers también pueden ayudar a identificar problemas técnicos en un sitio web, como enlaces rotos, problemas de velocidad de carga o errores de marcado. Solucionar estos problemas técnicos puede mejorar la experiencia del usuario y el rendimiento del sitio en los motores de búsqueda.
  7. Los crawlers también pueden utilizarse para rastrear y analizar la estrategia de SEO de la competencia. Esto puede proporcionar información valiosa sobre las palabras clave que utilizan, la estructura de su sitio y otras tácticas de optimización.
  8. Al rastrear un sitio web, los crawlers pueden ayudar a los webmasters a comprender cómo se relacionan las páginas entre sí y cómo fluye la estructura del sitio. Esto puede ayudar en la organización y navegación del sitio, lo que a su vez mejora la experiencia del usuario.

Crawlers y el archivo robots.txt

El archivo robots.txt es un archivo de texto que se coloca en la raíz del sitio y contiene directrices específicas para que los bots pueden rastrear partes del sitio y cuáles se deben evitar.  Este archivo es crucial para controlar cómo los bots rastreadores interactúan con un sitio web.

En palabras más simples, el archivo robots.txt actúa como un “semáforo” para los crawlers. Cuando un bot rastreador llega a un sitio web, primero busca y lee el archivo robots.txt. En este archivo, los propietarios del sitio pueden establecer reglas sobre qué partes del sitio pueden ser rastreadas y cuáles no.

El archivo robots.txt utiliza directivas para comunicar a los bots qué partes del sitio deben ser excluidas del rastreo. La directiva más común es “Disallow”, que indica que el bot no debe rastrear una determinada sección o página. Por ejemplo, si se establece “Disallow: /privado/”, los bots no rastrearán ninguna página que esté dentro del directorio “privado”.

Además de las directivas de exclusión, el archivo robots.txt también puede contener directivas de permiso, como “Allow”. Esto le dice a los bots que ciertas partes del sitio están permitidas para el rastreo, incluso si se ha establecido una directiva “Disallow” más amplia.

Aunque los bots rastreadores pueden respetar las directivas establecidas en el archivo robots.txt, no todos los bots cumplirán necesariamente con estas directivas. Los motores de búsqueda importantes, como Google, generalmente respetan estas directivas, pero es importante recordar que bots maliciosos o no autorizados pueden ignorarlas.

También hay otras formas de bloquearlo con el archivo .htaccess. Es importante saber que desde cPanel puedes hacer uso de la herramienta AWStats, que te permite visualizar algunos bots y rastreadores que llegan a tu sitio web.

Esperamos que este artículo le haya ayudado a conocer los que es un crawler, su funcionamiento y lo importante que puede ser para su sitio web.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de WordPress. También puede encontrarnos en  Twitter, Facebook e Instagram.

Robots.txt: Qué es y como funciona este archivo

El archivo robots.txt es una herramienta esencial para gestionar la forma en que los motores de búsqueda rastrean tu sitio web. Aprende cómo proteger tu contenido y optimizar tu sitio con nuestro artículo completo sobre el archivo robots.txt. ¡Descúbrelo ahora!

El archivo robots.txt es un archivo de texto que contiene instrucciones para los bots (principalmente rastreadores de motores de búsqueda) que intentan acceder a un sitio web. Define qué áreas del sitio los rastreadores tienen permitido o no permitido acceder. Puedes excluir fácilmente dominios completos, directorios completos, uno o más subdirectorios, o archivos individuales del rastreo de los motores de búsqueda utilizando este simple archivo de texto. Sin embargo, este archivo no protege contra el acceso no autorizado.

El archivo robots.txt se almacena en el directorio raíz de un dominio. Por lo tanto, es el primer documento que los rastreadores abren cuando visitan tu sitio. Sin embargo, el archivo no solo controla el rastreo. También puedes integrar un enlace a tu mapa del sitio (sitemap), que proporciona a los rastreadores de motores de búsqueda una visión general de todas las URLs existentes de tu dominio.

En 1994, se publicó un protocolo llamado REP (Protocolo de Exclusión de Robots). Este protocolo establece que todos los rastreadores de motores de búsqueda (agentes de usuario) deben buscar primero el archivo robots.txt en el directorio raíz de tu sitio y leer las instrucciones que contiene. Solo entonces, los robots pueden comenzar a indexar tu página web. El archivo debe ubicarse directamente en el directorio raíz de tu dominio y debe estar escrito en minúsculas porque los robots leen el archivo robots.txt y sus instrucciones con sensibilidad a mayúsculas y minúsculas. Desafortunadamente, no todos los robots de motores de búsqueda siguen estas reglas. Al menos, el archivo funciona con los motores de búsqueda más importantes como Bing, Yahoo y Google. Sus robots de búsqueda siguen estrictamente las instrucciones del REP y del archivo robots.txt.

En la práctica, el archivo robots.txt puede utilizarse para diferentes tipos de archivos. Si lo usas para archivos de imagen, evita que estos archivos aparezcan en los resultados de búsqueda de Google. Los archivos de recursos no importantes, como archivos de script, estilo e imagen, también pueden bloquearse fácilmente con robots.txt. Además, puedes excluir páginas web generadas dinámicamente del rastreo utilizando comandos adecuados. Por ejemplo, las páginas de resultados de una función de búsqueda interna, las páginas con IDs de sesión o las acciones de usuario como los carritos de compras pueden bloquearse. También puedes controlar el acceso de los rastreadores a otros archivos no relacionados con imágenes (páginas web) utilizando el archivo de texto. De este modo, puedes evitar los siguientes escenarios:

  • los robots de búsqueda rastrean muchas páginas web similares o no importantes
  • se desperdicia innecesariamente tu presupuesto de rastreo
  • tu servidor se sobrecarga por los rastreadores

Sin embargo, en este contexto, debes tener en cuenta que el archivo robots.txt no garantiza que tu sitio o páginas sub-páginas individuales no sean indexadas. Solo controla el rastreo de tu sitio web, pero no la indexación. Si no deseas que las páginas web sean indexadas por los motores de búsqueda, debes establecer la siguiente metaetiqueta en el encabezado de tu página web:

<meta name="robots" content="noindex">

Sin embargo, no deberías bloquear archivos que sean de alta relevancia para los robots de búsqueda. Ten en cuenta que los archivos CSS y JavaScript también deben estar desbloqueados, ya que se utilizan para el rastreo, especialmente por los robots móviles.

Tu archivo robots.txt debe guardarse como un archivo de texto en formato UTF-8 o ASCII en el directorio raíz de tu página web. Debe haber solo un archivo con este nombre. Contiene uno o más conjuntos de reglas estructurados en un formato claramente legible. Las reglas (instrucciones) se procesan de arriba a abajo, distinguiendo entre mayúsculas y minúsculas.

Los siguientes términos se utilizan en un archivo robots.txt:

  • user-agent: denota el nombre del rastreador (los nombres se pueden encontrar en la base de datos de Robots)
  • disallow: evita el rastreo de ciertos archivos, directorios o páginas web
  • allow: sobrescribe disallow y permite el rastreo de archivos, páginas web y directorios
  • sitemap (opcional): muestra la ubicación del mapa del sitio
  • *: representa cualquier cantidad de caracteres
  • $: representa el final de la línea

Las instrucciones (entradas) en robots.txt siempre consisten en dos partes. En la primera parte, defines a qué robots (user-agents) se aplica la siguiente instrucción. La segunda parte contiene la instrucción (disallow o allow). “user-agent: Google-Bot” y la instrucción “disallow: /clients/” significan que el bot de Google no tiene permitido buscar en el directorio /clients/. Si no se desea que todo el sitio web sea rastreado por un bot de búsqueda, la entrada es: “user-agent: ” con la instrucción “disallow: /”. Puedes usar el signo de dólar “$” para bloquear páginas web que tengan una cierta extensión. La declaración “disallow: /.doc$” bloquea todas las URLs con una extensión .doc. Del mismo modo, puedes bloquear formatos de archivo específicos en robots.txt: “disallow: /*.jpg$”.

Por ejemplo, el archivo robots.txt para el sitio web https://www.example.com/ podría verse así:

User-agent: *
Disallow: /login/
Disallow: /card/
Disallow: /fotos/
Disallow: /temp/
Disallow: /search/
Disallow: /*.pdf$

Sitemap: https://www.example.com/sitemap.xml

Las instrucciones en un archivo robots.txt tienen una fuerte influencia en el SEO (Optimización de Motores de Búsqueda), ya que el archivo te permite controlar los robots de búsqueda. Sin embargo, si los agentes de usuario se restringen demasiado con instrucciones de disallow, esto podría tener un efecto negativo en el ranking de tu sitio web. También debes considerar que no clasificarás con las páginas web que hayas excluido con disallow en robots.txt.

Antes de guardar el archivo en el directorio raíz de tu sitio web, debes verificar la sintaxis. Incluso errores menores pueden llevar a que los bots de búsqueda ignoren las reglas de disallow y rastreen sitios web que no deberían ser indexados. Tales errores también pueden resultar en que las páginas ya no sean accesibles para los bots de búsqueda y que URLs completas no sean indexadas debido a disallow. Puedes verificar la corrección de tu robots.txt utilizando Google Search Console. Bajo “Estado Actual” y “Errores de Rastreo”, encontrarás todas las páginas bloqueadas por las instrucciones de disallow.

Al usar correctamente robots.txt, puedes asegurarte de que todas las partes importantes de tu sitio web sean rastreadas por los bots de búsqueda. En consecuencia, el contenido importante de tu página puede ser indexado por Google y otros motores de búsqueda.

Te podría interesar leer nuestro artículo: Cómo aprovechar al máximo el archivo .htaccess y cómo usarlo en tu sitio web

Algunos ejemplos para su aplicación

1- Para bloquear todos los bots que intenten acceder a tu sitio, el código del archivo robots.txt debería ser el siguiente:

User-agent: *
Disallow: /

2- Aquí si le quieres indicar al Googlebot que no rastree tu página de admin de WordPress:

User-agent: Googlebot
Disallow: /wp-admin/

3- Si deseas evitar que Googlebot acceda a todas las entradas de tu blog excepto a una:

User-agent: Googlebot
Disallow: /blog
Allow: /blog/ejemplo-post

4- El comando “crawl-delay” especifica un retraso de rastreo en segundos. Está pensado para evitar que los rastreadores sobrecarguen un servidor (es decir, que ralenticen tu web). Google ya no acepta este comando, pero otros buscadores como Bing y Yandex sí.
Si quieres que el rastreador espere 10 segundos después de cada acción de rastreo, debe configurar en tu robots.txt:

User-agent: *
Crawl-delay: 10

A tener en cuenta:

Los rastreadores leen de arriba a abajo y coinciden con el primer grupo de comandos más específico. Por tanto, empieza tu archivo robots.txt con user agents específicos, y luego pasa al comodín más general (*) que coincide con todos los rastreadores.

Dejamos aquí un ejemplo complejo de un robots.txt:

User-agent: Googlebot
Disallow: /clients/
User-agent: *
Disallow: /archive/
Disallow: /support/
Sitemap: https://www.yourwebsite.com/sitemap.xml

En el ejemplo de arriba, el archivo le indica al bot de Google que no puede rastrear el directorio /clients. Luego, le indicamos a todos los motores de búsqueda que los directorios /archive y /support no deben ser accedidos. Por último, añadimos el sitemap de nuestro sitio web, donde básicamente en dicho archivo “sitemap.xml” le indicamos a los motores de búsqueda donde sí queremos que los mismos rastreen o indexen.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  X (Twitter)Facebook e Instagram.

¿Qué es SEO y cómo puede beneficiar a tu negocio?

En la actualidad, una presencia digital fuerte es vital para cualquier negocio, y el SEO es fundamental para conseguirlo. Analizaremos qué es el SEO, cómo ayuda a nuevos usuarios, webmasters y negocios de comercio electrónico, y las tendencias actuales en este ámbito.

Pero, ¿qué es exactamente el SEO y cómo puede ayudarte a destacar en el vasto mundo de Internet? En este artículo, exploraremos qué es el SEO, cómo puede beneficiar a nuevos usuarios, webmasters y negocios de comercio electrónico, y revisaremos algunas de las tendencias más recientes en este campo.

SEO, o Search Engine Optimization (Optimización para Motores de Búsqueda), es el conjunto de prácticas y técnicas utilizadas para mejorar la visibilidad de un sitio web en los resultados orgánicos de los motores de búsqueda como Google, Bing y Yahoo. El objetivo del SEO es aumentar la cantidad y calidad del tráfico hacia un sitio web a través de resultados de búsqueda no pagados.

Para los nuevos usuarios que se inician en el mundo digital, el SEO puede parecer un concepto abrumador. Sin embargo, es una herramienta invaluable para:

  1. Aumentar la visibilidad: Ayuda a que su sitio web aparezca en los primeros resultados de búsqueda, lo que incrementa la probabilidad de ser visto por potenciales clientes.
  2. Generar tráfico orgánico: Atrae visitantes que están buscando activamente información relacionada con sus productos o servicios, lo que puede traducirse en mayores conversiones.
  3. Construir credibilidad y confianza: Los sitios web que aparecen en los primeros lugares de los resultados de búsqueda suelen ser percibidos como más confiables y autoritativos.

Para los webmasters, el SEO es una herramienta esencial para:

  1. Mejorar la estructura del sitio: Las prácticas de SEO a menudo implican optimizar la estructura y el contenido del sitio, lo que mejora la experiencia del usuario.
  2. Monitorear y analizar el rendimiento: Herramientas como Google Analytics y Google Search Console permiten a los webmasters rastrear el rendimiento de su sitio y ajustar sus estrategias de SEO en consecuencia.
  3. Competir en el mercado: Con una estrategia de SEO bien ejecutada, incluso las pequeñas empresas pueden competir con grandes marcas en el espacio digital.

En el mundo del comercio electrónico, el SEO es fundamental para:

  1. Aumentar las ventas: Un mayor tráfico de calidad puede llevar a un aumento en las ventas y en el reconocimiento de la marca.
  2. Optimización de la experiencia del usuario: Las prácticas de SEO mejoran la usabilidad y navegabilidad del sitio, lo que puede llevar a una mayor satisfacción del cliente y fidelización.
  3. Reducción de costos publicitarios: A diferencia de los anuncios pagados, el tráfico orgánico es gratuito, lo que puede reducir significativamente los costos de adquisición de clientes.

Te podría interesar nuestro artículo: Cómo optimizar las imágenes para SEO

El mundo del SEO está en constante evolución. Algunas de las tendencias más recientes incluyen:

  1. Búsqueda por voz: Con el aumento de dispositivos como Google Home y Amazon Echo, la optimización para búsquedas por voz está cobrando relevancia.
  2. Contenido de calidad: Google premia cada vez más el contenido relevante y de alta calidad que proporciona un valor real a los usuarios.
  3. Experiencia móvil: Con más personas utilizando dispositivos móviles para navegar, la optimización para móviles es crucial.
  4. Inteligencia artificial y aprendizaje automático: Google y otros motores de búsqueda están utilizando IA y aprendizaje automático para entender mejor las consultas de los usuarios y ofrecer resultados más precisos.

El SEO es una herramienta poderosa que puede transformar la presencia en línea de tu negocio. Ya seas un nuevo usuario, un webmaster o una empresa de comercio electrónico, entender y aplicar las mejores prácticas de SEO puede llevarte a alcanzar tus objetivos digitales. Mantente al día con las últimas tendencias y adapta tus estrategias para seguir destacando en el competitivo mundo de los motores de búsqueda.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de WordPress. También puede encontrarnos en  TwitterFacebook e Instagram.

Lista de Verificación para la Configuración Inicial de WordPress

Logo de WordPress

Si has decidido utilizar WordPress para tu sitio web, es crucial llevar a cabo una serie de configuraciones iniciales antes de comenzar a diseñar y añadir plugins. Aquí tienes una lista de verificación completa, además de información adicional sobre temas relacionados para asegurar que tu sitio esté optimizado desde el principio.

En primera instancia, lo primordial es informar a los motores de búsqueda que no indexen nuestro sitio. Para hacerlo, simplemente:

  • Accede a “Ajustes” > “Lectura”.
  • Marca la opción “Pedir a los motores de búsqueda que no indexen este sitio”.

Recuerda desactivar esta opción una vez hayas finalizado el diseño de tu web para asegurarte de que tu sitio sea visible para los motores de búsqueda.

Es crucial realizar una limpieza inicial del contenido preinstalado. Por ejemplo, en WordPress, suele haber una entrada estándar titulada “Hello World!”. Eliminar esta entrada es esencial, ya que si permanece pública, podríamos terminar compitiendo con otros sitios que no la han eliminado al desactivar la indexación de motores de búsqueda.

Se aconseja eliminar páginas que vengan de manera predeterminada. De igual forma, es importante eliminar plugin que no sean necesarios y que no los tengas que utilizar.

Sabías que dentro de nuestros de servicio de hosting ofrecemos servidores dedicados para WordPress con tecnología LiteSpeed.

Ahora nos dirigimos a la sección de “Ajustes”. En esta área, específicamente en “Ajustes Generales”, podemos personalizar aspectos clave de nuestro sitio web, como el título, la descripción, el horario y el idioma.

Si tenemos la intención de mantener un blog con publicaciones, debemos dirigirnos a “Ajustes de Escritura”. Aquí, tenemos la opción de cambiar el formato de entrada predeterminado según nuestras preferencias.

Es importante tener en cuenta que, por defecto, la página de inicio en WordPress es la página de entradas. Sin embargo, si deseamos modificar esto, primero necesitamos crear nuestra propia página de inicio. Luego, en la sección de “Ajustes de Lectura”, podemos seleccionar una página estática como nuestra página de inicio personalizada. Además, aquí también podemos especificar qué página deseamos que sirva como la página de entradas del sitio.

Te recomiendo desactivar los comentarios. Puedes hacerlo fácilmente yendo a la sección de “Ajustes”, luego seleccionando “Comentarios” y desactivando la opción que permite enviar comentarios en nuevas entradas. Igualmente, esta opción queda a tu criterio si necesitas interactuar con tus usuarios.

En cuanto a la estructura de enlaces permanentes, es importante elegir una que sea amigable para el SEO. Te sugiero seleccionar la opción de “nombre de la entrada” en la sección de “Ajustes de Enlaces Permanentes”. Esta elección suele ser la más recomendada para una configuración básica y amigable con los motores de búsqueda. Sin embargo, si prefieres ordenar tus enlaces por categorías, puedes optar por una estructura personalizada.

Por último, pero no menos importante, no olvides configurar la página de privacidad de tu sitio. Esto se puede hacer fácilmente en la sección de “Ajustes de Privacidad”. Es fundamental seleccionar la página adecuada para garantizar que tu sitio cumpla con las políticas de privacidad y protección de datos.

Una vez que hayamos tomado una decisión, en cuanto al tema que vamos a utilizar para nuestro sitio, procedemos a instalarlo y eliminamos cualquier tema preinstalado que no vayamos a utilizar. Esto nos ayudará a liberar espacio en el servidor y mantener una instalación ordenada y eficiente.

Recuerda que, si solo vamos a utilizar un tema, no tiene sentido ocupar espacio con otros temas que no necesitamos. Además, es recomendable instalar un tema hijo para realizar cualquier modificación personalizada sin afectar al tema principal.

Ver nuestro artículo: Mejores prácticas para optimizar el rendimiento de WordPress

Esperamos que esta guía te haya proporcionado la información necesaria para realizar una configuración inicial completa y comprender las diversas funciones de WordPress. Desde la configuración de la indexación de motores de búsqueda hasta la personalización de temas y ajustes de privacidad, hemos cubierto una amplia gama de aspectos importantes para asegurar que tu sitio esté optimizado y listo para su lanzamiento. Con estos conocimientos, podrás aprovechar al máximo tu experiencia con WordPress y crear un sitio web exitoso y funcional.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  X (Twitter)Facebook e Instagram.

Fuente: Blog WordPress

Cómo aprovechar al máximo el archivo .htaccess y cómo usarlo en tu sitio web

Mientras navegas por el administrador de archivo de tu hosting o en alguna sesión de FTP, te has encontrado con el archivo htaccess. Y si tu sitio web está diseñado con WordPress es más común encontrarlo, si no lo tienen también podrás crearlo fácilmente. En este artículo conocerás más sobre este archivo, aprovechando su potencial.

¿Qué es el archivo .htaccess?

El archivo .htaccess, abreviatura de Hypertext Access, es un archivo de configuración bastante utilizado en el servidor web Apache. Este archivo generalmente se encuentra en el directorio raíz de un sitio web, es decir en la carpeta pública (public_html) y su nombre comienza con un punto, lo que lo hace invisible por defecto en los sistemas operativos Unix, además de que no posee extensión. El archivo .htaccess contiene directivas que modifican la configuración de Apache para un directorio en particular y sus subdirectorios, sin modificar la configuración global del servidor.

Funciones y características del archivo .htaccess

El archivo .htaccess permite una amplia gama de funcionalidades y características que impactan la forma en que se comporta un sitio web. Algunos de los usos más comunes son:

1. Redirecciones

Con el archivo .htaccess, se pueden establecer redirecciones, ya sea para redireccionar URLs específicas o para redirigir todo un dominio a otro. Esto es útil cuando se realiza una reestructuración del sitio web o cuando se desea redirigir a los usuarios a una página de mantenimiento temporalmente.

2. Control de acceso

El archivo .htaccess permite controlar el acceso a determinados archivos o directorios. Por ejemplo, se puede restringir el acceso a una carpeta con archivos confidenciales o requerir autenticación para acceder a ciertas páginas.

3. Personalización de errores

Es posible personalizar las páginas de error que los visitantes verán cuando se produzca un error en el sitio web, como el error 404. Esto permite mostrar mensajes más amigables y personalizados en lugar de los mensajes predeterminados del servidor web.

4. Bloqueo de IPs o dominios

Con el archivo .htaccess, es posible bloquear el acceso a ciertos usuarios, IPs o dominios no deseados. Esto puede ser útil para bloquear intentos de acceso no autorizados o para evitar el acceso desde ciertas ubicaciones geográficas.

5. Mejora del rendimiento

En opciones más avanzadas el archivo .htaccess también se puede utilizar para habilitar compresión de archivos, caché de contenido y otras técnicas de optimización que ayudan a mejorar el rendimiento del sitio web.

Importancia y aplicación del archivo .htaccess

Una vez mencionadas las funciones más comunes del archivo .htaccess es de suma importancia comentar el papel fundamental en la configuración y personalización de un sitio web. Su capacidad para controlar varios aspectos del servidor web Apache ofrece a los administradores del sitio una forma eficiente de modificar y mejorar el funcionamiento de sus sitios web sin tener que realizar cambios directamente en la configuración del servidor.

Con el conocimiento y la comprensión adecuados de cómo funciona el archivo .htaccess, los profesionales de diseño y desarrollo web pueden aprovechar al máximo esta herramienta para lograr un sitio web más seguro, eficiente y adaptado a sus necesidades.

Ahora veamos un poco el accionar del archivo .htaccess

Redirecciones y reescritura de URL

Las redirecciones son acciones que permiten redirigir a los usuarios que intentan acceder a una URL en particular hacia una dirección diferente. Para ver un ejemplo de esto, imaginemos que queremos redirigir un dominio a un sitio web sin WWW o de la forma contraria.

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.midominio.com [NC]
RewriteRule ^(.*)$ https://midominio.com/$1 [L,R=301]

Estas tres líneas redirigir tu dominio a la versión sin WWW, para entrar en contexto, RewriteEngine, RewriteCond y RewriteRule son directiva y ofrecen su propia forma de configuración y puede ser utilizado según las necesidades específicas de nuestro sitio web. Ahora para el caso contrario en que necesitemos redireccionar a un dominio con WWW, se puede utilizar:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^midominio.com [NC]
RewriteRule ^(.*)$ https://www.midominio.com/$1 [L,R=301]

Protección y seguridad del sitio web

Existen varios tipos de ataques a los que un sitio web puede estar expuesto, tales como ataques de inyección SQL, ataques DDoS, cross-site scripting (XSS) y más. Mediante el archivo .htaccess, podemos implementar medidas de seguridad para prevenir y mitigar estos ataques.

# Proteger ante DDOS de 10 Mb
LimitRequestBody 10240000

También suelen utilizarse para bloquear bots y crawlers molestos que consumen ancho de banda en nuestro sitio web. Estos bots los podemos detectar con la herramienta AWStats de nuestro panel de control. Para bloquearlos desde el htaccess debemos escribir las siguientes líneas:

# Bloquear Bots
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^SemrushBot [NC]
RewriteRule ^.* - [F,L]

En este caso bloquea el bot de SemrushBot, pero también hay muchos otros como SeekportBot, PetalBot. Recuerda que no todos los bots son malos, también existen los bots de los motores de búsqueda, como el de Googlebot, Bingbot, Yandexbot, entre otros.

Por otro lado, puedes bloquear el acceso a una o varias IPs de una forma muy sencilla, vemos el ejemplo:

order allow,deny
deny from x.x.x.x
allow from all

Donde en x.x.x.x especificas la IP y puedes agregas más lineas para listar otras IPs.

Ver nuestro artículo: WordPress: .htaccess

Esperamos que este artículo le haya ayudado a conocer como utilizar el archivo .htaccess, su funcionamiento y lo importante que puede ser para su sitio web.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de WordPress. También puede encontrarnos en  Twitter, Facebook e Instagram.

Cómo optimizar las imágenes para SEO (y por qué es importante)

Una gran página web contiene mucho más de lo que las personas ven cuando visitan tu web. Desde luego que el contenido, las páginas y la navegación son importantes, pero también hay todo un soporte que no debes ignorar si quieres aumentar su visibilidad.

Si has decidido centrarte en crear un gran contenido y publicar tu página web antes de abordar la optimización para motores de búsqueda (SEO), sería recomendable hacer a continuación una auditoría del contenido multimedia de tu biblioteca de WordPress.com. O, como mínimo, pensar en el SEO para imágenes.

¿Qué es el SEO para imágenes? Consiste en incluir palabras clave y metadatos relevantes para cada imagen, documento y vídeo que subas a tu página web. Los metadatos, que son una descripción de una pieza de contenido de tu página web, son una herramienta valiosa que los motores de búsqueda, como Google, utilizan para posicionar tu contenido en los resultados de las búsquedas.

Sólo necesitas unos minutos para optimizar las imágenes para SEO y, a cambio, puede generar tráfico constante en la web. Hemos descrito aquí los conceptos básicos para ayudarte a comprender cómo puedes utilizar esta herramienta para aumentar la visibilidad de tu página web.

El tamaño importa

Antes de acceder a la biblioteca de contenido multimedia de WordPress.com, haz un poco de trabajo preliminar con respecto al tamaño de tus imágenes. El tamaño de las imágenes es importante porque, según Google, afecta al rendimiento de tu página web. Las imágenes más grandes utilizan más datos, lo que hace que las páginas tarden más en cargar: cuantos más datos tiene que procesar un navegador, más tarda en descargar una página o una web. Esto podría hacer que los usuarios prefieran buscar la información que necesitan en otro lugar.

Los motores de búsqueda toman nota de las páginas web que tardan en cargarse o que ofrecen una mala experiencia a los usuarios, así que planificar una estrategia sobre el tamaño de tus fotos puede mejorar el SEO de tu página web y tu posicionamiento en los resultados de búsqueda. ¿Cómo saber si una imagen es demasiado grande? No hay una respuesta directa, pero verás que en tu biblioteca de contenido multimedia WordPress.com establece un tamaño máximo para las imágenes. Por suerte tienes la opción de ajustar el tamaño de tus imágenes para cada publicación o cada página.

También puedes utilizar la edición de fotos, o programas como iPhoto o Adobe Photoshop, para optimizar las fotos de tu página web. El ancho estándar de una página web está entre 960 y 980 píxeles según Iteracy, así que asegúrate de no tener imágenes que superen este ancho. Las dimensiones del área de contenido en WordPress.com también te ofrecen una pista. Si cargas tu imagen y ocupa toda la página, es mejor cambiar el tamaño para evitar que tarde mucho en cargarse.

Pon el contenido multimedia a trabajar

Una vez que hayas ajustado el tamaño de tus imágenes, dirígete a la biblioteca de contenido multimedia de tu página web WordPress.com para cargarlas. Cuando inicies sesión en la página web de WordPress.com, verás una lista de opciones en la parte izquierda de la página. Haz clic en Medios para ver tu biblioteca de contenido multimedia. Aquí es donde encontrarás todas las imágenes, videos, archivos de audio y documentos que has cargado en tu web.

Si ya has cargado contenido en tu página web, haz clic en la imagen dentro de la biblioteca de contenido multimedia y selecciona Editar para acceder a sus campos de descripción. Aquí es donde puedes añadir los metadatos. Encontrarás los siguientes campos: Título, leyenda, texto alternativo y descripción. Supongamos que tienes un página web para tu casa rural y has escrito una publicación en el blog sobre los atractivos más conocidos de tu ciudad, todo ello completado con fotos. Deberás incluir el nombre completo de cada lugar de interés en el campo Título («Paseos en bici junto al río Tormes», por ejemplo), y luego tendrás que añadir más detalles sobre la imagen en sí en el campo Leyenda («Turistas en bicicleta cruzando el puente sobre el Tormes», por ejemplo). Recuerda que aunque el título de la imagen es invisible para tus visitantes, la leyenda sí aparece al lado o debajo de la imagen.

La información del campo Texto alternativo puede ser similar a la del campo Leyenda, ya que ofrece a los motores de búsqueda más información sobre la imagen. El texto de este campo lo leen los lectores de pantalla y es lo que se ve cuando una imagen no carga. En el campo Descripción, puedes añadir muchos más detalles sobre la imagen y el contenido relacionado. Por ejemplo, aquí puedes añadir más información acerca de la empresa que ofrece paseos en bici, el precio y su programa diario de excursiones. Los motores de búsqueda, como Google, rastrean las páginas web en busca de información que les ayude a decidir cómo posicionar los resultados de búsqueda. Si todos los elementos de tu página web, incluidas las fotos y los nombres de los archivos, tienen palabras clave relevantes, esto aumentará el SEO de tu web y lo hará más visible en las búsquedas.

El SEO para imágenes, como todo el SEO, es en parte arte y en parte ciencia. Sin embargo, estos sencillos ajustes pueden ayudarte a mejorar el rendimiento de tu web. Cuando quieras incorporar una nueva imagen a tu página web, dedica unos minutos a cambiar el tamaño de la imagen y a rellenar los campos de metadatos al cargarla en tu biblioteca de contenido multimedia. La optimización SEO de las imágenes sólo aporta cosas buenas, así que ¿por qué no hacer el esfuerzo?

Fuente: https://wordpress.com/es/go/tutorials/como-optimizar-las-imagenes-para-seo-y-por-que-es-importante/