¿Cómo funcionan los motores de búsqueda?


Ya hemos visto cómo funciona Google, pero ¿y el resto de buscadores? El funcionamiento de estas herramientas se basa en las palabras clave que los usuarios buscan para encontrar información sobre un determinado tema, entre la multitud de páginas web almacenadas en las bases de datos de las herramientas de búsqueda. Deben introducirse en el campo de texto previsto para ello en la interfaz de los buscadores. Además, deberán estar relacionadas con el contenido solicitado, indicando al buscador qué queremos encontrar.

Los buscadores son muy fáciles de usar desde la perspectiva del usuario, pero como en toda aplicación informática, mientras más simple sea para el que la usa, más compleja es la tarea del programador. Google lleva a cabo su misión de facilitar la búsqueda de información perfectamente, proponiendo resultados relevantes con muchísima rapidez.


Funcionamiento

Los motores de búsqueda realizan, principalmente, tres tareas:
  • Recopilar los datos de las páginas web publicadas en internet
  • Almacenar la información obtenida en bases de datos
  • Mostrar los contenidos que mejor respondan a la consulta del usuario

Google lleva a cabo una búsqueda cruzada:
  • Busca las páginas y otros elementos que contengan las palabras clave solicitadas
  • Selecciona, entre dichas páginas, las que considera más útiles e importantes

Los programas robot de los buscadores, también llamados spiders o crawlers, recorren la web rastreando los vínculos y recuperando información. A continuación, los buscadores procesan esa información y la almacenan en bases de datos, para mostrarla cuando un usuario la solicite. Estos, además, indexan las palabras clave utilizadas y las vinculan a la URL de la página. Los spiders recopilan información de diferentes tipos:
  • Código HTML
  • Tamaño de página
  • Fecha de actualización
  • URL
  • Imágenes
  • Noticias
  • Videos


Páginas “invisibles”
La parte más difícil de la misión de los buscadores reside en la tarea de colocar las páginas relevantes en las primeras posiciones de la lista de resultados. La web contiene millones de páginas, unidas entre sí mediante links. Si una página no contiene ningún enlace, es una página invisible para los buscadores. A parte de este tipo de páginas, hay otras que el “robot” también suele ignorar:
  • Páginas estáticas sin contenido actualizado
  • Páginas con una URL demasiado compleja
  • Páginas nuevas, sin vínculos desde webs externas
  • Páginas a las que solo se puede llegar clicando en multitud de enlaces previos


Actualización de índices
Cada día se publican millones de nuevas páginas web en el mundo. El reto de los buscadores consiste en mostrar resultados con contenido relevante y actualizado, por lo que es necesario actualizar los índices con regularidad. Google realiza actualizaciones constantemente de su algoritmo, su interfaz y su índice.


Granjas de contenido
Son aquellas que presentan algunas de las siguientes características y pueden ser penalizadas por Google por su carácter antinatural:
  • Demasiada publicidad
  • Mucho contenido ilegible
  • Multitud de vínculos no naturales
  • Reescritura de artículos existentes sin ningún valor añadido

Para evitar la penalización de Google Panda podemos:
  • No utilizar contenido duplicado
  • Optimizar el tiempo de carga de la página
  • No sobrecargar la web con publicidad
  • Tener cuidado con la cantidad y calidad de links que utilizamos

Comentarios