Google busca 100.000 millones de veces al mes en 30 billones de páginas web
Según el servicio buscador líder de la internet, sus sistema sabe de 30 millones de millones de páginas web, y las revisa 100.000 millones de veces al mes… ¿Cómo lo hace?
Google permitió una casual mirada a cómo funciona su sistema de búsquedas, revelando, a pesar de la superficialidad, varios fascinantes datos sobre el proceso…
La búsqueda arranca con un recorrido sistemático (crawling) y con la indexación de cada base de datos alojada detrás de un URL. Google asegura que la red de redes contiene al menos 30 billones de páginas web individuales y diferenciadas. Eso, dicen, implica un crecimiento de 30 veces en cinco años, ya que en 2008 la propia Google reportó que todo el sistema web contenía 1.000.000.000.000 (un billón) de páginas.
Google también asegura que en sus servidores guarda información de cada una de esas treinta millones de millones de páginas en su Google Index, que almacena actualmente cerca de 100 millones de gigabytes, es decir, unos mil terabytes.
Ahora bien, al un usuario ordenar una búsqueda, el sistema de Google no solo intenta comprender lo que escribimos, sino incluso lo que queremos decir… Para eso existen distintos algoritmos: Para corregir la ortografía, para autocompletar palabras, para sugerir sinónimos, para procesar una búsqueda inteligente con toda esta información (la escrita por nosotros y la que los algoritmos generan por su propia cuenta) y más. Cuando el sistema considera que ha encontrado lo que queremos, muestra los resultados escogidos entre esos 100.000.000 de GB de datos, pero no solo procesa la búsqueda y simplemente entrega el resultado de la misma…
También aplica una serie de filtros de clasificación, o ranking, usando más de 200 factores –secretísimos- que supuestamente deben colocar resultados primero de acuerdo a factores como la pertinencia del resultado, la calidad del sitio web, edad del dominio, seguridad y contenido apropiado del texto e imágenes, además de otros como los relacionados al contexto de usuario, tales como el lugar geográfico donde realizamos la búsqueda, el tipo de búsquedas y resultados que acostumbramos a hacer y preferir, historia y conexiones en Google+ y muchos otros.
El proceso incluye, entre otros, la identificación de web spam, esas páginas sin información útil construidas de modo que sean fácilmente aceptadas por los mayores buscadores y para llamar nuestro interés, para luego sacar dividendos de nuestros click que nos llevan hacia sus "clientes". Google dice que regularmente informa mensualmente de hasta 60.000 de estos sitios que considera trampas para incautos, marcándolas como spam o como peligrosas por haber sido hackeadas.
Es solo al terminar este complicado proceso, y después de medio segundo (o menos de la mitad dependiendo de la velocidad de la conexión) que el buscador nos presenta sus resultados.
Google también asegura que revisa constantemente cómo funciona el sistema, para ello utiliza distintos recursos, especialmente humanos, evaluadores de resultados: Cuarenta mil veces al año los evaluadores de Google revisan como trabaja el sistema y sugieren soluciones para mejorarlo, asegura la empresa.
Vea la infografía con esta historia de Google aquí.
Fuente: THP