Hoy en día, la información está por todas partes. Hay demasiada, y por ello es necesario seleccionar aquella que realmente nos interesa. Para esto existe nuestro amigo Google. ¡Gracias Google!
Realmente deberíamos dar las gracias a Larry Page y Sergey Brin, creadores del algoritmo de búsqueda de Google. Este algoritmo se llama PageRank (en honor a Larry Page) y, como bien sabréis por experiencia, se basa en ordenar las páginas web relacionadas con las palabras clave que nos interesen, mostrando primero las más relevantes.
Para nosotros, como usuarios de un servicio, el buscador de Google es un motor de búsqueda fácil, sencillo y para toda la familia. Sin embargo, esto es así gracias a la complejidad que hay detrás, una complejidad matemática.
Cada vez que buscamos algo hay miles de páginas en Internet que podrían contener información sobre lo buscado. Para empezar, Google tiene que tener almacenadas todas estas páginas. Para ello, usa un rastreador que navega por la red y va añadiendo a un índice nuevas páginas y actualizaciones. Este proceso se llama indexación.
Sin embargo, una vez que las páginas están indexadas hay que organizar semejante cantidad de sitios web cuando se hace una búsqueda. Para ello, Google usa distintos algoritmos con los que se consigue ordenar las búsquedas según distintas variables: veces que aparecen las palabras buscadas, actualidad de las páginas, localización, spam, experiencia de los usuarios, búsquedas recientes, etc.
Todo esto se consigue gracias a las matemáticas. Entender el funcionamiento del motor de búsqueda de Google es muy complejo, así que nos vamos a centrar en una pequeña parte de este: el PageRank. Antes del PageRank (antes de 1999, que fue cuando se registró), los buscadores ofrecían las páginas que contenían las palabras que habías introducido, pero no había orden en cuanto a importancia o calidad. El algoritmo PageRank sí que tiene esto en cuenta, ordenando las páginas según su relevancia.
Para saber la relevancia de una página tuvieron en cuenta los enlaces entre páginas. Una página relevante es aquella que ha sido enlazada por más páginas y/o páginas más relevantes. Para entender esto fíjate en el siguiente grafo:
Cada nodo corresponde a una página y las flechas indican qué páginas han sido enlazadas por qué páginas. Por ejemplo, la página A ha sido enlazada por la página D, la B ha sido enlazada por 7 páginas distintas y las páginas moradas no han sido enlazadas por ninguna.
Como puede observarse, también tiene importancia la relevancia de las páginas que te enlazan. Si nos fijamos en la C, vemos que es bastante relevante (aparecería la segunda en nuestra búsqueda), pero solo ha sido enlazada una vez. La clave está que ha sido enlazada por la página más relevante y esto da más peso en el posicionamiento.
Esto se expresa así de forma matemática:
Donde:
PR(A) es el PageRank de la página A.
d es un factor de amortiguación que tiene un valor entre 0 y 1.
PR(i) son los valores de PageRank que tienen cada una de las páginas i que enlazan a A.
C(i) es el número total de enlaces salientes de la página i (sean o no hacia A).
Esto es relativamente sencillo, pero cambió la forma de buscar en Internet. Aunque actualmente se usan muchísimos algoritmos más para una búsqueda más eficiente, el PageRank sentó las bases de lo que tenemos hoy.
Aquí os dejo un par de enlaces por si queréis conocer algo más de las matemáticas detrás de Google:
¿Estaré mejorando sus posicionamientos en el PageRank? ;)
Comentarios
Publicar un comentario