Ciencia

¿A más seguidores, más éxito?: las matemáticas detrás de los ‘influencers’ y de las redes sociales

Que los números rigen la red de redes no es un secreto; pero ¿cuáles son las fórmulas detrás de los ‘likes’?

Sofía es una adolescente cuyo círculo de amigos más cercano está formado por Martín, Lucía, Lucas y Hugo, todos en su misma clase. Hugo tiene también amistad con María, quien está en otra clase del mismo instituto. Esta pequeña red de amigos es ilustrada en la Figura 1. Cada pequeño círculo, llamado nodo (o vértice), representa a un miembro de la red, y las líneas que conectan a un par de nodos, llamadas conexiones (o aristas), representan la amistad entre ellos.

En el proceso para elegir al representante estudiantil del instituto Sofía apoyaba claramente a un candidato, mientras que Martina apoyaba a otro distinto. Está claro al ver la red que Sofía podría movilizar el voto de sus 4 amigos, mientras que Martina solo podría hacerlo con el de 2. El número de conexiones directas que cada nodo tiene en una red se denomina el grado del nodo. Así, el grado de Sofía es 4, mientras que el de Martina es 2. El grado de un nodo es una medida de la centralidad de éste, y captura la influencia directa que un nodo tiene sobre otros.

Los grados de todos los nodos están en la Tabla 1. De acuerdo con esta medida Sofía es la persona más influyente respecto a sus contactos directos en la red. El grado de los nodos juega un papel fundamental en entender los procesos de propagación de epidemias. Un súper-propagador, por ejemplo, es un individuo con un altísimo grado en su red de contactos.

Por otra parte, si Sofía le comunicara directamente a su círculo más íntimo una información importante, María podría enterarse indirectamente de la misma a través de Hugo y luego comunicárselo a sus amigos Mateo y Martina, quienes también adquirirían dicha información de forma indirecta. Esta información habría recorrido un camino de longitud 2 desde Sofía hasta María y otro de longitud 3 hasta llegar a Mateo o Martina.

Un camino es una secuencia de nodos y conexiones distintas (no se admiten repeticiones) entre dos nodos cualesquiera de la red. Su longitud es el número de conexiones que hay que atravesar en dicho camino. Entre dos nodos pueden existir más de un camino. Por ejemplo, entre Sofía y María existen además los caminos: Sofía-Lucía-Hugo-María de longitud 3, Sofía-Martín-Lucía-Hugo-María de longitud 4 y Sofía-Lucas-Martín-Lucía-Hugo-María de longitud 5. Como el camino Sofía-Hugo-María es solo de longitud 2, el mismo corresponde al camino de longitud más corta entre ambas. La longitud del camino más corto entre un par de nodos en una red es una distancia entre dichos nodos y se conoce como distancia topológica o distancia del camino más corto.

Supongamos que cada miembro tiene en su lista de contactos de WhatsApp solo a aquellos miembros de la red que son sus amigos. Entonces, si un profesor del instituto quisiera dar una información por esta vía a un miembro de la red para que la difundiera lo más rápido posible entre todos sus miembros, ¿a quién le debería enviar el wasap? Obviamente no a Mateo. La razón es que Mateo solo podría enviar un Whatsapp a dos miembros (Martina y María), luego María tendría que enviar un Whatsapp a Hugo y así sucesivamente hasta que en 4 pasos la información llegara a Martín y a Lucas.

Pero tampoco Sofía sería la persona en mejor capacidad de distribuir la información lo más rápidamente posible. Cierto que con un solo wasap ella alcanzaría a 4 miembros de la red, pero harían falta 3 pasos para alcanzar a Martina y a Mateo. Para determinar el mejor candidato a distribuir rápidamente la información calculemos la suma de las distancias que separan a cada miembro de la red del resto. Tomemos a Mateo como ejemplo. Su distancia a Martina y a María es 1, a Hugo es de 2, a Sofía y a Lucía de 3 y a Martín y a Lucas de 4. La suma de todas ellas nos da 18, que es la lejanía de Mateo al resto de miembros de la red.

Para no herir sentimientos, en el análisis de redes preferimos hablar de la centralidad de cercanía de un nodo en lugar de su lejanía. Ésta se define para un nodo como el recíproco de la lejanía. En la Tabla 1 ilustramos los valores de la centralidad de cercanía de cada nodo en la red.

Esta segunda medida de centralidad de los nodos nos indica que el profesor debería enviar el primer Whatsapp a Hugo, quien es el nodo más central de acuerdo con la cercanía en esta red. De esta forma la información alcanzaría a todos los miembros de la red en no más de dos pasos. Si calculamos la distancia promedio desde Hugo al resto de los miembros de la red vemos que esta es de solo 11/7 ≈1,57, mientras que para Mateo y Martina es de 18/7 ≈ 2.57. En general, para toda la red la distancia promedio es relativamente pequeña, 118/(n (n – 1)) ≈ 2,107, donde el numerador es la suma de las lejanías de todos los nodos y el numerador es el número de pares de nodos, con n siendo en número de nodos en la red. O sea, como promedio la información toma aproximadamente solo 2 pasos para ir de un nodo a otro.

Si analizamos la centralidad de María de acuerdo con el grado y la cercanía, no percibimos realmente nada importante acerca de su posición en la red. Su grado es de 3, igual que el de otros tres miembros de la red, y su cercanía la ubica empatada con Lucía en la tercera/cuarta posición. Sin embargo, la posición de Hugo y María en esta red es vital para que exista comunicación entre las dos clases del instituto. Si se rompiera esta relación, ninguna información podría pasar de una clase a otra. Ellos forman el único puente entre ambas clases.

Para capturar esta centralidad de los nodos, en el análisis de redes se estudia una medida conocida como intermediación. Ésta se define para el nodo k como la suma de las razones P_ikj/P_ij para todos los pares de nodos i y j en la red. Aquí, P_ijk es el número de caminos más cortos entre pares de nodos i y j que pasan por el nodo k. Por su parte, P_ij son todos los caminos más cortos entre pares de nodos i y j. Veámoslo en la red. Si analizamos a Martín vemos que a través de él pasa solo el camino más corto Lucía-Martín-Lucas. Pero, entre Lucía y Lucas existe también el camino más corto Lucía-Sofía-Lucas. Por tanto,

y la intermediación de Martín es 1/2. Las intermediaciones de todos los miembros de la red están en la Tabla 1.

O sea, que María sí que es muy central en la red de acuerdo con su intermediación, aunque no tenga un alto grado (número de amigos) y no tenga una cercanía muy grande al resto de miembros. La primera lección que nos da este sencillo análisis es que cuando alguien se cree un ‘influencer‘ porque tiene un alto número de contactos (o sea un alto grado), quizás esté obviando el papel fundamental que otros juegan en la red a pesar de no tener tantos contactos. Los nodos con alta intermediación juegan un papel muy importante en las redes de infraestructuras (internet, acueductos, redes de transporte) ya que ellos mantienen unidas diferentes partes de las redes y su desconexión debido a fallos o ataques a estos sistemas hacen que la red deje de funcionar. Un ejemplo reciente ha sido el atasco producido por el ‘Ever Given’ en el Canal de Suez, un nodo de la red de transporte marítimo con alta intermediación.

Las conexiones entre los nodos pueden también ser dirigidas. En el instituto han enseñado a los estudiantes a crear páginas web personales. Cada página puede hacer referencias a otras páginas de los miembros del grupo. Pero no todas las referencias son recíprocas. Por ejemplo, Lucas ha decidido recomendar la página de Sofía, pero Sofía no recomienda la de Lucas. En este caso habría una conexión dirigida Lucas → Sofía, pero no Lucas ← Sofía. Si dos miembros se recomiendan mutuamente entonces tenemos, por ejemplo: Lucía ←→ Sofía. Esta red de conexiones entre páginas web de los miembros del grupo se ilustra a continuación. Martín necesita cuatro clics para llegar a la página de María, pero nunca podría llegar a las páginas de Martina o Mateo porque éstas no tienen ninguna entrada desde el resto de los miembros.

En la actualidad hay más de 1.700.000.000 páginas web, de las que alrededor de 200 millones están activas. En un análisis realizado sobre 203.549.046 páginas web se encontraron 2.130.000.000 conexiones dirigidas entre ellas. A ver, estamos diciendo que esta red contiene ¡más de 200 millones de nodos y más de 2 millardos de conexiones!

Si ahora seleccionamos 2 nodos al azar, digamos A y B, entre esos 200 millones y pensamos a que distancia están el uno del otro, ¿Qué podríamos pensar? ¿Qué están separados por un millón de conexiones? ¿Por cientos de miles? ¿Por miles? Pensemos en las consecuencias. Si comenzáramos navegando en A en una forma completamente aleatoria necesitaríamos millones, o cientos de miles o miles de clics para llegar a B. Casi nos moriríamos de aburrimiento antes de completar esta búsqueda. Todos sabemos que, usemos el navegador que usemos, generalmente encontramos lo que queremos con unos pocos clics. Pues bien, el promedio de las distancias de camino más corto en esta red de más de 200 millones de nodos es de solo 16. Si, si, lo has entendido bien. Si seleccionamos dos páginas web al azar en la WWW estarán separadas como promedio por solo 16 clics. El diámetro, la máxima separación entre dos nodos, de esta red es de solo 503, aunque se estima que pudiera llegar a los 905. O sea, ¡no hay dos páginas web separadas a más de 1000 clics!

Esta fascinante propiedad de las redes se conoce como fenómeno de pequeño mundo. Sucede que, si una red de pequeño mundo tiene n nodos, la distancia de camino más corto promedio será proporcional al logaritmo de n. O sea, si una red tiene del orden de los 100 nodos la separación promedio entre dos nodos será de aproximadamente 4.6. Si tuviera 1000 nodos esta separación sería de 6.9, y así sucesivamente.

Aun así, necesitamos alguna brújula para encontrar la aguja que buscamos en el pajar de páginas webs existentes. O sea, si tecleamos ‘ ABCdario de las matemáticas‘ en un buscador, éste nos hará una lista de páginas web relacionadas a este término. En los primeros puestos encontraremos la página del periódico ABC que contiene nuestra sección. Y lo ha hecho en una fracción de segundo. ¿Cómo lo ha hecho? A través de la magia de la centralidad de los nodos de la red.

Una de las medidas de centralidad más conocidas para la búsqueda en redes dirigidas como la WWW es PageRank. Este algoritmo fue desarrollado por los creadores de Google y convirtió a este buscador en uno de los más populares de cuantos existen en la actualidad. La filosofía de PageRank es que la centralidad de tu página web no depende de a cuantas páginas recomiende, sino de cuantas la recomiendan a ella. Más aún, no solo depende del número de páginas que la recomienden, sino de la centralidad de estas páginas. Por tanto, mientras más páginas con alto PageRank recomienden tu página, más PageRank tendrá la misma.

PageRank se define como un proceso iterativo. O sea, que realiza los cálculos a partir de una fórmula que se repite así misma hasta que lleguemos a una precisión deseada. Por tanto, para calcular el PageRank de la página p_i en la iteración k+1 necesitamos los PageRank de todas las páginas p_j que recomiendan a p_i en la anterior iteración:

 

donde d es un parámetro de “teletransportación” que nos permite visitar las páginas de Mateo y Martina, aunque no tengan entradas desde el resto de los miembros del grupo y así no quedarnos atascados, n es el número de nodos en la red y L es el número de conexiones que salen de la página correspondiente. Para comenzar el proceso inicializamos a todas las páginas web con el mismo PageRank, igual a (1/n). El proceso continúa hasta obtener valores que prácticamente no se diferencien de los anteriores. En la siguiente Tabla mostramos los resultados de las dos primeras iteraciones y el resultado final. Como se puede observar las páginas de Sofía y Lucía son las más centrales y aparecerán entre las primeras en las búsquedas sobre su instituto.

Para no tener que realizar este tedioso procedimiento iterativo, el Álgebra Lineal ofrece una solución basada en el uso de valores y vectores propios de cierta matriz estocástica relacionada a la red. En este caso PageRank en un vector propio de dicha matriz. Este vector propio tuvo un valor de 25.000.000.000 de dólares cuando Google salió a bolsa. Pero esa ya es otra historia.

 

Etiquetas

Añade un comentario

Pulsa aquí para comentar

Mercedes Benz
The new Mercedes-Benz C-Class