Filtración de documentos de Google sobre su algoritmo: esto se sabe

El cofundador de la herramienta de inteligencia SparkToro Rand Fishkin, publicó un artículo en el que afirma haber accedido a una serie de documentos relacionados con la interfaz de programación

Escritório do Google
29 de mayo, 2024 | 03:39 PM

Google, el motor de búsqueda por Internet más importante del mundo, ha sufrido una filtración de 2.500 páginas de documentos que permiten a los especialistas conocer, con más detalle, cómo funciona su algoritmo de búsqueda.

A partir de esta novedad, los expertos consideran que las declaraciones que había hecho la empresa respecto del funcionamiento del algoritmo eran erróneas o incorrectas.

Según explica un artículo de Europa Press, la compañía informó en diferentes ocasiones cómo trabaja el algoritmo de su buscador y el modo en que pretende ofrecer el mejor resultado posible, a fin de cumplir con su política de transparencia con los usuarios.

Ver más: Google evalúa cobrar por búsquedas “premium” basadas en IA, según Financial Times

Además, reseña la nota periodística, han sido varias las veces en las que ha indicado que una de las máximas de Google es la de acabar con la desinformación y el contenido ‘spam’, motivo por el que actualiza con frecuencia tanto su algoritmo como sus políticas y sistemas automatizados para neutralizar “tácticas emergentes” con las que los actores maliciosos buscan “engañar” sus resultados con contenido de baja calidad.

La filtración

Una de las personas que dio a conocer la filtración fue Rand Fishkin, cofundador de la herramienta de inteligencia SparkToro, que durante años ha trabajado en SEO. Este programador, publicó un artículo en el que afirma haber tenido acceso a documentos relacionados con la interfaz de programación (API) del motor de búsqueda de Google, que recogen una explicación contraria a la que la compañía habría afirmado en otras ocasiones en relación con el funcionamiento de su algoritmo.

PUBLICIDAD

“La búsqueda de Google es una de las cajas negras más secretas y mejor guardadas del mundo. Bueno, tal vez ya no”, informó Fishkin.

Según resumió en X el experto en SEO Emiliano Arnáez, estas fueron las principales conclusiones de la filtración:

  • “La filtración menciona 2.596 módulos y 14.014 atributos relacionados con componentes como YouTube, Assistant, libros, búsqueda de videos, y más”.
  • “Factores de clasificación: aunque Google negó públicamente el uso de ciertos factores de clasificación, la documentación revelaría lo contrario”.
  • “Autoridad del sitio: Google tiene una métrica llamada siteAuthority que contradice las afirmaciones de que no usan algo similar a la autoridad del dominio”.
  • “Clics y comportamiento ost-clic: sistemas como NavBoost y Glue utilizan datos de clics para ajustar los rankings, a pesar de que representantes de Google han negado esto”.
  • “Edad del dominio y sandbox: atributos como “hostAge” se usan para sandboxing, contradiciendo las declaraciones de Google de que no existe un sandbox”.
  • “Datos de Chrome: algunos módulos consideran datos de Chrome para evaluar la calidad de la página”.

Por último, Arnáez escribió: “Y hay más! Twiddlers, autores, listas blancas de ciertos temas, la importante de ser popular, lo malo de ser nuevo y chico, etc.”.

Por su parte, Guillermo Gascón, también experto en SEO, resumió algunas conclusiones que surgen de los artículos que filtraron información del algoritmo:

  • “Los enlaces siguen siendo importantes para el SEO. Google analiza en profundidad la gráfica de enlaces, considerando factores como la frescura, la importancia y el nivel en el que se encuentra el contenido con dicho enlace”.
  • “Google considera un número máximo de tokens (palabras) por documento, lo que refuerza la necesidad de colocar el contenido más importante al inicio del texto. Trunca el resto para ahorrar”.
  • “El contenido corto se evalúa por su originalidad, destacando la importancia de evitar contenido duplicado o de baja calidad cuando nuestra URL tenga poco texto e información”.
  • “Google da mucha importancia a la frescura del contenido y utiliza diversas técnicas para asociar fechas con las páginas, manteniendo la relevancia temporal”.
  • “Para temas YMYL (Your Money Your Life), Google utiliza clasificadores específicos que impactan la evaluación y clasificación de estos contenidos”.
  • “Google emplea embeddings (vectores) para medir la relevancia de una página respecto a su sitio web y para evaluar la coherencia temática del sitio”.
  • “Existe un tratamiento específico para los sitios pequeños y personales, sugiriendo que podrían jugar con otras reglas diferentes en el algoritmo”.
  • “Google usa comentarios de evaluadores de calidad y datos de clics para determinar cómo ponderar los enlaces en sus rankings, resaltando la importancia de la interacción del usuario”.