La elección difícil que impone Google a los sitios web: compartir datos o morir

La herramienta de Google que examina el contenido web para dar con sus respuestas de IA es la misma que realiza un seguimiento de las páginas web para los resultados de búsqueda, según los editores

El dilema es especialmente agudo para los editores, que se enfrentan a la disyuntiva de ofrecer sus contenidos para que los utilicen modelos de IA que podrían dejar sus sitios obsoletos o desaparecer de la búsqueda de Google, una de sus principales fuentes de tráfico.
Por Julia Love - Davey Alba
19 de agosto, 2024 | 03:00 AM

Bloomberg — Las cómodas respuestas de inteligencia artificial que Google coloca ahora en la parte superior de sus resultados de búsqueda tienen un coste elevado para los sitios web que los usuarios visitarían de otro modo. Pero muchos propietarios de sitios dicen que no pueden permitirse impedir que la IA de Google resuma su contenido.

Lea también: Tras fallo por monopolio, Departamento de Justicia de EE.UU. estudiaría desmantelar Google

Esto se debe a que la herramienta de Google que examina el contenido web para dar con sus respuestas de IA es la misma que realiza un seguimiento de las páginas web para los resultados de búsqueda, según los editores. Bloquear a Google, de Alphabet Inc. (GOOGL), del mismo modo que los sitios han bloqueado a algunos de sus competidores de IA, también obstaculizaría la capacidad de un sitio para ser descubierto en línea.

PUBLICIDAD

El dominio de Google en las búsquedas -que un tribunal federal dictaminó la semana pasada que es un monopolio ilegal- le está dando una ventaja decisiva en las guerras en curso de la IA, que las nuevas empresas de búsquedas y los editores consideran injusta a medida que la industria va tomando forma. El dilema es especialmente agudo para los editores, que se enfrentan a la disyuntiva de ofrecer sus contenidos para que los utilicen modelos de IA que podrían dejar sus sitios obsoletos o desaparecer de la búsqueda de Google, una de sus principales fuentes de tráfico.

"Se convierte como en una crisis existencial para estas empresas", dijo Joe Ragazzo, editor del sitio de noticias Talking Points Memo. "Son dos malas opciones. Te retiras y mueres inmediatamente, o te asocias con ellos y probablemente mueras lentamente, porque al final tampoco te van a necesitar".

Google dijo que los resúmenes AI -los resúmenes que aparecen en la parte superior de la búsqueda de Google- forman parte de su compromiso de larga data de servir información de mayor calidad y reforzar las oportunidades para los editores y otras empresas. “Cada día, Google envía miles de millones de clics a sitios de toda la web, y nuestra intención es que continúe este intercambio de valor establecido desde hace tiempo con los sitios web”, afirmó un portavoz de Google en un comunicado. “Con los resúmenes de IA, la gente encuentra la búsqueda más útil y vuelve a buscar más, lo que crea nuevas oportunidades para que se descubran contenidos”.

PUBLICIDAD

Le puede interesar: Denuncian a X en nueve países por entrenar IA con datos de 60 millones de usuarios

Desde sus primeros días, Google ha desplegado una pieza de software conocida como Googlebot para visitar o “rastrear” millones de sitios web, construyendo un repositorio detallado de la Internet global. Ese índice ha supuesto una desalentadora barrera de entrada para las empresas que han intentado construir motores de búsqueda rivales a lo largo de los años, incluso para aquellas con bolsillos profundos, como Microsoft Corp. (MSFT).

El auge de la IA generativa ha provocado una nueva oleada de empresas emergentes que buscan ofrecer productos de búsqueda en los que los modelos de IA ofrezcan respuestas sucintas a las preguntas de los usuarios. La popularidad de los chatbots ha desatado el pánico en Google sobre el futuro de su motor de búsqueda, que durante tanto tiempo pareció invencible. Pero antes de que estas startups puedan amenazar realmente el negocio del gigante de las búsquedas, deben rastrear la web. Y eso no es tarea fácil.

Ser rastreado cuesta dinero, potencia de cálculo y almacenamiento a los propietarios de sitios web, por lo que muchos editores incluyen un archivo que establece las normas para los robots que visitan sus sitios. Las empresas a las que se les da más libertad de acción suelen ser Google y Bing de Microsoft, que pueden dirigir el tráfico a los sitios a través de sus motores de búsqueda.

En esta ilustración fotográfica, la página de inicio del motor de búsqueda Google Chrome aparece en la pantalla de un ordenador el 08 de junio de 2023 en París, Francia.

Pero las startups de búsqueda no pueden prometer ese tráfico antes de ganar tracción, que es una de las razones por las que las jóvenes empresas han comenzado a llegar a acuerdos para pagar a los editores por la licencia de contenidos, dijo Alex Rosenberg, director ejecutivo de Tako Inc, una startup de IA.

"Ahora hay un montón de empresas tecnológicas que están pagando por el contenido, están pagando por el acceso a eso porque lo necesitan para poder competir de alguna manera seria", dijo Rosenberg. "Mientras que para Google, en realidad no tienen que hacer eso".

En medio de una oleada de acuerdos entre empresas de medios de comunicación y startups de IA, Google ha sido un notable reticente. Con la excepción de un supuesto acuerdo de US$60 millones con Reddit Inc (RDDT), Google ha señalado a los editores a puerta cerrada que no está interesado en negociar, según dos personas con conocimiento del asunto, que pidieron no ser identificadas porque la información es privada.

Las empresas de medios de comunicación tienen poca influencia en estas conversaciones. A principios de este año, Google puso en marcha los resúmenes de IA (AI Overviews), en los que la empresa utiliza la IA para dar respuestas sucintas a algunas de las preguntas de los usuarios en la parte superior de la página de búsqueda. Los editores se preocuparon de inmediato por el impacto que las respuestas podrían tener en su tráfico, pero no tenían una forma clara de abordar esos temores.

PUBLICIDAD

Le recomendamos: De Google a Amazon: las grandes tecnológicas no convencen a Wall Street de que la IA es rentable

Google utiliza un rastreador independiente para algunos productos de IA, como su chatbot Gemini. Pero su rastreador principal, el Googlebot, sirve tanto a los resúmenes de IA como a la búsqueda de Google. Un portavoz de la empresa dijo que Googlebot gobierna los resúmenes de IA porque la IA y el motor de búsqueda de la empresa están profundamente entrelazados. El portavoz añadió que su página de resultados de búsqueda muestra información en diversos formatos, incluidas imágenes y gráficos. Google también dijo que los editores pueden bloquear páginas específicas o partes de páginas para que no aparezcan en AI Overviews en los resultados de búsqueda, pero eso probablemente también impediría que esos fragmentos aparecieran en todas las demás funciones de búsqueda de Google, incluidos los listados de enlaces web.

Muchos editores, que a menudo dependen de los motores de búsqueda para al menos la mitad de su tráfico, no están dispuestos a correr el riesgo de minimizar su alcance.

La postura de Google "subestima el importante riesgo que esto supone para los creadores de contenidos, en particular para aquellos que dependen de la visibilidad en las búsquedas para ganarse la vida", afirma Marc McCollum, responsable de innovación de Raptive, que representa a editores y personas influyentes. "Al excluirse, los creadores pueden reducir inadvertidamente su presencia general en las búsquedas, lo que podría perjudicar su capacidad para llegar al público y generar ingresos".

PUBLICIDAD

Kyle Wiens, director general de iFixit, un sitio web que publica guías gratuitas de reparación en línea de productos electrónicos de consumo, afirmó que la relación del sitio con Google es "mucho más tenue" que con otras empresas de IA. "Puedo bloquear a ClaudeBot para que no nos indexe sin perjudicar nuestro negocio", escribió Wiens en un correo electrónico, refiriéndose al bot de la startup de IA generativa Anthropic. "Pero si bloqueo Googlebot, perdemos tráfico y clientes".

Lea también: Las consecuencias para Latinoamérica si no se cierran las brechas digitales frente a la IA

PUBLICIDAD

El acuerdo de Google con Reddit, donde millones de usuarios participan en acalorados debates sobre temas nicho, ofrece a la empresa un tesoro de información para los modelos de IA. El acuerdo coincidió con los cambios introducidos por Google que impulsaron la presencia de resultados de foros como Reddit en los resultados de búsqueda, lo que provocó un enorme aumento del tráfico hacia el sitio de medios sociales. Un portavoz de Reddit afirmó que las mejoras en la calidad y la velocidad de los productos también han contribuido al crecimiento del tráfico.

La startup de búsqueda Perplexity está en conversaciones con Reddit sobre la concesión de licencias de contenidos, pero el acuerdo con Google ha fijado una tarifa difícil de igualar para una startup, según una persona familiarizada con el asunto. Google dijo que el acuerdo con Reddit es una asociación de gran alcance que abarca algo más que los datos de entrenamiento. El portavoz de Reddit declinó hacer comentarios sobre las conversaciones comerciales. Perplexity declinó hacer comentarios.

Otras startups de búsqueda han llegado a la conclusión de que los datos están simplemente fuera de su alcance.

PUBLICIDAD

"Necesitaríamos 20 años de nuestros ingresos actuales sólo para pagar a Reddit", dijo Vladimir Prelovac, fundador de Kagi, una startup de búsqueda. "Ni siquiera contemplo esa posibilidad".

Las pequeñas startups no están solas en sus luchas. OpenAI lanzó recientemente SearchGPT, una versión de prueba de su popularísimo chatbot adaptado a las búsquedas. Sin embargo, sitios web populares como Amazon, Goodreads y Uniqlo han bloqueado el rastreador GPT de sus sitios, según la documentación pública, lo que podría suponer un problema para las ambiciones de OpenAI en la búsqueda. OpenAI ha dicho que los sitios pueden aparecer en sus resultados de búsqueda incluso si deciden excluir su contenido del entrenamiento de la IA.

Prelovac dijo que al menos la mitad de los costes de Kagi se destinan al rastreo y a otras fuentes de datos de búsqueda. Un índice detallado de la web es una apuesta de mesa para un motor de búsqueda, para ofrecer a los usuarios una visión detallada de los contenidos de Internet. Sin embargo, para las empresas que pretenden responder directamente a las preguntas de los usuarios utilizando la IA, un modelo popularizado por ChatGPT, los datos adquieren otro nivel de importancia, afirma Prelovac.

"Los modelos generativos de IA por sí solos no son muy inteligentes", dijo Prelovac. "Para tener cualquier tipo de resultado de IA generativa de alta calidad, es necesario tener acceso a ese mismo índice de búsqueda".

Lea más: La xAI de Musk aborda la adquisición de la startup Character.AI

La ubicuidad de los archivos robots.txt, que establecen directrices para el rastreo, obliga a las startups a tomar decisiones complejas, dijo Richard Socher, fundador de la startup de búsqueda You.com. No se ha determinado que los archivos sean legalmente vinculantes, por lo que las empresas pueden rastrear datos públicos siempre que no se requieran credenciales de inicio de sesión o de suscriptor, dijo Socher.

"Cuando rastreamos, intentamos no sobrecargar ningún sitio web", dijo. "Cualquier sitio web que tenga un archivo robots.txt que permita rastrear sólo a Google y a nadie más apoya esencialmente un monopolio de búsqueda de Google".

Neeva, una startup de búsqueda fundada por antiguos Googlers que fue comprada por Snowflake Inc. (SNOW) el año pasado, abogó por la “neutralidad del rastreo” para facilitar a las startups la creación de sus índices de búsqueda. A raíz de una sentencia judicial histórica que dictaminó que Google monopolizaba el mercado de las búsquedas en línea, el Departamento de Justicia está considerando la posibilidad de buscar soluciones que incluyan obligar al gigante de las búsquedas a compartir más datos con sus competidores e incluso disolver la empresa, según ha informado Bloomberg. Una de las propuestas que ha atraído gran atención es la de exigir a Google que comparta los datos que recopila a través del Googlebot, o que abra su famoso índice de búsquedas a sus rivales. La Ley de Mercados Digitales de la Unión Europea ya exige a Google que comparta algunos datos de consultas de búsqueda.

Para Wiens, director general de iFixit, la ventaja que Google tiene sobre otras empresas de IA gracias a su imperio de las búsquedas es el núcleo de los problemas antimonopolio de la empresa. "Separar la búsqueda de Google de su trabajo de IA", dijo, "desconfiguraría las cosas".

El motor de búsqueda DuckDuckGo dijo que los cambios tecnológicos en curso en la búsqueda hacen que "el índice de Google relacionado con las preocupaciones antimonopolio sea aún más problemático".

"Los índices de búsqueda son extremadamente importantes en la era de la inteligencia artificial generativa", afirmó Kamyl Bazbaz, vicepresidente senior de asuntos públicos de DuckDuckGo.

Independientemente del resultado del caso antimonopolio, los cambios que se están produciendo en el panorama de las búsquedas subrayan la importancia de que los editores controlen su propio destino y no dependan excesivamente de ninguna plataforma tecnológica, incluida Google, dijo Ragazzo, de TPM.

"Nuestra creencia es que hay que formar relaciones reales con los lectores", dijo Ragazzo, "y así es como se construye una publicación que puede resistir diferentes épocas".

-- Con la colaboración de Leah Nylen y Shirin Ghaffary.

Lea más en Bloomberg.com