Los modelos de lenguaje de IA se entrenan con información sesgada y webs con copywright, según The Washington Post

Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios.

jotamariomontoya

mayo 31, 2023

https://www.ciudad.com.ar/

[vc_row][vc_column][vc_column_text]Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios. Los modelos de inteligencia artificial (IA) se entrenan con páginas web que incluyen información sesgada y en ocasiones racista, así como con contenido con derechos de autor, según ha concluido The Washington Post en una investigación reciente.

Esta cabecera ha analizado varios conjuntos de datos que se utilizan para entrenar a la IA y, en concreto, ha estudiado el modelo Colossal Clean Crawled Corpus (C4) de Google, que acoge 15 millones de sitios web que utilizados para “instruir a algunas IA de alto perfil”. Entre ellas, T5 de Google o LLaMA de Facebook.

En colaboración con investigadores del Allen Institute for AI, The Washington Post categorizó estas páginas web utilizando Similarweb y descubrió que no se podían clasificar alrededor de un tercio de ellas porque no aparecían en internet.

Una vez hecha la criba, clasificó los 10 millones de sitios web restantes en función de la cantidad de ‘tokens’ -fragmentos de texto que se utilizan para procesar información- que aparecieron de cada uno en este conjunto de datos.

El periódico ha reconocido que la mayoría de estas páginas web pertenecían a sectores como negocios, industrias, tecnología, noticias, arte, entretenimiento, creación de contenido, desarrollo de ‘software’, ciencia y salud.

Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios. Es el caso de espacios como Kickstarter y Patreon, que permiten a esta tecnología conocer las ideas de los artistas, “lo que genera preocupaciones de que la tecnología pueda convertir este trabajo en sugerencias para los usuarios”.

Con ello, ha recordado la problemática existente con los derechos de autor de estas ibras y la demanda colectiva de un grupo de artistas interpuesta el pasado enero a tres compañías dedicadas al arte digital – Stability AI, DeviantArt y Midjourney- por infringir el ‘copywright’ en el desarrollo de obras artísticas con la herramienta Stable Difussion.

Por otra parte, este periódico ha advertido que estos modelos de IA también se entrenan con ‘chatbots’ que comparten información sesgada que podría “conducir a la difusión de prejuicios, propaganda e información errónea sin que los usuarios puedan rastrearlos hasta la fuente original”.

Fuente: EP.[/vc_column_text][/vc_column][/vc_row]

Source