Los modelos de lenguaje de IA se entrenan con información sesgada y webs con copywright, según The Washington Post

Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios.

jotamariomontoyamayo 31, 2023

0 4 2 minutes read

[vc_row][vc_column][vc_column_text]Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios. Los modelos de inteligencia artificial (IA) se entrenan con páginas web que incluyen información sesgada y en ocasiones racista, así como con contenido con derechos de autor, según ha concluido The Washington Post en una investigación reciente.

Esta cabecera ha analizado varios conjuntos de datos que se utilizan para entrenar a la IA y, en concreto, ha estudiado el modelo Colossal Clean Crawled Corpus (C4) de Google, que acoge 15 millones de sitios web que utilizados para “instruir a algunas IA de alto perfil”. Entre ellas, T5 de Google o LLaMA de Facebook.

En colaboración con investigadores del Allen Institute for AI, The Washington Post categorizó estas páginas web utilizando Similarweb y descubrió que no se podían clasificar alrededor de un tercio de ellas porque no aparecían en internet.

Una vez hecha la criba, clasificó los 10 millones de sitios web restantes en función de la cantidad de ‘tokens’ -fragmentos de texto que se utilizan para procesar información- que aparecieron de cada uno en este conjunto de datos.

El periódico ha reconocido que la mayoría de estas páginas web pertenecían a sectores como negocios, industrias, tecnología, noticias, arte, entretenimiento, creación de contenido, desarrollo de ‘software’, ciencia y salud.

Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios. Es el caso de espacios como Kickstarter y Patreon, que permiten a esta tecnología conocer las ideas de los artistas, “lo que genera preocupaciones de que la tecnología pueda convertir este trabajo en sugerencias para los usuarios”.

Con ello, ha recordado la problemática existente con los derechos de autor de estas ibras y la demanda colectiva de un grupo de artistas interpuesta el pasado enero a tres compañías dedicadas al arte digital – Stability AI, DeviantArt y Midjourney- por infringir el ‘copywright’ en el desarrollo de obras artísticas con la herramienta Stable Difussion.

Por otra parte, este periódico ha advertido que estos modelos de IA también se entrenan con ‘chatbots’ que comparten información sesgada que podría “conducir a la difusión de prejuicios, propaganda e información errónea sin que los usuarios puedan rastrearlos hasta la fuente original”.

Fuente: EP.[/vc_column_text][/vc_column][/vc_row]

Source

Los modelos de lenguaje de IA se entrenan con información sesgada y webs con copywright, según The Washington Post

Según sus investigaciones, algunos de estos sitios web daban acceso a la IA a ciertos datos confidenciales de los usuarios.

Deja un comentario Cancelar respuesta

Opinión: Lo que usted debe saber como paciente de la Telemedicina

App de universitarios facilita trabajo de profesionales de la salud

Funza lidera área de telemedicina con lanzamiento de la estrategia salud digital

Capacidad predictiva de los servicios de teleasistencia, la telemedicina y la telemonitorización a través del Big Data

Opinión: Telemedicina en los prestadores de servicios de salud “El Modelo de Servicios”

Aumento de consultas médicas virtuales en México

Doce centros de salud de Sevilla premiados por la ACSA

Sacyl conectará 402 nuevos consultorios a su red para llegar al 92% de los pacientes

NUTRIMEDY CITADO ENTRE LAS PRINCIPALES STARTUPS DE TELEMEDICINA EN 2020

Inició la fase de alistamiento de Telemedicina en Caldas

Bolivianos desarrollan un sistema inteligente que detecta la fiebre

Un software desarrollado por empresa colombiana, ayuda a cuidar la salud mental en el campo laboral

¿Qué significa la aprobación de la FDA para la empresa de Musk? – Salud – .

Related Articles

Aumento de consultas médicas virtuales en México

OMS LANZA LA PLATAFORMA MEDEVIS PARA INFORMAR SOBRE DISPOSITIVOS MÉDICOS Y AQUÍ LA PUEDES CONSULTAR

BIREME y SEIDIGI/MinSal perfeccionan el Programa SOF

TELESALUD Y DERECHOS HUMANOS

Deja un comentario Cancelar respuesta

Opinión: Lo que usted debe saber como paciente de la Telemedicina

App de universitarios facilita trabajo de profesionales de la salud

Funza lidera área de telemedicina con lanzamiento de la estrategia salud digital

Capacidad predictiva de los servicios de teleasistencia, la telemedicina y la telemonitorización a través del Big Data

Opinión: Telemedicina en los prestadores de servicios de salud “El Modelo de Servicios”

Aumento de consultas médicas virtuales en México

Doce centros de salud de Sevilla premiados por la ACSA

Sacyl conectará 402 nuevos consultorios a su red para llegar al 92% de los pacientes

NUTRIMEDY CITADO ENTRE LAS PRINCIPALES STARTUPS DE TELEMEDICINA EN 2020

Inició la fase de alistamiento de Telemedicina en Caldas

Bolivianos desarrollan un sistema inteligente que detecta la fiebre