Explicación de las demandas de IA: ¿A quién demandan?

Getty Images/iStockphoto

Mucha gente siente que es hora de que las empresas de IA paguen por los almuerzos de datos gratuitos que han hecho que sus sistemas generativos sean grandes y fuertes.

Recientemente, se ha presentado una serie de acciones legales exigiendo compensación a las empresas de inteligencia artificial en Estados Unidos y Europa. Entre los demandantes se incluyen autores y artistas, que han expresado constantemente su preocupación por el hecho de que la IA robe sus obras y produzca derivados mediocres.

Una carta abierta del Authors Guild, firmada por más de 8.500 autores, incluidos Margaret Atwood, Dan Brown y Jodi Picoult, insta a las empresas tecnológicas responsables de aplicaciones de IA generativa, como ChatGPT y Bard, a dejar de utilizar sus obras sin la autorización adecuada. o compensación. Los autores quieren que las empresas paguen por los datos que recopilaron para la capacitación: el "alimento" para los sistemas de IA, comidas interminables por las que no se ha cobrado ninguna factura.

Los autores también expresan su preocupación de que la IA generativa amenace su profesión al inundar el mercado con contenido escrito por máquina basado en su trabajo. Este fue un problema en los últimos meses cuando Amazon tomó medidas contra los autores de IA que enviaban spam a la lista de libros más vendidos con obras generadas.

Antes de la publicación de la carta del Authors Guild, dos autores norteamericanos, Mona Awad y Paul Tremblay, presentaron una demanda contra OpenAI, alegando que la organización violó la ley de derechos de autor. La demanda argumentó que OpenAI violó la ley de derechos de autor porque ChatGPT generó resúmenes precisos de las obras del autor y, por lo tanto, debió haberse entrenado en las obras de los autores.

No son los únicos. La autora y comediante Sarah Silverman también está demandando a OpenAI y Meta por reproducir ilegalmente sus memorias, The Bedwetter, sin permiso. Sin embargo, es posible que ese argumento no se sostenga ante los tribunales debido a la forma en que funciona la IA generativa.

La IA generativa es la tecnología que impulsa ChatGPT y Bard. La IA generativa basada en texto utiliza algoritmos para predecir las siguientes palabras probables en el texto y genera ese texto en función de una indicación del usuario. ChatGPT sabe qué generar porque fue entrenado con un gran corpus de datos disponibles públicamente en Internet. Aprendió patrones de la capacitación y los relaciona con las indicaciones del usuario.

Las IA generativas suelen ser sistemas de IA de caja negra, lo que significa que nadie (ni siquiera los programadores) comprende los pasos exactos que sigue la máquina para pasar de la entrada a la salida. La información entra, ocurre la magia y sale la salida.

Todas las herramientas de aprendizaje automático e inteligencia artificial generativa utilizan trabajos preexistentes de algún tipo.

La gente está demandando a las empresas de inteligencia artificial por derechos de autor. Aunque ChatGPT se entrena con datos de Internet, lo hace sin el permiso de los creadores de los datos. Por ejemplo, GPT-3 se entrenó en Wikipedia y Reddit, entre otras fuentes. Sin embargo, en el material de capacitación podrían existir conversaciones y segmentos de obras protegidas por derechos de autor y brindar modelos lingüísticos amplios con suficiente contexto para resumir con precisión esas obras protegidas por derechos de autor.

A mayor escala, la gente está demandando porque la IA es una caja negra y es imposible saber cómo funciona a nivel granular. El temor es que la gente utilice la IA para evitar asumir la responsabilidad de sus decisiones o de las cosas que produce.

"Si a las empresas de IA se les permite comercializar sistemas de IA que son esencialmente cajas negras, podrían convertirse en los dispositivos definitivos en los que el fin justifica los medios", escribió en su blog Matthew Butterick, uno de los abogados detrás de varias de las demandas. "En poco tiempo, no delegaremos decisiones a los sistemas de IA porque funcionan mejor. Más bien, delegaremos decisiones a los sistemas de IA porque pueden salirse con la suya en todo lo que nosotros no podemos".

Se han presentado numerosos casos contra empresas de IA generativa por derechos de autor y uso indebido. Estas son algunas de las empresas demandadas.

Se presentó una demanda colectiva contra estas empresas relacionada con la herramienta Copilot de GitHub. La herramienta genera código de forma predictiva en función de lo que el programador ya ha escrito. Los demandantes alegan que Copilot copia y vuelve a publicar código de GitHub sin cumplir con los requisitos de la licencia de código abierto de GitHub, como no proporcionar atribución. La queja también incluye reclamos relacionados con el mal manejo de datos e información personal por parte de GitHub, así como reclamos de fraude. La denuncia se presentó en noviembre de 2022. Microsoft y GitHub han intentado repetidamente que se desestime el caso.

En enero de 2023 se presentó una denuncia contra estos proveedores de generadores de imágenes de IA. Los demandantes alegaron que los sistemas infringen directamente los derechos de autor de los demandantes al capacitar sobre obras creadas por los demandantes y crear obras derivadas no autorizadas. La denuncia también cuestiona el hecho de que las herramientas puedan utilizarse para generar obras al estilo de los artistas. El juez del caso, William Orrick, dijo que se inclinaba por desestimar la demanda.

En enero de 2023, Getty Images presentó una denuncia contra Stability AI por supuestamente copiar y procesar millones de imágenes y metadatos asociados propiedad de Getty en el Reino Unido. Getty presentó otra demanda contra Stability AI en el Tribunal de Distrito de EE. UU. para el Distrito de Delaware días después, que planteó muchos reclamos relacionados con derechos de autor y marcas registradas, y señaló imágenes generadas "extrañas o grotescas" que contenían la marca de agua de Getty Images y, por lo tanto, dañaron la reputación de Getty.

Los autores Paul Tremblay y Mona Awad están demandando a OpenAI por supuestamente infringir los derechos de autor de los autores. Butterick es uno de los abogados que representa a los autores. La denuncia estimó que se copiaron más de 300.000 libros en los datos de entrenamiento de OpenAI. La demanda busca una cantidad de dinero no especificada. El caso fue presentado en junio de 2023.

La demanda de Sarah Silverman contra Meta y OpenAI alegó una infracción de derechos de autor y dijo que ChatGPT y Large Language Model Meta AI (Llama) fueron entrenados en conjuntos de datos adquiridos ilegalmente con su trabajo contenido. La demanda alega que los libros fueron adquiridos de bibliotecas paralelas, como Library Genesis, Z-Library y Bibliotek, donde los libros se pueden descargar mediante torrents. Torrenting es un método común para descargar archivos sin el permiso legal adecuado. Específicamente, el modelo de lenguaje de Meta, Llama, fue entrenado en un conjunto de datos llamado Pile, que utiliza datos de Bibliotek, según un artículo de EleutherAI, la compañía que ensambló Pile. La demanda se presentó en julio de 2023.

Se está interponiendo una demanda colectiva contra Google por presunto uso indebido de información personal e infracción de derechos de autor. Algunos de los datos especificados en la demanda incluyen fotografías de sitios web de citas, listas de reproducción de Spotify, vídeos de TikTok y libros utilizados para entrenar a Bard. La demanda, presentada en julio de 2023, decía que Google podría deber al menos 5 mil millones de dólares. Los demandantes han optado por permanecer en el anonimato.

Estos casos de derechos de autor contra grandes empresas tecnológicas no son los primeros de su tipo. En 2015, el Author's Guild demandó a Google por hacer copias digitales de millones de libros y proporcionar fragmentos de ellos al público. El tribunal finalmente favoreció a Google, diciendo que las obras eran transformadoras y no proporcionaban un sustituto de mercado para los libros.

Las demandas anteriores serán importantes para responder las siguientes preguntas:

A medida que los casos siguen tomando forma y surgen respuestas, las empresas involucradas con herramientas de IA generativa deben buscar orientación sobre la intersección de la IA y la propiedad intelectual y verificar si necesitan estrategias de mitigación de riesgos.