La Universidad de Harvard ha anunciado el lanzamiento de un nuevo y extenso conjunto de datos (dataset) que reúne cerca de un millón de libros en dominio público, disponibles para entrenar modelos de lenguaje y herramientas de inteligencia artificial. Este proyecto, liderado por la recién formada Iniciativa Institucional de Datos (IDI) de la reputada universidad, ha contado con financiación de Microsoft y OpenAI. Los libros provienen del proyecto Google Books y abarcan una amplia variedad de géneros, épocas e idiomas, desde clásicos de Shakespeare hasta manuales de matemáticas en checo.
Suscríbete a la Newsletter de Softonic y recibe las últimas noticias en tech, juegos, entretenimiento en tu buzón de correo
Suscríbete (es GRATIS) ►El conjunto de datos, unas cinco veces mayor que el conocido Books3 usado para entrenar modelos como Llama de Meta, busca democratizar el acceso a repositorios de alta calidad, normalmente exclusivos de gigantes tecnológicos. Greg Leppert, director ejecutivo de la IDI, destacó que el objetivo es equilibrar las oportunidades para investigadores independientes y pequeñas empresas del sector de la IA, permitiendo que dispongan de materiales refinados y revisados rigurosamente.
Microsoft y OpenAI han respaldado este proyecto como parte de sus esfuerzos por fomentar el acceso a datos éticos y públicos en la creación de IA. Sin embargo, Microsoft aclaró que no planea sustituir completamente los datos que utiliza en sus propios modelos por opciones de dominio público. En paralelo, OpenAI expresó su entusiasmo por apoyar iniciativas que busquen un uso más transparente y equitativo de los datos.

En un contexto de multitud de disputas legales sobre el uso de datos protegidos por derechos de autor en la IA, este tipo de proyectos apuntan a una solución que minimice los conflictos. Además del conjunto de libros, la IDI colabora con la Biblioteca Pública de Boston para digitalizar millones de artículos periodísticos en dominio público. Se espera que la distribución del proyecto incluya a Google, aunque los detalles aún están por definirse.
Este esfuerzo se suma a iniciativas similares, como el dataset Common Corpus de la startup francesa Pleias, respaldado por el Ministerio de Cultura francés. Según expertos, estas bases de datos “podrían cambiar las reglas del juego”, aunque su impacto dependerá de su integración con datos licenciados y de su capacidad para reducir la dependencia de materiales no autorizados.