{"id":345698,"date":"2024-12-13T19:23:11","date_gmt":"2024-12-13T18:23:11","guid":{"rendered":"https:\/\/sftarticles.wpenginepowered.com\/es\/?p=345698"},"modified":"2024-12-23T03:43:24","modified_gmt":"2024-12-23T02:43:24","slug":"harvard-lanza-un-enorme-conjunto-de-datos-para-entrenar-ia-en-colaboracion-con-microsoft-y-openai","status":"publish","type":"post","link":"https:\/\/cms-articles.softonic.io\/es\/harvard-lanza-un-enorme-conjunto-de-datos-para-entrenar-ia-en-colaboracion-con-microsoft-y-openai\/","title":{"rendered":"Harvard lanza un enorme conjunto de datos para entrenar IA en colaboraci\u00f3n con Microsoft y OpenAI"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">La <strong>Universidad de Harvard<\/strong> ha <a href=\"https:\/\/hls.harvard.edu\/today\/harvards-library-innovation-lab-launches-initiative-to-use-public-domain-data-to-train-artificial-intelligence\/\" target=\"_blank\" rel=\"noopener nofollow\" title=\"\">anunciado<\/a> el lanzamiento de un nuevo y extenso conjunto de datos (dataset) que re\u00fane <strong>cerca de un mill\u00f3n de libros en dominio p\u00fablico<\/strong>, disponibles para entrenar modelos de lenguaje y herramientas de inteligencia artificial. Este proyecto, liderado por la reci\u00e9n formada <strong>Iniciativa Institucional de Datos (IDI)<\/strong> de la reputada universidad, ha contado con financiaci\u00f3n de <strong>Microsoft<\/strong> y <strong>OpenAI<\/strong>. Los libros provienen del proyecto <strong>Google Books<\/strong> y abarcan una amplia variedad de g\u00e9neros, \u00e9pocas e idiomas, desde cl\u00e1sicos de Shakespeare hasta manuales de matem\u00e1ticas en checo.<\/p>\n\n\n<div class=\"sc-card-starred-link\">\r\n  <div class=\"sc-card-starred-link__body\">\r\n    <div class=\"sc-card-starred-link__row clearfix\">\r\n      <div class=\"sc-card-starred-link__col-logo\">\r\n        <img decoding=\"async\" class=\"sc-card-starred-link__img\" src=\"https:\/\/articles-img.sftcdn.net\/sft\/articles\/auto-mapping-folder\/sites\/3\/2024\/09\/newsletter.png\" width=\"100px\" height=\"100px\">\r\n      <\/div>\r\n      <div class=\"sc-card-starred-link__col-title\">\r\n        <p class=\"sc-card-starred-link__title\">Suscr\u00edbete a la Newsletter de Softonic y recibe las \u00faltimas noticias en tech, juegos, entretenimiento en tu buz\u00f3n de correo<\/p>\r\n        <a class=\"sc-card-starred-link__button\" href=\"https:\/\/softonic-es.beehiiv.com\/subscribe\" target=\"_blank\" rel=\"noopener noreferrer sponsored\">Suscr\u00edbete (es GRATIS) \u25ba <\/a>\r\n      <\/div>\r\n    <\/div>\r\n    <a class=\"sc-card-starred-link__link\" href=\"https:\/\/softonic-es.beehiiv.com\/subscribe\" target=\"_blank\" rel=\"noopener noreferrer sponsored\"><\/a>\r\n  <\/div>\r\n<\/div>\n\n\n\n<p class=\"wp-block-paragraph\">El conjunto de datos, unas cinco veces mayor que el conocido <a href=\"https:\/\/www.aiaaic.org\/aiaaic-repository\/ai-algorithmic-and-automation-incidents\/books3-ai-training-dataset\" target=\"_blank\" rel=\"noopener nofollow\" title=\"\"><strong>Books3<\/strong><\/a> usado para entrenar modelos como <a href=\"https:\/\/www.softonic.com\/articulos\/llama-la-ia-de-meta-no-es-tan-abierta-como-dice-ser\" title=\"\"><strong>Llama<\/strong> de <strong>Meta<\/strong><\/a>, busca democratizar el acceso a repositorios de alta calidad, normalmente exclusivos de gigantes tecnol\u00f3gicos. <strong>Greg Leppert<\/strong>, director ejecutivo de la IDI, destac\u00f3 que el objetivo es <strong>equilibrar las oportunidades para investigadores independientes y peque\u00f1as empresas del sector de la IA<\/strong>, permitiendo que dispongan de materiales refinados y revisados rigurosamente.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Microsoft y OpenAI han respaldado este proyecto como parte de sus esfuerzos por fomentar el acceso a datos \u00e9ticos y p\u00fablicos en la creaci\u00f3n de IA. Sin embargo, Microsoft aclar\u00f3 que <strong>no planea sustituir completamente los datos que utiliza en sus propios modelos por opciones de dominio p\u00fablico<\/strong>. En paralelo, OpenAI expres\u00f3 su entusiasmo por apoyar iniciativas que busquen un uso m\u00e1s transparente y equitativo de los datos.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1200\" height=\"674\" src=\"https:\/\/articles-img.sftcdn.net\/sft\/articles\/auto-mapping-folder\/sites\/2\/2024\/11\/La-inteligencia-artificial-y-traduccion.jpg?GoogleAccessId=wp-stateless%40kubertonic.iam.gserviceaccount.com&#038;Expires=1781642204&#038;Signature=lzeb6%2Fyu9pal2SzfSuldftZ5lRygU7fxZnYuvdfS8wYujwPty1krNCY6%2FLaIEhZ4Bgizma7RDsAuUJBUUaalVaeaALlwNqOzzdO1X7O%2B%2BP6I%2Fy8HDcUdmd6hsuPkojaQ9g0TiOdeXLfl%2FvdmV9aKHMiInLA5%2Bc4etnSyC1hretpBv%2FOowiExp6EzM2B0LQGy53Sf1xQ2w1DO%2FNfFC1Q4xlZNQYZYCNWIXgspC5tubDJ%2BhFolxDNwHdj7wtfagPB8hZ2hXfCvIyb%2BKP7xhnb6fXfN039odkau31simXrLOycjRUBQedRyDPUo0QZH7GlmFP%2BwmVQ%2FXugounp5f%2BRyKw%3D%3D\" alt=\"La inteligencia artificial y traduccion\" class=\"wp-image-343708\"\/><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">En un contexto de <a href=\"https:\/\/www.softonic.com\/articulos\/artistas-demandan-a-google-por-usar-sus-obras-en-el-entrenamiento-de-una-ia\" title=\"\">multitud de disputas legales sobre el uso de datos protegidos por derechos de autor en la IA<\/a>, este tipo de proyectos apuntan a una soluci\u00f3n que minimice los conflictos. Adem\u00e1s del conjunto de libros, la IDI colabora con la <strong>Biblioteca P\u00fablica de Boston<\/strong> para <strong>digitalizar millones de art\u00edculos period\u00edsticos en dominio p\u00fablico<\/strong>. Se espera que la distribuci\u00f3n del proyecto incluya a <strong>Google<\/strong>, aunque los detalles a\u00fan est\u00e1n por definirse.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Este esfuerzo se suma a iniciativas similares, como el dataset <strong>Common Corpus<\/strong> de la startup francesa <strong>Pleias<\/strong>, respaldado por el Ministerio de Cultura franc\u00e9s. Seg\u00fan expertos, estas bases de datos \u201cpodr\u00edan cambiar las reglas del juego\u201d, aunque su impacto depender\u00e1 de su integraci\u00f3n con datos licenciados y de <strong>su capacidad para reducir la dependencia de materiales no autorizados<\/strong>.<\/p>\n\n\n<div class=\"sc-card-program\">\r\n  <div class=\"sc-card-program__body\">\r\n    <div class=\"sc-card-program__row clearfix\">\r\n      <div class=\"sc-card-program__col-logo\">\r\n        <img decoding=\"async\" class=\"sc-card-program__img\" src=\"https:\/\/images.sftcdn.net\/images\/t_app-icon-s\/p\/b330d2b7-464c-4693-b81d-2c97b1edf062\/857405465\/chatgpt-logo\" alt=\"ChatGPT\" width=\"100px\" height=\"100px\">\r\n      <\/div>\r\n      <div class=\"sc-card-program__col-title\">\r\n        <span class=\"sc-card-program__title\">ChatGPT<\/span>\r\n        <a class=\"sc-card-program__button sc-card-program-internal\" href=\"https:\/\/chatgpt.softonic.com\/iphone\" target=\"_self\" rel=\"noopener noreferrer\">DESCARGAR<\/a>\r\n      <\/div>\r\n      <div class=\"sc-card-program__col-rating\">\r\n        <svg class=\"rating-score__content\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" version=\"1.1\" x=\"0\" y=\"0\" viewbox=\"0 0 50 50\" enable-background=\"new 0 0 50 50\" xml:space=\"preserve\"><path class=\"rating-score__background rating-score--good\" fill=\"none\" stroke-width=\"6\" stroke-miterlimit=\"10\" d=\"M40 40c8.3-8.3 8.3-21.7 0-30s-21.7-8.3-30 0 -8.3 21.7 0 30\"><\/path><path class=\"rating-score__value rating-score__value--0\" fill=\"none\" stroke-width=\"6\" stroke-dashoffset=\"0\" stroke-miterlimit=\"10\" d=\"M40 40c8.3-8.3 8.3-21.7 0-30s-21.7-8.3-30 0 -8.3 21.7 0 30\"><\/path><text class=\"rating-score__number\" content=\"\" text-anchor=\"middle\" transform=\"matrix(1 0 0 1 25 31.0837)\" data-auto=\"app-user-score\"><\/text><\/svg>\r\n      <\/div>\r\n    <\/div>\r\n    <div class=\"sc-card-program__row\">\r\n      <span class=\"sc-card-program__description\"><\/span>\r\n    <\/div>\r\n    <div class=\"sc-card-program__row\">\r\n      <img decoding=\"async\" class=\"sc-card-program__bigpic\" src=\"\" onerror=\"this.style.display='none'\">\r\n    <\/div>\r\n    <a class=\"sc-card-program__link track-link sc-card-program-internal\" href=\"https:\/\/chatgpt.softonic.com\/iphone\" target=\"_self\" rel=\"noopener noreferrer\"><\/a>\r\n  <\/div>\r\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>La Universidad de Harvard ha anunciado el lanzamiento de un nuevo y extenso conjunto de datos (dataset) que re\u00fane cerca de un mill\u00f3n de libros en dominio p\u00fablico, disponibles para entrenar modelos de lenguaje y herramientas de inteligencia artificial. Este proyecto, liderado por la reci\u00e9n formada Iniciativa Institucional de Datos (IDI) de la reputada universidad, &hellip; <a href=\"https:\/\/cms-articles.softonic.io\/es\/harvard-lanza-un-enorme-conjunto-de-datos-para-entrenar-ia-en-colaboracion-con-microsoft-y-openai\/\" class=\"more-link\">Continue reading<span class=\"screen-reader-text\"> &#8220;Harvard lanza un enorme conjunto de datos para entrenar IA en colaboraci\u00f3n con Microsoft y OpenAI&#8221;<\/span><\/a><\/p>\n","protected":false},"author":9256,"featured_media":345699,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","wpcf-pageviews":1},"categories":[9317],"tags":[],"usertag":[],"vertical":[],"content-category":[14053],"class_list":["post-345698","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-news","content-category-ia"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/posts\/345698","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/users\/9256"}],"replies":[{"embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/comments?post=345698"}],"version-history":[{"count":0,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/posts\/345698\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/media\/345699"}],"wp:attachment":[{"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/media?parent=345698"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/categories?post=345698"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/tags?post=345698"},{"taxonomy":"usertag","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/usertag?post=345698"},{"taxonomy":"vertical","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/vertical?post=345698"},{"taxonomy":"content-category","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/content-category?post=345698"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}