{"id":266169,"date":"2023-01-11T15:13:14","date_gmt":"2023-01-11T15:13:14","guid":{"rendered":"https:\/\/sftarticles.wpenginepowered.com\/es\/?p=266169"},"modified":"2025-06-12T21:35:27","modified_gmt":"2025-06-12T19:35:27","slug":"valle-ia-microsoft-voz-humana","status":"publish","type":"post","link":"https:\/\/cms-articles.softonic.io\/es\/valle-ia-microsoft-voz-humana\/","title":{"rendered":"VALL-E, la IA de Microsoft que puede imitar cualquier voz humana"},"content":{"rendered":"\n<p>Puede que <a href=\"https:\/\/www.softonic.com\/articulos\/las-ia-tienen-fecha-de-caducidad-y-es-mas-pronto-de-lo-que-creemos\" title=\"las Inteligencias Artificiales tengan fecha de caducidad\">las Inteligencias Artificiales tengan fecha de caducidad<\/a>, pero la industria contin\u00faa evolucionando con decenas de iniciativas que son cada vez m\u00e1s incre\u00edbles. La \u00faltima de estas iniciativas es <strong><a href=\"https:\/\/valle-demo.github.io\/\" title=\"VALL-E\">VALL-E<\/a>, una Inteligencia Artificial presentada por Microsoft que puede replicar e imitar cualquier voz humana<\/strong> tras apenas unos segundos de escucha.<\/p>\n\n\n\n<p>Lo m\u00e1s curioso de esta innovadora tecnolog\u00eda es que no es la primera vez que una empresa crea una IA que sea capaz de imitar la voz humana. Sin embargo, los anteriores intentos han demostrado cu\u00e1n dif\u00edcil y lento es el desarrollo de una IA de estas caracter\u00edsticas. El problema principal se debe a que <strong>estos sistemas tardaban demasiado en aprender a diferenciar e interpretar cada voz individual<\/strong>, sin mencionar las complejidades vocales de cada persona en su forma de hablar.<\/p>\n\n\n\n<p>Microsoft ha dado un paso de gigante con esta tecnolog\u00eda. <strong>Vall-E ha asombrado a toda la comunidad tecnol\u00f3gica<\/strong>, ya que es capaz de replicar el habla humana en un tiempo incre\u00edblemente corto. De hecho, tan solo necesita unos segundos. De promedio, <strong>Vall-E tan solo necesita unos 3 segundos<\/strong> para replicar la voz, entonaci\u00f3n y caracter\u00edsticas vocales generales de alguien. Es, por tanto, el tiempo m\u00e1s corto que ha necesitado nunca una IA de este estilo para lograr resultados satisfactorios.<\/p>\n\n\n\n<p>Si te parece interesante, <strong>los investigadores de la Universidad de Cornell han publicado recientemente un art\u00edculo sobre c\u00f3mo funciona Vall-E.<\/strong> El art\u00edculo tambi\u00e9n desglosa todas las diferencias entre Vall-E y otros sintetizadores de texto a voz. Os dejamos con un extracto del documento muy interesante:<\/p>\n\n\n\n<p>&#8220;Los datos a gran escala rastreados desde Internet no pueden cumplir con los requisito y siempre conducen a una degradaci\u00f3n del rendimiento. Debido a que los datos de entrenamiento son relativamente peque\u00f1os, <strong>los sistemas TTS actuales a\u00fan sufren una mala generalizaci\u00f3n<\/strong>. La similitud del hablante y la naturalidad del habla disminuyen dr\u00e1sticamente para los hablantes invisibles en el escenario de tiro cero.<\/p>\n\n\n\n<p><strong>VALL-E supera significativamente al sistema TTS de \u00faltima generaci\u00f3n<\/strong> [Casanova et al., 2022b] en t\u00e9rminos de naturalidad del habla y similitud del hablante, con una puntuaci\u00f3n de opci\u00f3n media comparativa (CMOS) de +0,12 y una similitud de +0,93 Mejora de la puntuaci\u00f3n de opci\u00f3n media (SMOS) en LibriSpeech. VALL-E tambi\u00e9n supera la l\u00ednea de base en VCTK con mejoras de +0.11 SMOS y +0.23 CMOS&#8221;.<\/p>\n\n\n\n<p>En t\u00e9rminos simples, los inteligentes investigadores de la Universidad de Cornell dicen que <strong>Microsoft ha encontrado una forma de hacer algo que se pensaba que era relativamente imposible<\/strong>.<\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Puede que las Inteligencias Artificiales tengan fecha de caducidad, pero la industria contin\u00faa evolucionando con decenas de iniciativas que son cada vez m\u00e1s incre\u00edbles. La \u00faltima de estas iniciativas es VALL-E, una Inteligencia Artificial presentada por Microsoft que puede replicar e imitar cualquier voz humana tras apenas unos segundos de escucha. Lo m\u00e1s curioso de &hellip; <a href=\"https:\/\/cms-articles.softonic.io\/es\/valle-ia-microsoft-voz-humana\/\" class=\"more-link\">Continue reading<span class=\"screen-reader-text\"> &#8220;VALL-E, la IA de Microsoft que puede imitar cualquier voz humana&#8221;<\/span><\/a><\/p>\n","protected":false},"author":9205,"featured_media":266172,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","wpcf-pageviews":2},"categories":[9317],"tags":[],"usertag":[],"vertical":[],"content-category":[],"class_list":["post-266169","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-news"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/posts\/266169","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/users\/9205"}],"replies":[{"embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/comments?post=266169"}],"version-history":[{"count":1,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/posts\/266169\/revisions"}],"predecessor-version":[{"id":366672,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/posts\/266169\/revisions\/366672"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/media\/266172"}],"wp:attachment":[{"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/media?parent=266169"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/categories?post=266169"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/tags?post=266169"},{"taxonomy":"usertag","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/usertag?post=266169"},{"taxonomy":"vertical","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/vertical?post=266169"},{"taxonomy":"content-category","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/es\/wp-json\/wp\/v2\/content-category?post=266169"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}