Los audiolibros están en auge, pero ¿puede la inteligencia artificial tomar el relevo?


retumbar. eso es normal. A veces, si hay un micrófono cerca, se captan esos molestos sonidos de gorgoteo.

Los narradores de audiolibros de IA no tienen que preocuparse por los extraños ruidos digestivos, pero Leah Allers y el ingeniero Craig Hinkle no son robots. They’re Human, grabando para Nashville Audio Productions a mediados de enero, preocupándose por el gorgoteo, debatiendo dónde enfocarse en la palabra “aumentar” e inclinándose hacia el trabajo detallado para dar un sonido “real” a un libro sobre cómo se comunican las parejas.

NAP Studio está ubicado en The Rukkus Room en Nashville, Tennessee, el mismo lugar donde Taylor Swift grabó su álbum debut siete veces titulado platino. El olor a café impregna la sala de espera. Hinkle está sintonizando cada palabra que sale de la boca de los Allers, mirando desde su iPad con el texto del libro en una pantalla grande que se encuentra en la caja de resonancia del estudio.

“Quiero poner más emoción en estas preguntas”, dijo Allers a Hinkle antes de reproducir una sección del capítulo.

Los audiolibros están en auge. Se espera que el mercado alcance los 33.500 millones de dólares para 2030, frente a los 4.200 millones de dólares de 2021, según la firma de investigación y asesoría Acumen. Ya sea que esto sea el resultado del aumento de la popularidad de los podcasts, una cuestión de comodidad auditiva o un subproducto de la pandemia, no ha escapado a la atención de las empresas de tecnología y al inevitable avance de la inteligencia artificial.

En 2023, el entusiasmo por el potencial de la inteligencia artificial es alto, al igual que la preocupación por el robo de puestos de trabajo de los creadores en apuros. ChatGPT puede escribir cualquier cosa, desde cartas de preautorización de seguros hasta biografías de aplicaciones de citas, con diversos grados de éxito. Plataformas de inteligencia artificial como Lente IA Y OpenAI de Dall-E Escupir arte creado por inteligencia artificial, dejando a muchos de los que se ganan la vida creando arte digital preocupándose por su futuro.

Las empresas de tecnología, incluidas Apple y Google, han estado trabajando en la narración de IA para audiolibros desde hace un tiempo. En 2022, Google lanzará sus servicios a editores en seis países, incluidos Estados Unidos y Canadá. Los narradores de IA de Google tienen nombres como Archie, que suena británico, y Santiago, que habla español. a principios de enero, Apple ha proporcionado un conjunto estable de voces de IA Con nombres como Madison y Jackson, los autores y editores independientes que venden sus libros en Apple Books pueden hacer clic para leer géneros que van desde la fantasía hasta el romance.

La creciente presencia de la inteligencia artificial en las narraciones de audiolibros tiene a los narradores humanos como Tanya Eby en varias etapas de tensión.

331347199-1190718441807713-4240875121857799363-N

La narradora galardonada Tanya Ebe.

Tanya Eby

“No sé si este será mi trabajo de tiempo completo en cinco años”, dijo Eby, un narrador con sede en Grand Rapids, Michigan, que ha grabado más de 1000 libros en los últimos 21 años.

Narradores como Ebbe dicen que su humanidad es exactamente lo que les ayuda a hacer su trabajo. Los narradores toman decisiones sobre todo, especialmente con la ficción, desde la voz del personaje hasta cómo comunicar matices y emociones de una manera que refleje la historia.

“Si un personaje llora después de la muerte de su padre, tengo que transmitir esas lágrimas y llantos en su discurso”, dijo Kathleen Lee, la narradora en Austin, Texas.

Los narradores describen la intimidad de ser una voz en el oído del oyente y se preguntan si incluso la IA más vivaz caería en el valle inquietante. Les preocupa que exista el riesgo de interrumpir el experimento.

Las voces de IA pueden variar desde articuladas hasta completamente disfrazadas. Pero incluso el más fluido puede hacer estallar cables trampa que atraviesan valles con una entrega o un ritmo que parece estancado.

“Todo sobre el consumo de medios es que queremos estar rodeados de ellos”, dijo Jonathan Slip, un narrador que vive en las afueras de Atlanta, Georgia.

El dinero habla

Los puristas de audiolibros pueden tener dificultades para entender por qué alguien elegiría una voz sintética en lugar de una humana. Pero para los editores y autores más pequeños, el tiempo y el dinero pueden ser un argumento más sólido para la santidad del desempeño creativo.

Los audiolibros no generan mucho dinero para University of Michigan Press. La editorial produce alrededor de 100 libros académicos al año, escritos por académicos para académicos o estudiantes.

Puede costar tanto como $6,000 contratar a un narrador para un libro que solo puede generar unos pocos cientos. Y eso sin mencionar el extenso proceso de producción. Puede llevar alrededor de seis horas producir una hora completa de un audiolibro, según ACX, el Intercambio de creación de audiolibros de Amazon.

“La realidad es que, a menos que tenga algún tipo de éxito de ventas, la economía no va a funcionar”, dijo Charles Watkinson, director de University of Michigan Press y bibliotecario de University Publishing en la Biblioteca de la Universidad de Michigan. También es presidente de la University Press Association, una organización profesional para editores académicos.

Para los pequeños autores y editores, el tiempo y el costo de producir un audiolibro pueden ser esquivos. La inteligencia artificial puede cambiar eso.

Hace unos dos años, Google se puso en contacto con University of Michigan Press para participar en un programa piloto. Press ha podido usar la herramienta de Google para crear alrededor de 100 audiolibros producidos digitalmente. Todavía se requiere cierto grado de intervención humana. Watkinson dijo que algunos profesores que han usado Google harán que los estudiantes escuchen la grabación para verificar que se corresponda con el texto. Las imprentas más pequeñas aún pueden tener problemas de personal, aunque el proceso de registro se ha acelerado con la IA.

Watkinson dijo que la Universidad de Michigan está interesada en cómo la IA puede aumentar el acceso a libros que de otro modo no estarían disponibles en formato de audio.

En los primeros días del experimento, se comunicaron con unos 900 escritores con una narración de muestra, y la respuesta general fue que la narración de la IA era solo un poco mejor que lo que un lector de pantalla podría hacer por una persona con discapacidad visual. Sin embargo, para aquellos con problemas de visión que no tengan un lector de pantalla o similar, tal vez la IA podría ayudar a cerrar la brecha de acceso.

En otros casos, los oyentes pueden estar felices de tener un libro grabado en cualquier forma. Una pasante en Watkinson usará audiolibros para continuar estudiando en momentos en los que no tiene un libro abierto frente a ella, como en el autobús o caminando a clase. Lo llamé “escucha intersticial”.

El auge de las voces digitales

Además de grandes nombres como Apple y Google, hay un grupo próspero de empresas más pequeñas que ingresan al campo de la voz de IA.

zen profundo. png

DeepZen está tratando de hacer que la narración de voz de IA suene más natural.

DeepZen

DeepZen es uno de ellos. Fundada en 2018 e inspirada en la película Her de 2013, DeepZen trata sobre un hombre que se enamora de su asistente virtual de IA y ha creado un sistema de procesamiento de lenguaje natural que puede tomar señales del texto y utiliza voces de IA generadas por personas con licencia. narradores, designados con seudónimo.

Uno de los mayores desafíos, dijo el CEO y cofundador Taylan Camis, fue crear una plataforma que no repitiera el texto categóricamente, sino que lo hiciera destacar.

Llevó algunos años llegar al mercado, pero DeepZen ahora permite a los clientes cargar un script y, según su plan de precios, seleccionar un servicio automatizado o administrado. Ambos vienen con niveles de control de calidad, como una verificación de pronunciación, pero la opción administrada presenta una verificación de revisión por parte de editores humanos y dos rondas de correcciones.

El servicio automatizado le costará al cliente $69 por hora completa en comparación con $129 para la opción administrada. DeepZen ha producido casi 3000 libros hasta la fecha, tanto de ficción como de no ficción.

En su sitio web, puedes escuchar muestras de 10 voces, con nombres como Todd, Dahlia y Alice.

En algún lugar del mundo, Todd, Dahlia y Alice son personas reales. Camis cree que las licencias de audio pueden ser una forma de que los narradores coexistan con la IA en la narración.

Este narrador ganará dinero mientras duerme y su voz ganará regalías en Japón [or] China o Sudáfrica.

DeepZen también está trabajando en una forma de hacer que las voces de la IA hablen otros idiomas para aumentar el alcance del mercado.

Y no se moleste en superar los desafíos de hablar un solo idioma: la muerte no tiene por qué interponerse en el camino. DeepZen se ha acercado a la familia del famoso actor de doblaje y narrador Edward Herrmann, quien murió en 2014, para obtener la licencia de su voz. firmado. En cierto sentido, Hermann sigue trabajando después de su muerte.

hablamos de nuevo

Kamis no es el único que piensa que hay una manera de que la IA y los humanos se lleven bien en la narración de audio.

Watkinson, de la Universidad de Michigan, quiere usar la IA como una forma de probar qué libros vale la pena contratar a un ser humano para grabar. Si uno vende bien, el éxito puede justificar el costo. Es fanático de los audiolibros.

“Esta es la rampa para que tengamos narradores humanos”, dijo.

No todo el mundo es optimista. Algunos en la industria se preocupan de que habrá menos trabajos para los narradores que no son populares o que no tienen seguidores propios.

“Todos estos narradores realmente sólidos de clase media… hacen un excelente trabajo y es su sustento, pero no necesariamente serán un atractivo”, dijo Andrea Flake Nisbet, directora ejecutiva de la Asociación de Editores de Libros Independientes.

Después de dos décadas en el campo, Ebbe dijo que se pregunta qué pasaría si finalmente no pudiera encontrar un trabajo de tiempo completo para contarlo.

“¿Qué habilidades tengo que sean competitivas? ¿Cómo voy a entrar en una oficina y qué voy a ofrecer?” ella preguntó.

El narrador Jonathan Slip dijo que sabía que tenía deberes, y que se interesó mucho en los contratos que firmó y los derechos que entregó a su voz.

Otros, como el narrador Andy García-Ross, quieren aprovechar sus puntos fuertes: “Todo lo que podemos hacer es hacer que se enamoren de nuestros programas y sigan trabajando”.

Algunos autores se niegan a utilizar audio digital.

La autora Elizabeth Bell dijo: “Siento que el propósito de una novela es excitar las emociones del lector o del oyente, y esa ficción trata sobre lo que significa ser humano. Una máquina no puede replicar eso”.

El autor Chris Stokel-Walker usó Google para narrar su libro de no ficción TikTok Boom de 2021, sobre la popular aplicación de video, y escribió sobre el resultado en Inverse.

“Ya no era un audiolibro”, escribió Stokel-Walker, “aunque carecía de la emoción y el drama que esperabas, parecía decente”.

Todavía hay muchas preguntas. En un mundo donde las personas ya escuchan voces digitales como Siri y Alexa todos los días, ¿dejarían de importarle a los humanos si una voz digital no sonara tan humana? Para Fleck-Nisbet, la narración de IA es solo una de las muchas preguntas que enfrentará la industria editorial. Otras dudas son sobre la inteligencia artificial y los derechos de autor o propiedad intelectual.

En otras palabras, esto es solo el comienzo.

discurso

Nada de esto significa que los narradores estarán en la fila del paro la próxima semana.

John Behrens, propietario de Nashville Audio Productions, ha trabajado con dos escritores generados por IA en los últimos años, principalmente proporcionando control de calidad. La IA todavía tiene problemas. No podía pronunciar los versículos de la Biblia y tenía dificultad para hacer preguntas retóricas en el texto.

Un mal audiolibro, dijo Burns, podría producir de 50 a 100 entradas de problemas que deben solucionarse. AI ha producido cientos. Esto lo lleva a creer que los narradores humanos no irán a ninguna parte, al menos por un tiempo. Se recomienda no entrar en pánico.

“Si vas a vivir con miedo… ¿por qué vas a seguir invirtiendo en esta profesión si crees que se va a acabar?”. Él dijo.

De vuelta en la habitación de Rukkus, Allers y Hinkle se toman un descanso para charlar sobre robots.

Es la primera vez que Allers narra un audiolibro, aunque ha realizado muchos trabajos de doblaje y doblaje, incluso para Netflix.

Hinkle no es fanático de la inteligencia artificial.

“Un robot está leyendo un libro”, dijo. “Todavía creo que pasará mucho tiempo antes de que se vea tan natural y talentoso”.

Simplemente no le digas a Madison y Jackson.

Nota de los editores: CNET usa un motor de inteligencia artificial para crear algunas explicaciones sobre finanzas personales que nuestros editores editan y verifican. Para más ver Esta publicación.