Introducción.
Hemos escuchado que la radio acompaña cuando se está realizando otra labor. Por ejemplo estudiar y escuchar un programa de música. Sin embargo el podcast ha tenido una mayor penetración en los últimos años. Pues la diferencia apunta a que en la radio se da lo que la emisora tiene disponible en este instante. En el podcast uno decide qué escuchar, cuanto tiempo, detenerlo y reproducirlo tantas veces como se desee. Y esta introducción la realizo pues hace unos días estaba conversando con un colega de la radio y me contó que había escuchado el tema de la voces sintéticas y que su carrera estaba en peligro. Puede que en un podcast exista, o no, una voz sintética. Pero en la radio aún no las he escuchado.
La ciencia.
En un estudio realizado en Canadá se encontró que las personas que consumen audio portable (smartphones) de todos las edades y géneros se inclinan un 71.6 por ciento por las voces humanas con respecto a las voces sintéticas.
Pero… ¿qué es una voz sintética? Es una voz generada por un ser humano, grabada de manera digital, y transformada por una inteligencia artificial que realiza algoritmos para unir los fonemas y construir las palabras para que sean entendibles para el ser humano.
A ver, ¿qué!? ¿Un ser humano graba su voz para luego entenderla cuando pasa a través de una “computadora pensante”?
En una versión simplificada: Así es. Casos como este son: Siri, de la compañía Apple. Alexa, de la compañía Amazon. Y Tacotron, de la empresa Google. De este último pueden leer y escuchar el trabajo de los autores Ron J. Weiss, RJ Skerry-Ryan, Eric Battenberg, Soroosh Mariooryad, Diederik P. Kingma en este enlace.
Las voces sintéticas tienen su nacimiento para colaborar e integrar a personas con discapacidad visual al mundo informático. Su inserción por la compañía Macintosh fue en 1984 con MacinTalk. En esta función el sistema operativo lanzaba comandos de audio previamente grabados por un ser humano. Con esta función de reconocimiento, la primera Apple Macintosh (128k), tomaba un texto escrito y generaba su “lectura” reproduciéndolo en audio. Esta tecnología se le llama Text To Speech (TTS por sus siglas en inglés) y lleva más de tres décadas en desarrollo.
El Mercado
Saber que con tanto tiempo de desarrollo y recién darnos cuenta que podría ser una “amenaza” para el mundo de los locutores puede ser abrumador. Sin embargo estamos de acuerdo al usar estos asistentes de voz, que por cierto en el estudio canadiense, las prefieren femeninas pues desempeñándote confianza. ¿Y qué pasa con el mundo de la comunicación y producción de contenidos publicitarios?
Las empresas especializadas en publicidad y marketing prefieren contratar a seres humanos, pues las personas que compran y/o consumen productos o servicios, prefieren voces que suenen como ellas. Aquí radica la importancia del manejo de la intención en la voz humana; tan importantes de profundizar y aprender por los artistas de la voz: los locutores.
Las piezas de comunicación publicitarias como las de información, educación, motivación e inspiración en las audiencias aun deben ser interpretadas por un ser humano y no por una voz sintética. Estas son las diferencias y las fortalezas del ser humano: La intención y su emoción.
Sin embargo en el mundo de la tecnología la historia es muy diferente. Las gigantescas empresas de desarrollo tecnológico están apostando a que la voz artificial se transforme en un estándar. Una estructura que reúne algoritmos enfocados al desarrollo de aplicaciones informáticas, asistentes virtuales, e incluso como soporte para lecturas de largo formato como lo son los libros digitales (ebooks).
Aquí tenemos un breve ejemplo:
Caso
Tomaremos el ejemplo de Amazon. En el 2016 decide realizar el lanzamiento de su servicio de voz artificial Amazon Polly.
Un sistema que hoy oferta una inteligencia artificial basada en redes neuronales digitales que permiten un cercano parecido a la voz humana. Los avances son significativos. Y los precios realmente sorprendentes. Solamente se paga por los caracteres del texto. Cuatro dólares ($4 USD) para su versión estándar y dieciséis dólares ($16 USD) para su versión “natural – conversacional” en un texto que no supere el millón de caracteres. Pueden acceder a este enlace para el detalle de los planes y precios.
Pero existen empresas de comunicación publicitaria que están usando estas tecnologías de voces sintéticas para sus publicaciones en Facebook e Instagram; inclusive en proyectos audiovisuales corporativos, startups, explicativos, institucionales, presentaciones organizacionales, traducciones idiomáticas, por nombrar algunas.
Aquí tenemos otro ejemplo:
Conclusión
Como puedes ver la carrera continúa. Y hay que seguir perfeccionándose. Por el momento y cito a Morpheus (The Matrix Reloaded, 2003):
“¡Zion, escúchame! Es cierto, lo que muchos de ustedes han escuchado. Las máquinas han reunido un ejército y, mientras hablo, ese ejército se está acercando a nuestro hogar. Créanme cuando les digo que tenemos un momento difícil por delante. Pero si vamos a estar preparados para ello, primero debemos deshacernos de nuestro miedo. Estoy aquí, ante ustedes ahora, sinceramente sin miedo. ¿Por qué? ¿Porque yo creo en algo que ustedes no? No, estoy aquí sin miedo porque lo recuerdo. Recuerdo que estoy aquí no por el camino que tengo por delante, sino por el camino que hay detrás de mí. Recuerdo que durante 100 años hemos luchado contra estas máquinas. Recuerdo que durante 100 años han enviado sus ejércitos a destruirnos, y después de un siglo de guerra recuerdo lo que más importa … ¡Seguimos aquí! Hoy, enviemos un mensaje a ese ejército. Esta noche, agitemos esta cueva. Esta noche, hagamos temblar estos pasillos de tierra, acero y piedra, seamos escuchados desde el núcleo rojo hasta el cielo negro. Esta noche, hagámosles recordar que esto es Zion, ¡y no tenemos miedo!”