Hace poco más de 10 años, Siri, el asistente de voz de Apple, se estrenó en el iPhone 4S. La marca Apple se consideraba un pionero tecnológico. En 2011, casi no hay asistentes de este tipo. Siri parece ser la primera de un nuevo tipo, multitarea, capaz de responder e interactuar con el usuario. Desde entonces, muchas empresas se han lanzado a este jugoso mercado, que se espera que tenga un valor de 7.500 millones de dólares en 2024. Amazon tiene Alexa, Google tiene su asistente, Sonos tiene Sonos Voice Control, incluso Microsoft lo ha intentado, sin éxito, con Cortana, al igual que Samsung con Bixby. A pesar de esta proliferación de asistentes de voz y de que ya están presentes en la vida cotidiana de cientos de millones de personas, la desconfianza y las críticas son legión.
Muchos usuarios señalan la falta de confidencialidad, la gestión de los datos personales o las interacciones a veces peligrosas. Frente a estas observaciones, a veces despectivas, existen innovaciones tecnológicas. Algunos expertos también piden que se desmitifique el uso de los datos recogidos. Para hablar de los asistentes de voz, Ondigital Magazine se reunió con Luc Julia, cocreador de Siri, el asistente de Apple.
Cultura digital está disponible en Spotify – Apple Podcasts – Deezer – Google Podcasts – Acast.
Ondigital Magazine : Usted es el creador del asistente de voz de Apple, Siri. Ahora es usted jefe científico del grupo Renault. ¿Es eso cierto?
Luc Julia Eso es, sí.
SD: Creo que mucha gente te conoce, pero me gustaría que repasáramos primero tu trayectoria. ¿Cómo llegó, en primer lugar, a crear un asistente de voz en una época en la que apenas existía? ¿Qué necesidad había de crear un asistente de voz?
LJ Hay que retroceder mucho. Hay que retroceder unos 30 años. Este es el comienzo de Internet. Es 1994-1995. Hay mucho reconocimiento de voz. Mucha gente lo intenta, hay personas que hacen lo que se llama «dictado», es decir, dictado de voz, cosas así, muy especializadas, como en el campo de la medicina. Así que el reconocimiento de voz existe. No funciona muy bien, pero existe. Luego llegó Internet y la gente se preguntaba cómo iba a buscar en esta enorme base de datos. Unos años más tarde, en 1998, Google tuvo la idea de crear una pequeña barra de texto en la que se podía buscar en Internet para encontrar cosas.
Un poco antes, en 1996-1997, nos dijimos: «Sería bueno hacerlo de viva voz», para poder tener la información que hay en este Internet. No sabíamos exactamente qué era. Poder acceder a ella fácilmente con un asistente, es decir, alguien que nos ayude, con quien hablemos para ir a aclarar la cosa y encontrar esta información. Podríamos preguntar: «Encuéntrame todos los hoteles de San Francisco que tengan piscina», cosas así. La voluntad de salir y consultar realmente esta base de datos de forma natural. La forma más natural para nosotros era el lenguaje, era la voz.
SD: ¿Cómo llega un francés a trabajar con Apple, a crear Siri, que ahora todo el mundo conoce?
LJ Esa es otra historia. Como ya he dicho, 1997-1998 fue el comienzo de lo que se llamó «el asistente» en ese momento. Ya llevaba unos años trabajando en Silicon Valley. Soy inmigrante en Silicon Valley desde 1994, así que ha pasado tiempo. Trabajaba en el Instituto de Investigación de Stanford, el equivalente al CNRS, pero en California. Creamos esta cosa con mi amigo Adam Cheyer y esperamos. Hemos esperado mucho tiempo, hasta que Steve Jobs descubrió lo que ya se llamaba Siri, que era un pequeño spin-off de Stanford Research. Nos dijo: » ¡Chicos, yo invito! «. Eso fue en 2010, eso fue unos 13 años después. Cuando eso ocurrió, estábamos haciendo otra cosa en ese momento, pero lo dejamos todo para hacer crecer a nuestro bebé en Apple, a petición de Steve Jobs, y se convirtió en el departamento de Siri, que dirigí durante un tiempo. Para cuando lo sacamos y llegamos a los 300 millones de usuarios en 2011, que no estaba tan mal.
SD: Ahora, después de todos estos años, ¿cómo recuerda su paso por Apple? ¿Ha ido bien, en general, o tiene un sabor un poco agrio?
LJ No hay realmente un sabor amargo, en el sentido de que fue una experiencia increíble poder llevar justo este bebé que habíamos creado años antes. El iPhone 4S, que estrenó Siri, fue una plataforma extraordinaria, y las que le siguieron también. Así que esa parte fue absolutamente magnífica. La parte que es un poco decepcionante es que el visionario que nos metió en este lío, en cierto modo, fue Steve Jobs. Desgraciadamente, Steve Jobs falleció el mismo día, casi, que se lanzó Siri. Ya no había esa visión interior, ya no había ese impulso, digamos, de hacer de Siri un producto estrella del iPhone. Realmente tenía esta visión de… El iPhone seguía siendo un micrófono, en general, era algo con lo que se podía hablar. Tenía esta visión de este «dispositivo» multimedia en el que podríamos dar a Siri todo su potencial.
Desaparece y con él desaparece la llama. No hablo de Tim Cook en particular porque Tim Cook no tenía realmente una opinión sobre la tecnología en sí. Pero estoy hablando del que llegó a ser mi jefe, Scott Forstall, que no entendía nada de Siri. No quería que lo desarrolláramos como nosotros queríamos y con nuestra visión desde el principio. Empezó a zumbar y es cierto que cuando empezó a zumbar, preferimos irnos.
SD: Ahora estás en Renault. Última pregunta sobre su carrera: ¿a qué se dedica? ¿Está muy lejos de los asistentes de voz?
LJ No, no está muy lejos, en el sentido de que llevo 30 años haciendo lo mismo. No puedo hacer nada más. Básicamente lo que hago es: acercar la tecnología a la gente real, eso es lo que me interesa. Ya sean reconocedores de voz, objetos conectados, objetos cotidianos que van a estar conectados, eso es lo que me gusta hacer. En Renault, no se trata de otra cosa que de conectar estos coches. Sabemos que cada vez hay más coches conectados. Podemos hacer cosas con ellos, porque están conectados a Internet, porque están conectados al GPS, etc. Lo sabemos desde hace tiempo. Hace tiempo que lo sabemos. Estos nuevos coches cada vez más complicados, que se convierten en objetos tecnológicos cada vez más avanzados, necesitarán un poco de ayuda para utilizarlos. Este es el paralelismo, una vez más, con lo que ocurrió en los años 90 con Internet, que fue un poco complicado.
Tuvimos que traer ayuda. Vamos a intentar hacer lo mismo dentro de Renault, sabiendo que hay muchas cosas que tocar. También hay fábricas con robots, que tienen muchos datos y que hacen muchas cosas, y nosotros podemos hacerlo aún mejor, con los datos que tenemos. Desde el diseño del coche, pasando por la fabricación, hasta el propio coche. Hay muchas cosas que hacer en Renault, porque es un objeto tecnológico avanzado.
SD: Finalmente, nos quedamos en el mismo campo. Ahora, hablemos un poco más sobre los asistentes de voz. Cuando ves todos los asistentes de voz que hay hoy en día en el mercado, que son muchos, aparte de Siri, ¿qué te parece? ¿Se dice a sí mismo que son buenos productos, buenos servicios, o se desespera por el progreso o la falta de progreso que se ha hecho en los últimos diez años?
LJ Siri cumple exactamente 10 años como en octubre de 2011. En 10 años, ha progresado un poco. Siri no ha sido la que más ha progresado. En los años 2013-2014, llegó un nuevo tipo de asistente, un nuevo tipo de tecnología que está por debajo de estos asistentes. En lugar de utilizar el «machine learning», es decir, la inteligencia artificial algo clásica, empezamos a utilizar el «deep learning», algo un poco más robusto. Siri no dio ese giro, mientras que justo en ese momento llegó Alexa, que utilizó todo el potencial de esta tecnología, y Google, con su Google Assistant, también consiguió dar ese giro. En los años 2013-2014-2015 llegaron estos nuevos asistentes, también estaba Microsoft con Cortana. Así que había tres asistentes que se peleaban con Siri un poco por detrás.
Desde entonces, Microsoft ha abandonado la carrera. Lo importante es la comprensión, porque no es sólo reconocer las palabras, hay que reconocer el significado. Eso es lo complicado, es lo que llamamos lenguaje natural. La comprensión del lenguaje natural es compleja. Gracias a este aprendizaje profundo, estas cosas que tienen bases de datos enormes, gente como Amazon y Google, que tienen muchos datos, hacen un buen trabajo.
Pero seamos claros, Apple se ha puesto un poco al día. Creo que siguen siendo los terceros en calidad, pero todavía un poco por detrás, Siri está un poco por detrás todavía en comparación con Alexa. En el orden, es un poco complicado porque depende de la tarea, pero en la comprensión pura, yo diría que Google está un poco por delante. En la práctica, Alexa va un poco por delante. Depende de cómo se utilicen estos asistentes. Efectivamente, hay una gran cantidad de ellas, como has dicho, pero las grandes de las que hablamos aquí siguen siendo las que dominan el mercado.
SD: También está Samsung con Bixby.
LJ Que está más o menos abandonado.
SD: Siri, buen tercio entonces. Sólo por curiosidad, ¿usas Siri a diario?
LJ Sí, creo que sí, como todo el mundo, es decir, no lo uso como pensábamos que íbamos a usar estos asistentes. Uno piensa que va a ser el grillo que tienes en el hombro con el que vas a hablar todo el día y pedirle cosas todo el día. Ese era el concepto en los años 90, esa era la idea. Creo que no lo usamos así porque nos damos cuenta de que no funciona tan bien. Seamos muy claros al respecto. Todo el mundo, creo, ha encontrado uno o dos usos y sólo lo utilizan para esas cosas, que son cosas sencillas, como «mandar un mensaje a mamá», «llamar a papá», «encender la luz». Cosas así, muy sencillas.
Creo que lo que más se usa en la casa es «encender la música», globalmente, con Siri. Hemos comprobado que esos usos son sencillos. Lo uso para eso, pero no lo uso de la manera en que pensé que lo usaríamos todo el día. Porque además, hay que decir que los equipos de los que vamos a hablar, salvo los altavoces conectados que generalmente están a nuestro alrededor, si no incluso los teléfonos, no son tan prácticos, porque todavía hay que encenderlos, pulsar un botón o algo así. No es tan práctico como podríamos haber imaginado. Pero es cierto que para el uso en el coche, por ejemplo, es interesante decir simplemente la palabra clave y luego tener cosas como potencialmente: «encender las luces», «bajar las ventanillas», etc. Usos muy simples hoy en día, pero no es un problema. Usos muy sencillos hoy en día, porque al final, el reconocimiento no es malo, pero el reconocimiento del significado sigue siendo complicado hoy en día.
SD: Así que todavía tenemos que avanzar mucho en este sentido. Me gustaría tener tu opinión sobre una cosa en particular, que es un proyecto de Amazon. Seguramente habrás oído hablar de ello, y ya lo comentamos en El Siglo Digital en nuestro otro podcast Señales Débiles no hace mucho. Amazon está planeando introducir publicidad en Alexa, para hacer que Alexa responda a preguntas básicas y comunes con anuncios. ¿Qué opina de esta evolución de los asistentes de voz?
LJ Para mí, es una aberración, en el sentido de que va a ser muy complicado, porque vas a tener que hacer coincidir el significado, la cosa con estos anuncios. Será muy complicado. Hoy en día, no sé si es así en Francia, pero en Estados Unidos, por ejemplo, cuando uso el Asistente de Google en el Nido de Google, me aparecen anuncios. Se llama «rodar». Lo que llamamos «rodar» es algo que viene antes. Pido, por ejemplo, que pongan la radio, y pondrá 15 segundos de publicidad antes. Es un poco clásico, además de algo en multimedia, en la televisión o en la radio, pero ya me molesta. Francamente, me cansa porque no consigo lo que quiero inmediatamente. Cuando quiero escuchar algo, es porque quiero escucharlo de inmediato. No quiero escuchar 15 segundos de publicidad. En primer lugar, es un poco inquietante.
Ahora, tener algo que va a ser una especie de lo que Google hace muy bien, en su página, en la búsqueda, es las cosas que aparecen, que se supone que son relevantes con la búsqueda. Son más o menos relevantes porque realmente son publicidad. Así que eso va a ser un poco incómodo porque para tener esta relevancia, que realmente va a estar asociada, como decía, que se va a ceñir exactamente a lo que estamos pidiendo, va a ser complicado. Cuando la gente se dé cuenta de que es sólo publicidad, creo que eso la desanimará un poco.
Pero es la forma que han encontrado para monetizar el asunto, porque no es gratis llevar un servicio así. Son muchos servidores funcionando, porque hay millones de Alexa desplegados por todo el mundo. Decenas de millones. Así que se necesitan grandes servidores porque hay que entender que todos estos flujos de voz van a estos servidores para ser analizados y comprendidos. Hoy en día no se hace mucho a nivel local. El hecho de que hayas comprado el dispositivo no significa que hayas pagado por el servicio, por lo que todavía tienes que monetizarlo. Creo que es la forma que han encontrado para monetizar, pero creo que no es una forma muy buena.
SD: Sí, porque los usuarios pueden ser un poco reacios. Además, es probable que perjudique la experiencia del usuario.
LJ Creo que sí.
SD: Sonos, la marca de audio, lanzó su asistente de voz en junio de este año en Estados Unidos. Pronto llegará a Francia. Hay funcionalidades menos elaboradas que en Alexa o el asistente de Google, pero insistieron en la gestión de datos personales que, precisamente, no enviaron nada a la nube, que se procesan localmente. ¿Crees que este es el futuro de los asistentes de voz? Además, ¿quizás restablece la confianza con los usuarios?
LJ Sí, es interesante. Compraron esta empresa francesa que hacía estos asistentes algo privados, que mantenían todo local. Hace ya dos años, creo. Es realmente interesante. Es interesante, pero es limitado. En cualquier caso, tendremos que entenderlo pronto, y creo que la gente se está dando cuenta de ello con el uso de los asistentes de voz hoy en día. Antes hablábamos de ello, tienen usos muy específicos, nos damos cuenta de que estos asistentes están especializados. Así que, cuando tienes un asistente Sonos en un dispositivo Sonos, es lógico que responda y sea bueno para ajustar mi sonido, para encontrar mi música. Es decir, será excesivamente especializado y podrá entender sólo el vocabulario que ronde el campo del sonido. Esto es algo que puede hacerse a nivel local. Lo que es complicado de hacer es cuando empiezas a ser multidominio, como intentan ser Google y Alexa, donde puedes responder a cualquier cosa y a todo, como «¿Qué edad tenía la madre de Napoleón cuando murió?»
Este tipo de frases son complicadas. Tener eso, que va a ser local, es casi imposible, o hay que tener una batería de ordenadores que sean capaces de recuperarlo. Pero tener algo que diga: «Búscame una canción» en una base de datos, aunque haya millones de canciones, y que me diga «sube el sonido, baja el sonido, juega en la cocina», eso ya es algo que está en un dominio mucho más débil, mucho más pequeño. Cuando se cuenta el número de palabras o el número de frases, se acaba con cientos, sin contar las especificidades de los nombres de los artistas y todo eso. De lo contrario, este tipo de pedidos acabarán en cientos. Cientos es algo que, con el equipo que tenemos ahora, localmente, es capaz de manejar bastante correctamente.
De hecho, restablece la confianza, en el sentido de que es muy privada. Es decir, sé que mi voz no se envía allá arriba y luego potencialmente se me reconoce, se me rastrea, etc. Sigue siendo local. Se mantiene en el ámbito local. Hace lo que tiene que hacer. Ahora bien, la experiencia va a estar un poco degradada, en el sentido de que siempre vas a esperar poder decir algo distinto a lo que se pretendía, por lo que te sentirás un poco decepcionado. Una vez más, para usos específicos y cuando entendamos cuáles son las limitaciones, creo que estaremos completamente bien y completamente contentos con estos experimentos.
SD: En el futuro, ¿crees que no podremos manejar tantas cosas localmente, que Google o Alexa no podrían hacerlo todo localmente? ¿Es imposible?
LJ No, es imposible. Habría que imaginarse que tendrías que tener básicamente -estoy exagerando un poco- todo el Internet en tu local.
SD: La verdad es que es un poco complicado.
LJ No es posible. Lo que imaginábamos como un único asistente, ahora lo imaginas como un multiasistente, así que asistentes por todas partes. Un asistente para el horno que se encargará de cocinar las cosas, un asistente para la nevera, un asistente para las lámparas, un asistente para la música. Cuando empiezas a tener eso, te diriges a cada uno, es un poco molesto, porque tienes que dirigirte al tipo adecuado en el momento adecuado. Tal vez simplemente volviéndose hacia él. Ahora vemos que cada vez hay más cosas en burbujas de sonido. Vamos a ser capaces de capturar sólo el momento en que estás hablando con un dispositivo específico. Así que cuando le hablo a mi nevera, aunque no esté lejos del horno, la nevera entenderá que le estoy hablando. Al hablar con estas cosas, es un poco como hablar con los sirvientes, para ser muy claros, a los que les diremos: «Hazlo tú». Todo el mundo está especializado y creo que esto tiene sentido y se vuelve mucho más débil en términos de tecnología, pero mucho más eficaz para los usuarios.
SD: Se habla mucho de la desconfianza de los usuarios hacia la privacidad o el uso de los datos. ¿Está usted de acuerdo con esta observación de que la mayoría de los usuarios, o en todo caso, muchos usuarios, o potenciales consumidores, son un poco desconfiados, tienen un poco de recelo de todo esto y tal vez incluso tienen miedo de que sus datos sean mal utilizados?
LJ Hay muchos conceptos erróneos. Tenemos que ser claros. Apple, Amazon y Microsoft no están completamente locos. No hacen cosas a propósito que la CNIL u otros considerarían censurables a cambio de multas de unos cuantos millones. Así que están siendo muy cuidadosos y es cierto que cuando decimos: «Alexa siempre nos escucha» o «Siri siempre nos escucha», no es cierto. Hay que ser muy claro. Escucha permanentemente la palabra clave, pero todo lo que se dice después de la palabra clave se envía para ser reconocido en la nube y luego vuelve y se borra todo. No inmediatamente, se borra después de unas horas, pero básicamente no hay nada que se conserve. Había y sigue habiendo cosas y está escrito en letra muy pequeña en lo que llaman el EULA, el acuerdo de licencia de usuario final. Nunca lo lees porque es demasiado largo, pero puedes leer: » si no he reconocido bien lo que has dicho, me quedo con la parte en la que mi confianza es baja… Es decir, si tengo menos del 70% de confianza en un reconocimiento, me quedaré con esa parte para ir a analizarla y entender lo que realmente has dicho y lo que se ha reconocido y ver por qué la confianza es baja y mejorar potencialmente mis modelos con esta parte que añadiré a mi modelo «. Se hace así.
Está anonimizado en el sentido de que no sabemos ni nos importa quién lo ha dicho, pero es para mejorar el modelo. Ahora bien, es cierto, y esto es una buena noticia, que en Francia en particular, somos mucho más desconfiados y tenemos razón porque hay que tener cuidado. Me alegro mucho de que, desde mayo de 2018, gracias al RGPD, la gente se haya dado cuenta de que había un problema potencial. La regulación aquí ha provocado una especie de educación y la gente se ha dicho «¿por qué hay una regulación?», y se ha dicho «hay una regulación porque hay un peligro potencial». Hizo que la gente se diera cuenta de que Facebook nos estaba jodiendo y que era hora de dejar de usarlo. Eso es lo bueno de la regulación, que te hace ver que hay problemas potenciales. No me importa que la gente sea un poco recelosa. Ahora, hay que ser educado y no decir nada sobre lo que realmente se hace con la tecnología.
SD: Hay que desmitificar un poco todo eso. Me refería, por ejemplo, a que hay empresas como Amazon que pueden compartir los datos recogidos a través de las interacciones con Alexa a 41 socios publicitarios. Obviamente, por lo que dices, hay que desmitificar esto. ¿No se están haciendo usos completamente locos o ilegales?
LJ No es ilegal.
SD: ¿Hay que financiar el sistema, como ha dicho?
LJ Ahí tienes, tienes que financiarlo. No es ilegal en el sentido de que hoy, en el EULA, de nuevo, se advierte. Mientras esté advertido, no es ilegal. Lo que pasa es que no se lee el EULA.
SD: Los famosos términos y condiciones que nunca se leen.
LJ Es la CGU en francés. Estas condiciones generales de uso, no se leen, pero están escritas en ellas. Todo está escrito en ellos, por lo que legalmente están bien. Vienen nuevas leyes con Europa, con la DMA y la DSA, todo lo que viene ahora, que elevará el listón un poco más de lo que hizo el RGPD. Tendrán que adaptarse a estas leyes, porque no siempre podrán quedar impunes o al límite. Siempre están al límite. Una vez más, tienen que financiarse, por lo que compartir con 41 fuentes de publicidad o socios sigue siendo un límite porque no es realmente lo que quiero, pero, una vez más, no creo que sea ilegal.
SD: No, en realidad no lo es. También me gustaría preguntarte si hay algún defecto que creas que hay que recordar o quizás un aspecto que realmente debería mejorarse primero para los asistentes de voz en general. ¿Qué sería eso?
LJ Como decíamos antes, hoy no es muy bueno, en el sentido de que es sencillo. Reconoce frases bastante sencillas, son órdenes. Sigue siendo lo que llamaremos «Mando y Control». Envío una orden y controlo algo, así que «enciende la luz», «pon la música», etc. Sigue siendo muy sencillo. Lo que hay que mejorar, el Santo Grial, lo que nos gustaría tener, es algo que sea mucho más conversacional. Hablamos de agentes conversacionales cuando hablamos de estos asistentes de voz. De hecho, hoy en día están muy lejos de ser agentes de conversación. ¿Qué es un agente conversacional? Es alguien con quien puedes tener una conversación. Hoy en día, la conversación se limita a algo así como una o dos rondas de ping-pong. Tendré algo como «encender la luz» y la cosa quizás me diga: «¿qué luz? Y yo respondo: «la luz de la cocina», pero eso es lo único que podemos desambiguar hoy.
Todavía no hemos llegado al punto de poder hablar de la lluvia y el sol, esos agentes conversacionales que serán útiles, por ejemplo, para los enfermos de Alzheimer. Todavía no estamos ahí. Podemos abordar algo mucho más interesante, será en áreas específicas. Como hemos dicho antes, no podemos ser multidominio. En campos específicos como la medicina u otras cosas, sin duda podremos tener cosas más conversacionales y creo que es ahí donde tenemos que ir y donde todavía tenemos que buscar. Realmente está en la comprensión del lenguaje, en la comprensión del contexto. Y luego, para hacer un poco más de ping-pong que sólo dos o tres intercambios, hoy.
SD: Última pregunta, ¿es usted finalmente optimista sobre el futuro de los asistentes de voz, su tecnología, su desarrollo?
LJ Sí, soy optimista, pero quiero que la gente entienda que no será como un humano, porque estas inteligencias artificiales, sean lo que sean, están muy lejos de nosotros. También debemos desmitificar estas inteligencias artificiales, debemos entender que son completamente estúpidas. Somos mucho más fuertes y no podemos crear algo a nuestra imagen. No somos Dios. Una vez que hayamos entendido eso, podremos tener estos asistentes muy especializados, pero que harán cosas, que nos aportarán algo en el día a día y que nos harán querer utilizarlos. Soy excesivamente optimista con la idea de lo que hemos descrito antes, de tener múltiples asistentes por todas partes, que nos ayuden a hacer estas tareas diarias, las hagan bien y nos ayuden a hacerlas mejor.
Cultura digital está disponible en Spotify – Apple Podcasts – Deezer – Google Podcasts – Acast.
Como joven medio de comunicación independiente, OnDigital Magazine necesita tu ayuda. Apóyenos siguiéndonos y marcándonos como favoritos en Google News. Gracias por su apoyo.