Cómo han cambiado los asistentes de voz hasta nuestros días
por Sheroll Agelviz profile image Sheroll Agelviz Diego Almao profile image Diego Almao

Cómo han cambiado los asistentes de voz hasta nuestros días

Los primeros pasos de Siri, Alexa y los asistentes que hoy nos hacen la vida más fácil. Conoce su evolución.

Todos alguna vez le hemos pedido a Siri que nos cuente algún chiste o que nos haga un resumen breve sobre las noticias del día, o le hemos pedido al Asistente de Google que nos ayude con ciertas búsquedas.

Pero antes de lo que tenemos ahora, han existido otros asistentes virtuales de voz que han ido evolucionando hasta los que conocemos hoy en en día. Esta es su historia.

El inicio de los asistentes de voz

En 1952, los Laboratorios Bell desarrollaron el primer sistema de reconocimiento automático. El sistema podía reconocer el sonido de los números comprendidos entre el cero y el 9, con una precisión del 90% cuando le hablaban. Cuando la voz no le era familiar, el rango de respuesta bajaba entre el 70% y el 80%.

Diez años más tarde, IBM desarrolló Shoebox, que procesaba los números del 0 al 9 y las operaciones matemáticas “más”, “menos”, “subtotal”, “total”, “falso” y “de”, para dar respuestas a peticiones como:

5+3+8+6+4-9

Y dar la respuesta correcta:

17

Además, Shoebox era capaz de procesar hasta 16 palabras en inglés.

Video de presentación del IBM Shoebox.

Este límite llegó hasta las 1.000 palabras en 1971 con Harpy, un proyecto apoyado por el dinero de la Agencia de Proyectos de Investigación Avanzados (DARPA) del Departamento de Defensa de Estados Unidos, la participación de IBM y de diferentes universidades y centros de investigación.

Harpy se quedó en el récord de 1.011 palabras que, en lenguaje humano, representa el vocabulario de un niño de 3 años. Tiempo después, IBM llevó esta cifra hasta las 20.000 palabras con Tangora, que ya se activaba por voz.

Markov

El gran avance del reconocimiento por voz sucedió cuando, a finales de los años sesenta y setenta, se describieron por primera vez los Modelos Ocultos de Markov (HMM) en una serie de artículos estadísticos por el matemático estadounidense Leonard E. Baum y otros autores.

Una de las primeras aplicaciones del HMM fue, precisamente, el reconocimiento del habla. En los años ochenta se logró analizar frases completas, un gran y necesario avance para esta tecnología.

De todas formas, a IBM aún le quedaban varios retos por superar, como el dictado discreto, que impedía recitar comandos de seguido, ya que tenía que ir palabra por palabra para que la máquina entendiera algo.

En los años 90, surge Dragon. IBM desarrolló este sistema capaz de reconocer cien palabras por minuto, aunque necesitaba que su usuario lo entrenara para distinguir su forma de hablar.

Los asistentes de voz más usados

Hoy en día, los asistentes de voz son parte de nuestro día a día. Nos ayudan de varias maneras, desde encontrar información en Internet hasta buscar contactos en nuestro teléfono, crear playlists, agendar reuniones en nuestro calendario, buscar sitio donde comer, y más.

Conozcamos más sobre los asistentes más usados en los últimos años.

Siri

¿Me crees si te digo que Siri no es un invento de Apple, sino del Departamento de Defensa de los Estados Unidos? Tampoco se creó en 2010, sino que su origen es del 2003, y su propósito era crear protocolos de comunicación y eficiencia en gestión de tareas.

En 2003, nacía el proyecto CALO o el "Cognitive Assistant that Learns and Organizes" (Asistente Cognitivo que Aprende y Organiza), que estuvo activo hasta 2008. El nombre se inspiró en el latín "cālō", que significa sirviente, especialmente militar. En otras palabras, hablamos de un mayordomo militar automatizado, capaz de aprender en base a las decisiones y gestionar tareas.

Detrás de CALO, estaba la empresa SRI International, un centro de investigación de tecnología e inteligencia artificial de los Estados Unidos. La inversión estuvo a cargo de la Agencia de Proyectos de Investigación Avanzados de Defensa (DARPA) de los Estados Unidos, una de las agencias más importantes del Departamento de Defensa. El I+D del mundo militar.

Su objetivo, tal y cómo explican desde SRI, era «crear una nueva generación de asistentes cognitivos capaces de razonar, aprender de la experiencia y responder de forma consistente».

Para la época, era todo un proyecto de vanguardia tecnológica. 

Siri sale a la luz

El proyecto CALO fue el comienzo de varios caminos.

Por un lado, en 2007, SRI creó la empresa Siri Inc, el grupo que empezó a desarrollar el asistente que conocemos a día de hoy. En sus inicios, Siri era una app para iPhone, iPod Touch y iPad, compatible con iOS 3.0 y iOS 4.0. Y sí, era gratuita para su descarga en iTunes y App Store.

Siri como aplicación disponible en iTunes. Era su versión 3.1.

Siri se promocionó como una nueva forma de interactuar con la web. Por primera vez, el gran público iba a ser capaz de «hablar con Internet» para pedirle cosas. En el año 2010, Apple decidió comprar la aplicación y la empresa Siri Inc.

💡
Como curiosidad, existió la página web siri.com. Si entras a ella, te llevará a la página de Siri en Apple. En su día, su interfaz era completamente distinta a la que conocemos hoy

Otros asistentes

Siri no fue lo único que salió de CALO. Partiendo de lo hecho en el proyecto, DARPA creó CPOF (Command Post of the Future, Puesto de mando del futuro). De este lenguaje no sólo se desarrolló Siri, sino otros asistentes.

Uno de ellos era Desti, una app de guía de viajes que fue comprada por Nokia para mejorar sus sistemas de mapas; Trapit, una plataforma para descubrir contenidos web, y Tempo AI, una app de calendario y productividad. Esta fue comprada (y cerrada) por parte de la empresa Salesforce.

Alexa, la propuesta de Amazon

En noviembre de 2014, Amazon anunciaba su primer altavoz inteligente, Amazon Echo, junto con su propia asistente de voz integrada: Alexa. Desde entonces, Alexa se ha vuelto una herramienta que permite a los usuarios comunicarse y realizar varias acciones.

Alexa es un nombre de origen griego; en concreto, de los términos Άλέξιος (que se pronuncia ‘aléxios’) y de ἀνδρο (‘andros’). Su significado etimológico es ‘defender’ o ‘proteger’ y ‘hombre’ o ‘varón’, respectivamente. Por lo que su traducción literal es: ‘aquel o aquella que defiende o protege a los hombres’.

Desde sus comienzos, Alexa se centró en la gestión de dispositivos inteligentes en el hogar, permitiendo automatizar algunos procesos como encender y apagar luces, abrir y cerrar puertas con cerraduras inteligentes, controlar termostatos establecer alarmas y recordatorios, usar equipos de sonido, etcétera.

👀
El nombre de Alexa se eligió por el hecho de que la ‘x’ es una consonante complicada y, de esta manera, también fácil de reconocer por el asistente virtual.

Cortana, la alternativa de Windows

Antes de ser un servicio dentro de las plataformas de Windows, Cortana fue un personaje basado en inteligencia artificial que acompañó las misiones de Master Chief en la franquicia de videojuegos Halo, que se estrenó en noviembre de 2001.

Cortana debutó como asistente digital en Windows Phone, la propuesta de Bill Gates en el mercado de telefonía celular y que no tuvo tanto éxito como otras compañías.

A pesar de ello, Microsoft decidió en 2015 integrar a Cortana en el sistema operativo Windows 10, donde sumó un nuevo nivel de interacción pues, además de estar en la barra de tareas, también tenía comandos de voz para abrir aplicaciones.

Cortana fue la cara principal de Microsoft para enfrentar a rivales como Amazon, Google o Apple, que tenían a sus propios asistentes digitales (Alexa, Google Assistant y Siri, respectivamente). Aun así, nunca tuvo la popularidad deseada, y fue dejada atrás progresivamente hasta su cese completo en 2023.

En su lugar, Microsoft empezaría a priorizar su propio asistente impulsado por inteligencia artificial, Microsoft Copilot.

El Asistente de Google

El precedente directo del Asistente de Google (Google Assistant) fue Google Voice Search, que debutó en los teléfonos inteligentes Android y Chrome para PC en junio de 2011. Esto marcó un cambio importante en la forma en que comenzamos a interactuar con la tecnología.

Google Voice Search en Android 4.1.
Google Voice Search.

Luego, basado en Google Voice Search, surgió Google Now, que formó el esqueleto personalizado del Asistente de Google.

Presentado por primera vez en Android 4.1 (Jelly Bean), Google Now mostraba agenda, clima y otra información útil en una serie de tarjetas y notificaciones, informándote si necesitabas irte temprano a una cita para evitar el tráfico, o sobre restaurantes cercanos.

💡
Las siguientes actualizaciones incluyeron la integración de Gmail. Incluso, entró medio escondido en dispositivos iOS como parte de la app de búsqueda de Google.

SIn embargo, aunque útil, la capacidad de Google Now para conversar era limitada, y no podía tener conversaciones complejas. Aun así, nos dejó una frase icónica y que es inevitable de asociar con Google Assistant: “OK Google”.

Google Assistant llegó para resolver las carencias conversacionales de Google Now. Primero, llegó como una función independiente para el Google Pixel original y el Google Home, y luego, se integró a otros teléfonos inteligentes con Android 6.0 (Marshmallow) o superior en 2017.

Recientemente superó las mil millones de descargas en Google Play, superando con creces a otros asistentes, los cuales, a pesar de ser claros competidores, no alcanzan ni la funcionalidad ni una experiencia tan grata.

La llegada de Gemini

En 2023, en un momento donde OpenAI dio un golpe en la mesa con ChatGPT, Google no quiso quedarse atrás, y lanzó su propio chatbot: Google Bard, renombrado como Gemini en 2024.

Desde entonces, Google ha sido muy enfático al afirmar que Gemini no es un reemplazo del Asistente, sino una alternativa más experimental y avanzada que el anterior, ya que Gemini, así como servicios como ChatGPT y Copilot, está impulsado por inteligencia artificial, lo que permite a Gemini ejecutar tareas como:

  • Generación de contenido (texto, imágenes, código, tablas...).
  • Resúmenes de contenido.
  • Traducir idiomas.
  • Analizar imágenes y archivos.

Por otro lado, mientras que Gemini está disponible en navegadores y teléfonos Android con un mínimo de 2 GB RAM y Android 10 o posterior, el Asistente de Google está presente en más dispositivos, como:

  • Tabletas píxel
  • Altavoces inteligentes
  • Televisores inteligentes
  • Audífonos
  • Smartwatches

Retos y oportunidades de los asistente de voz

Los asistentes de voz nos ayudan a todos en situaciones donde escribir no es una opción, como mientras conducimos, cocinamos, hacemos deporte, etcétera, o cuando simplemente no queremos usar el teclado.

Además, son herramientas inclusivas en sí mismas. Rompen la barrera digital para muchas personas mayores que nunca han manejado dispositivos digitales, personas con discapacidad visual, personas con Alzheimer, entre otras condiciones.

Sin embargo, también presentan retos a quienes las diseñan, como el peligro de dejar de lado las habilidades de lectoescritura, tan importantes para fijar conocimiento en nuestro cerebro y desarrollar nuestra capacidad de concentración y razonamiento. Otro reto importante es del tipo ético, por ejemplo, en la recogida de datos masivos para entrenar algoritmos.

Por último, las interfaces de voz y su desarrollo son una oportunidad increíble desde el punto de vista lingüístico. Al tener que enseñar a estos sistemas el uso del lenguaje humano, la semántica y el contexto comunicativo, nosotros mismos aprendemos y conocemos más de estos temas.


El mercado de los asistentes de voz seguirá en aumento. Según datos de Astute Analytica, este mercado tendrá un valor estimado de 47,37 mil millones de dólares para 2032. En 2024, el valor era de aproximadamente 7,24 millones de dólares.

Desde las empresas, hay muchas expectativas sobre la tecnología basada en voz. Según el informe de Voicify de 2022, el 87% de los ejecutivos de empresas quieren usarla para mejorar la productividad; el 77% en buscar nuevas oportunidades de negocio, mientra que el 62% está interesad en aumentar sus ingresos.

En definitiva, gracias a los avances en inteligencia artificial, los asistentes de voz tienen un futuro muy interesante en el corto, mediano y largo plazo. Con una popularidad en crecimiento entre los usuarios, son más y más las empresas que se interesan en integrar o desarrollar esta tecnología.

Cuéntanos, ¿cuál es tu asistente de voz favorito y por qué?

por Sheroll Agelviz profile image Sheroll Agelviz Diego Almao profile image Diego Almao
Actualizado el
Innovación