Spoiler: hace tiempo que forma parte de nuestra vida
Usamos la tecnología de reconocimiento de voz casi todos los días: cuando buscamos una ruta con la voz en el navegador o cuando hablamos con asistentes virtuales como Siri, Alexa o Google Assistant. Y además, el speech-to-text (reconocimiento de voz) es un campo de la informática interesante y prometedor.
Hoy hablaré un poco de cómo funciona el reconocimiento de voz y en qué campos se aplica.
¿Qué es el Reconocimiento de Voz?
La tecnología de reconocimiento de voz, o Speech-to-Text (STT), es la conversión de voz en texto. Se basa en un proceso multinivel que incluye el procesamiento y el análisis de audio.
La voz, mediante inteligencia artificial, se convierte primero en letras, luego en palabras, frases, oraciones, y el resultado es un texto. A menudo, en lugar de la abreviatura STT se utiliza otra denominación de la tecnología: ASR (Automatic Speech Recognition), que se traduce como «reconocimiento automático del habla».

¿Cómo se Desarrolló la Tecnología de Reconocimiento de Voz?
La tecnología STT surgió en la década de 1950, pero su desarrollo activo comenzó en la década de 1970. Sin embargo, el gran avance se produjo a principios de la década de 2000 gracias al progreso en el campo del aprendizaje automático. Entonces, los especialistas en informática empezaron a crear programas que convertían la voz en texto con precisión.
El proceso de reconocimiento de voz temprano se veía así:
- Primero, el micrófono grababa el sonido: medía y registraba la presión del aire procedente de la voz humana. El resultado era una pista de audio que se parecía a una onda.
- Luego, esta onda se convertía en un modelo bidimensional de frecuencias que el ser humano puede distinguir al oído.
- A partir de las frecuencias, se identificaban los fonemas (sonidos individuales del habla) que luego se convertían en letras, palabras y oraciones. Existe un alfabeto fonético internacional. Incluye los sonidos que una persona puede emitir con los labios, la lengua, los dientes y el paladar. Cada idioma tiene sus propios fonemas. Los fonemas no son texto. Por lo tanto, la tarea del reconocimiento de voz es convertirlos en letras, en otras palabras, en unidades escritas.
Para el reconocimiento de voz se utilizaron tres modelos. El acústico convertía el sonido en fonemas. El léxico (diccionario de pronunciaciones) relacionaba los fonemas con las letras. El modelo lingüístico determinaba qué palabra debía pronunciarse, combinando los modelos anteriores en un único sistema para convertir el habla en texto.
¿Cómo Funciona el Reconocimiento de Voz Ahora?
Desde finales de la década de 2010, los algoritmos antiguos de reconocimiento de voz han ido siendo sustituidos por modelos end-to-end. El proceso se basa en dos modelos, pero ahora funcionan con más eficacia gracias al aprendizaje automático.
#1. Acústico
Antes convertía el habla en fonemas, y ahora directamente en letras. Esto funciona gracias al entrenamiento con un gran volumen de datos y un modelo de tamaño relativamente grande.
#2. Lingüístico
Analiza el contexto, eligiendo la palabra más probable si diferentes opciones suenan igual (por ejemplo, «night» y «knight»; o en español, «casa» y «caza»). Hoy en día, los modelos lingüísticos se entrenan con grandes volúmenes de texto, por lo que pueden predecir con precisión el significado y corregir los errores de las etapas anteriores.
En el enfoque end-to-end, la mayor parte del trabajo la realiza el modelo acústico. Normalmente consta de un codificador, que convierte el sonido en representaciones comprensibles para el modelo, y un decodificador: utiliza estas representaciones para generar texto. Los codificadores son bastante similares en general. Por lo general, se trata de una red convolucional o una variación del modelo Transformer. Sin embargo, la decodificación en el reconocimiento de voz puede ser diferente. Así, existen tres enfoques principales para los sistemas end-to-end:
#2.1 CTC (Connectionist Temporal Classification)
Ayuda a descifrar el habla, determinando qué símbolo se pronunció en cada momento. La ventaja de CTC es que se entrena bien, incluso con grandes volúmenes de datos, y permite aplicar rápidamente el modelo en el trabajo.
#2.2. RNN Transducer
Adecuado para procesar el sonido a medida que llega, es decir, en modo de streaming. Puede tener en cuenta el contexto y es menos susceptible a errores de alineación que, por ejemplo, CTC. Gracias al entrenamiento conjunto de los modelos acústico y lingüístico, proporciona una mejor calidad de las transcripciones.
#2.3. LAS (Listen, Attend and Spell,)
Otra denominación es Attention-based Encoder-Decoder.
Tiene un modelo lingüístico incorporado similar a ChatGPT, que mediante un mecanismo de atención puede tener en cuenta toda la secuencia de entrada para cada símbolo. También gracias al mecanismo de atención, se puede utilizar esta arquitectura para la traducción de voz: traducción de audio en un idioma a texto en otro. LAS se maneja bien con grabaciones largas, en las que es importante tener en cuenta el contexto global.
Después del reconocimiento, el texto pasa por una etapa de normalización para que sea legible. Durante esta etapa, se corrige la escritura de los números (con letras o cifras), se colocan los signos de puntuación, se ordenan las mayúsculas y las minúsculas, y los nombres propios se escriben con mayúscula.
A veces no se necesita una transcripción completa del texto, sino solo de determinadas partes, como las peticiones a un asistente inteligente. En otros casos, puede ser necesario un reconocimiento completo del diálogo para determinar con exactitud a quién pertenecen las réplicas concretas. Estas tareas requieren diferentes enfoques en la tecnología de reconocimiento.
¿Dónde se Utiliza la Tecnología de Reconocimiento de Voz?

#1. Telefonía
Cada vez más, los clientes se comunican no con operadores humanos, sino con robots. Su voz es difícil de distinguir de la humana: distinguen bien lo que dice el abonado, reaccionan a las interrupciones y tienen un gran repertorio de réplicas.
También existe la marcación por voz, en la que el usuario debe pronunciar la palabra necesaria y podrá obtener respuestas a sus preguntas o resolver el problema. En este caso, la tecnología de reconocimiento de voz ahorra tiempo a los empleados y ofrece un servicio más cómodo a los clientes: no tendrán que esperar a que se libere una línea, ya que el robot está siempre disponible.
#2. Dispositivos inteligentes y asistentes de voz
Se puede controlar diversos aparatos, desde un hervidor eléctrico hasta interruptores, con la voz. Para que esto sea posible, los dispositivos utilizan la tecnología ASR. Lo mismo ocurre con los altavoces inteligentes y los asistentes de voz de los dispositivos móviles, como Ok Google o Siri.
#3. Mensajeros
Todas las redes sociales y los mensajeros tienen mensajes de voz. Pero no a todos los usuarios les gusta escucharlos, por lo que los desarrolladores implementan la tecnología ASR y añaden la función de reconocimiento de voz y su conversión a texto.
#4. Reclutamiento
Los especialistas de RR. HH. también utilizan ASR. Por ejemplo, para realizar una primera entrevista con un candidato. Un robot llama al candidato y averigua información estándar: formación, experiencia, habilidades.
En el proceso, guarda la grabación en el CRM y luego la transcribe. Los especialistas de RR. HH. se familiarizan con la información e invitan a la siguiente etapa de la entrevista solo a los candidatos adecuados. Gracias a la tecnología de reconocimiento de voz, se ahorra tiempo y se descartan inmediatamente los candidatos que no son adecuados.
#5. Medicina
Existen servicios que graban la voz del médico, la reconocen e introducen la información en los documentos médicos de los pacientes. Estos programas ahorran tiempo a los médicos y les permiten trabajar de forma más productiva, ya que les liberan de la rutina.
#6. Creación de contenido
Muchos usuarios de las redes sociales ven vídeos sin sonido, especialmente en formatos cortos. Por lo tanto, los autores de contenido deben añadir subtítulos. Gracias a la tecnología de reconocimiento de voz, esto se puede hacer automáticamente.
Esta es solo una parte de los campos donde se aplica ASR. La tecnología está penetrando cada vez más en la vida cotidiana y ayuda a resolver tareas laborales en diferentes sectores, desde la informática hasta la medicina.
Para crear sistemas de reconocimiento de voz, lo principal es saber trabajar con el aprendizaje automático. Esta es la base que debe dominar un principiante para dar sus primeros pasos en la profesión.
En primer lugar, el Deep Learning (aprendizaje profundo). También se necesita Python. Para trabajar con el sonido existen bibliotecas que ayudan a realizar las tareas de forma más rápida y sencilla. Además, ahora el reconocimiento de voz se está fusionando en gran medida con el NLP: conociéndolo, se podrá entender relativamente rápido el ASR.
¿Con qué Limitaciones se Enfrenta la Tecnología ASR?
En el ámbito del reconocimiento de voz existen varios problemas principales:
- Falta de datos para entrenar los modelos ML. No se necesitan grabaciones de audio estériles de estudio con texto sencillo, sino habla en condiciones acústicas realistas, con temas y términos complejos.
- Los modelos entrenados en un idioma concreto no se manejan bien con la habla mixta. Esto se refiere a los países donde se hablan dos idiomas. Por ejemplo, en la India, hindi e inglés. Debido a esto, una persona, incluso hablando un idioma, añade palabras de otro. Por lo tanto, el sistema de reconocimiento de voz no puede identificar algunas partes de la grabación.
- Los algoritmos funcionan mal con los términos. Si el hablante utiliza palabras especializadas de un sector concreto que no estaban en el entrenamiento, el modelo suele no poder reconocerlas.
¿Cómo Evolucionará la Tecnología?
Pronto, los sistemas de reconocimiento de voz (ASR) empezarán a funcionar con grandes modelos lingüísticos (LLM), entrenados con enormes conjuntos de datos. Esto ayudará a resolver el problema de la falta de datos para tareas específicas y permitirá reconocer la voz con mayor precisión en diferentes situaciones. Cada vez más especialistas se dedican a esto, y las grandes empresas ya están implementando LLM para mejorar la precisión y la flexibilidad de estos sistemas.
Los modelos también aprenderán a comprender no solo el significado de las palabras, sino también todo el contexto, a distinguir las entonaciones y las emociones. La comunicación con los asistentes de voz será más natural, especialmente importante para las empresas.
En Resumen
El reconocimiento de voz (STT) es la conversión de voz hablada en escrita. Mediante tecnologías de inteligencia artificial, se transforma primero en letras, luego en palabras y oraciones, y finalmente en un texto coherente.
La tecnología de reconocimiento de voz surgió en la década de 1950, pero experimentó un gran avance en la década de 2000 gracias al desarrollo del aprendizaje automático.
El proceso de reconocimiento de voz se basa en dos modelos: el acústico y el lingüístico. Primero, los sonidos se convierten en letras, luego el sistema analiza el contexto para elegir correctamente una palabra entre varias opciones. A continuación, el texto se normaliza: se colocan los signos de puntuación, las mayúsculas y las minúsculas, se forma el diálogo, si es necesario.
Para adaptar los modelos ML a diferentes tareas, se utilizan funciones de pérdida: mecanismos que mejoran los algoritmos. Para el reconocimiento de voz se utilizan CTC, RNN Transducer y LAS (Attention-based Encoder-Decoder).
La tecnología de reconocimiento de voz se utiliza en muchos campos, como la medicina, la telefonía, la banca, el reclutamiento, la creación de contenido y otros.