Microsoft establece un nuevo récord en reconocimiento de voz con IA
Microsoft logró recientemente una tasa de error de palabras del 5,1 % en su tecnología de reconocimiento de voz, igualando a los profesionales humanos y marcando un hito en la industria.
Microsoft alcanzó recientemente un nuevo hito en su capacidad para reconocer el habla conversacional, logrando una tasa de error de palabras (WER) del 5,1 por ciento.logros, detallados el domingo entrada en el blogsuperando el récord anterior de Microsoft de 5,9 % y más cerca de la paridad humana.
El nuevo WER se implementa mediante Switchboard. Según el blog, «Switchboard es un corpus de llamadas telefónicas que la comunidad de investigación del habla ha utilizado durante más de 20 años para comparar los sistemas de reconocimiento de voz».
Con Switchboard, por ejemplo, el sistema de reconocimiento de voz se encarga de transcribir conversaciones sobre temas como política o deportes. Si bien la tasa del 5,9 por ciento de Microsoft se promocionó inicialmente como igualdad humana, los investigadores dicen que la cifra del 5,1 por ciento es en realidad un mejor indicador de la igualdad humana.
Consulte también: Informe especial: Cómo implementar la inteligencia artificial y el aprendizaje automático (PDF gratuito)
Las capacidades de reconocimiento de voz de Microsoft se basan en redes neuronales y otras tecnologías de inteligencia artificial (IA). El equipo de investigación pudo mejorar sus capacidades de modelado acústico al agregar CNN-BLSTM, una red neuronal convolucional que incorpora memoria bidireccional a largo plazo. El equipo también agregó predicciones de otros modelos en diferentes niveles.
«Además, mejoramos el modelo de lenguaje del reconocedor al usar el historial completo de la sesión de conversación para predecir lo que podría suceder a continuación, adaptando efectivamente el modelo al tema y al contexto local de la conversación», dice la publicación.
Otras tecnologías, como Microsoft Cognitive Toolkit 2.1 (CNTK) y Azure GPU, ayudan a explorar las diferencias arquitectónicas y mejoran la velocidad del propio modelo.
A pesar del nuevo nivel de WER, Microsoft señaló en la publicación que el reconocimiento de voz aún tiene muchos desafíos que abordar. Para empezar, el sistema debe ser capaz de reconocer palabras en áreas ruidosas o micrófonos a gran distancia. También necesitan trabajar en sistemas que puedan interpretar acentos y estilos de habla, al mismo tiempo que enseñan a las máquinas a comprender el significado de las palabras que están transcribiendo.
Las mejoras en la tecnología de reconocimiento de voz de Microsoft mejorarán en gran medida su asistente digital Cortana, entre otras herramientas. Los traductores universales para la traducción en tiempo real de conversaciones cara a cara también podrían beneficiarse, por ejemplo.
Para obtener más información sobre la tecnología de reconocimiento de voz de Microsoft, consulte este Informes Técnicos.
3 conclusiones de los lectores de Tecnopedia
- Microsoft logró recientemente una tasa de error de palabras del 5,1 por ciento en su reconocimiento de voz, un nuevo récord para su tecnología basada en redes neuronales.
- Microsoft usa la biblioteca de conversaciones de Switchboard para entrenar su sistema de reconocimiento de voz y lograr la igualdad humana.
- Siguen existiendo desafíos en el reconocimiento de voz, como comprender los acentos o los estilos de habla, y hacer que las máquinas entiendan las palabras que están traduciendo.