¿Cómo cambiarán Semantic Machines y su motor conversacional los marcos de trabajo de Cortana y Bot?
Hace solo un año que Microsoft compró la empresa de inteligencia artificial conversacional Semantic Machines, que contrató a investigadores y desarrolladores que trabajaban en Dragon NaturallySpeaking, Siri (antes y después de que Apple la comprara) y los productos de traducción e idiomas de Google, y los unió. detrás de Cortana.
En ese momento, el cofundador y director ejecutivo, Dan Roth, nos dijo que esperáramos un desarrollo relativamente rápido: «Nuestro enfoque y hacia dónde nos dirigimos tendrán un gran impacto, no llevará años. Que el mundo exterior lo vea».
Mirar: Excel Ideas: visualizadores de datos inteligentes (República tecnológica)
Dan Roth, cofundador y director ejecutivo de Semantic Machines.
Imagen: Microsoft
El motor conversacional del que habló Satya Nadella en Build convierte a Cortana en la interfaz conversacional para Microsoft 365, y también estará disponible para los desarrolladores a través de Bot Framework (y a través de Cognitive Services y productos compatibles con Dynamics 365 como ese) Semantic Machine ha estado en Things to do . Podrá manejar largas conversaciones en curso e interrupciones, y podrá comprender múltiples áreas de conocimiento, en lugar de tener que decir explícitamente qué habilidades desea preguntar.
«Hoy en día, la variedad de experiencias que la gente puede obtener con estos sistemas es muy limitada», dijo Ross. «Si las personas usan una interfaz de idioma hoy, es común encontrar lo que dijeron, y el sistema está bien o mal, y de cualquier manera la sesión se reinicia. No existe un concepto real de diálogo continuo, donde se establece una conversación que puede ser El contexto de la modificación del sistema y el tipo de aclaración, eliminación de ambigüedades y corrección que desea».
Ejemplo de una conversación con un agente de IA que puede manejar varios turnos.
Imagen: Máquina Semántica/Microsoft
El problema es que las interfaces «conversacionales» existentes solo pueden interactuar sobre temas preestablecidos sobre los que han aprendido, y la cantidad de acciones asociadas con estas tareas es limitada porque deben planificarse con anticipación.
«Estos son sistemas bastante lineales en los que tiene una capa delgada de aprendizaje automático en la parte superior que puede considerar en términos generales como un clasificador de intenciones, lo que hace es tomar un idioma y decidir de una lista predeterminada de intenciones para ‘hacer’ ¿Qué? ¿Creemos que esta persona está preguntando? ¿Está preguntando sobre una canción o sobre un informe meteorológico, un podcast o las noticias?», explicó Ross.
«Sea lo que sea, es una lista de cuantificaciones predefinidas por algún equipo de programación. Si está en un idioma diferente al que se entrenó el sistema, entonces en esta capa, no tiene suerte. Incluso si está entrenado Uno de las plantillas, también solo puede obtener respuestas predeterminadas del sistema. Como resultado, el tipo de experiencia que puede tener es bastante insulsa. Puede solicitar activar o desactivar ciertas cosas, puede solicitar ciertos tipos de información Pero realmente no puedes profundizar en la información: no puedes hacer preguntas refinadas y no puedes transferir de un campo a otro».
No es gran parte de las habilidades de un agente de voz codificadas como habilidades separadas, generalmente escritas por equipos separados, aunque eso no ayuda. Esa es la gran complejidad de todo lo que alguien podría preguntar. «Entra rápidamente en esta explosión combinatoria, la cantidad de diferentes tipos de contactos e idiomas y lo que se llama ‘infranormatividad’: la forma en que las personas se refieren a las cosas de forma abreviada durante una conversación», dijo Ross. «Es un espacio muy complejo y combinatorio, y va mucho más allá de lo que estos sistemas pueden manejar. No pueden hacer que los humanos digan ‘No estoy seguro de lo que me dijiste, ¿puedes decirlo de nuevo o decirlo de otra manera? ” o aclaración o “¿Quiso decir x o y? «Cosas. Realmente no tiene la capacidad de hacer eso».
Datos más ricos, modelos más ricos
El nuevo motor de conversación puede manejar la complejidad utilizando lo que, según Roth, son representaciones de datos más ricas y modelos de aprendizaje automático más ricos. Una gran parte de eso es crear un sistema que pueda enseñarse a sí mismo, en lugar de pedirles a los desarrolladores que creen todas las plantillas y asignaciones de lo que la gente podría decir a lo que quiere hacer. «Descubrimos formas para que el sistema pueda escribir de manera eficiente su propia funcionalidad sobre la marcha, por lo que no se limita a una variedad de experiencias en las que los desarrolladores piensan de antemano. Es un modelo de aprendizaje automático muy flexible que generaliza, que es la capacidad de manejar cada La clave para la cola larga de las diversas combinaciones, solicitudes y acciones que tendrá un usuario. Se trata de alejarse de un mundo donde las cosas están programadas, a un mundo donde las cosas se aprenden y la funcionalidad del sistema se puede aprender.”
Eso no significa que el motor pueda descarrilarse como el robot Tay de Microsoft, señaló Roth, porque el aprendizaje todavía se encuentra en un entorno controlado. «No es un aprendizaje en la naturaleza, por lo que no tiene el potencial de aprender lo que no queremos que aprenda, es más un enfoque supervisado».
Permitir que los agentes de voz aprendan capacidades significa que el motor de diálogo puede escalar a más dominios que los agentes que deben programarse para cada dominio e interacción. «Esto tiene el potencial de permitir que el sistema haga más de lo que la gente hubiera esperado que hiciera sin que el equipo de programación tuviera que sentarse y escribir el código que ejemplifica esa funcionalidad», dijo Roth.
El motor de conversación podrá recordar detalles como qué hacer con el costo del trabajo, así como las decisiones que tomó en conversaciones anteriores.
Imagen: Máquina Semántica/Microsoft
Aunque Roth dijo que el método utilizado era novedoso, comparó la traducción automática de escribir reglas a mano con el uso del aprendizaje automático para crear capacidades de traducción. «Realmente aplica métodos probados de aprendizaje automático al campo de las interfaces de lenguaje», explicó.
«El idioma es demasiado complejo, la cola es demasiado larga y el rango de expresiones humanas es demasiado amplio. No hay forma de escribir suficientes reglas para obtener un sistema satisfactorio. Hoy en día, la interfaz de idioma de un teléfono inteligente o altavoz inteligente es todavía muy vivo en En el mundo equivalente de un sistema de traducción automática basado en reglas, donde cada función está básicamente escrita a mano por un programador, estamos pasando a este enfoque completo de aprendizaje automático de extremo a extremo, donde no No es necesario Intentar predecir o predecir todo lo que todos quieren hacer, sino generar datos de los que pueda aprender. Tiene que generar datos que asignen toda la riqueza de la expresión humana a toda la complejidad de la funcionalidad de back-end que la gente quiere, por lo que elimine el medio y deje que el sistema aprenda esas conexiones. Hemos descubierto cómo conectar el lenguaje a sistemas de tipo agente, orientados a tareas y conectados a tierra».
Ross dijo que el sistema podría aprender las diferentes formas en que las personas expresan el mismo comando. «Manejamos cosas como cambios de vocabulario en este canal: ‘enciende la luz’, ‘enciende la luz’ y ‘haz que sea más brillante aquí’ están todos hablando de lo mismo. El sistema aprenderá por sí solo a pensar lo que piensa La forma correcta de agrupar los valores. Aprende por sí solo de esta canalización cómo dibujar estas importantes relaciones entre el lenguaje y las secuencias de acción subyacentes requeridas».
Esto se puede personalizar para diferentes usuarios. «El sistema interactúa con varias API de back-end, y algunas de las API a las que puede conectarse contendrán información sobre preferencias específicas del usuario, por lo que puede moderar o reducir el llamado «sesgo deductivo» sobre cómo se toman varias decisiones en el sistema » A través de estos mensajes personalizados», dijo Ross.
La misma canalización que maneja estas variantes léxicas también puede manejar varios idiomas, lo que significa que Microsoft podrá admitir tantos idiomas como necesiten los clientes empresariales. «No hay dependencia del idioma en el sistema, es básicamente independiente del idioma», dijo Ross. «Desde nuestra perspectiva, tiene un idioma, puede ser cualquier idioma que esté delante de él y el sistema puede aprender qué hacer con ese idioma. Todo es aprendizaje profundo, no se basa en palabras clave ni nada por el estilo. Para nosotros, por ejemplo , otros idiomas pueden considerarse formas extremas de paráfrasis: algo en alemán no es muy diferente de otra forma de expresar algo en inglés».
conexión más inteligente
Haga que la interfaz de voz sea más poderosa al permitir que el asistente de voz ejecute los comandos que desee sin averiguar la secuencia exacta de comandos y referencias de habilidades. Pero también deben ser más inteligentes a la hora de conectar las diferentes cosas que dicen los usuarios. «No se trata solo de poder manejar los cambios de vocabulario, se trata del orden en que la gente quiere hacer las cosas. Algunas personas lo hacen de forma lineal, pero otras quieren explorar un concepto y luego volver a algo para completarlo». una tarea», Ross Say.
Ver: Guía para líderes de TI sobre el futuro de la IA (Tech Pro Research)
Si tiene un agente de voz para hacer una reserva para un restaurante y no hay mesas a la hora que desea, el agente puede sugerir otro horario y contactar a sus invitados para ver si ese horario está disponible o encontrar otro restaurante para usted. Pero si desea volver con el agente de voz después de decirle que siga reservando durante una hora y cambiar de opinión sobre dónde ir a cenar, el agente debe poder saber de qué está hablando y listo. usted, busque los detalles, realice cambios y sepa quién necesita recibir actualizaciones.
Esto se puede ampliar para que funcione en varios dispositivos en diferentes momentos, al igual que ya puede usar muchos servicios de Office 365. En un video conceptual que Microsoft mostró en Build, el asistente de voz reprogramó y canceló reuniones y proporcionó a las personas los documentos correctos durante la primera reunión.
«Imagínese hacer algo de trabajo mientras conduce hacia y desde el trabajo, luego va a la oficina, enciende su computadora portátil, le dice al sistema dónde lo dejó y continúa con sus pensamientos e ideas», dijo Roth. , cuando llegue a casa Deje que cualquier dispositivo de computación ambiental en su hogar comprenda completamente dónde se encuentra, qué está haciendo y qué puede ser de su interés, ya sea en ese momento o dentro de unos días o semanas».