La nueva función de Microsoft utiliza inteligencia artificial para hacer que los chats de video sean menos extraños

0 0 4 minutos de lectura

Cómo Surface Pro X de Microsoft usa software basado en controladores y hardware de IA dedicado para hacer que las videoconferencias sean más humanas.

Con muchos de nosotros trabajando desde casa, hemos entrado en un mundo en el que las videoconferencias se han convertido en nuestra forma principal de conectarnos con colegas. Pasamos horas en reuniones individuales y grupales, mirando caras en pequeñas cajas en pantallas. Francamente, es difícil. La carga cognitiva que conlleva tratar de analizar rostros en la pantalla es alta, lo que lleva a la llamada «fatiga del zoom». Por supuesto, no se limita a Zoom: no importa lo que use, ya sea Google Meet, WebEx, Skype o Microsoft Teams, ocurre el mismo problema.

Mirar: Cómo administrar su privacidad y otras configuraciones en Microsoft Teams

Microsoft ha estado trabajando en formas de reducir esta presión. Uno es el modo Juntos de Teams, que cambia la forma en que vemos las caras en la pantalla.Otro se basa en el hardware de aprendizaje automático dedicado integrado basado en Arm Superficie Pro X.

Introduce el contacto visual

Ahora disponible para todos los que tengan un Pro X, contacto visual Diseñado para funcionar con cualquier aplicación que use la cámara frontal de la tableta. Todo lo que necesita hacer es instalar la aplicación Surface de Microsoft, cambiar a la pestaña Contacto visual y hacer clic en Habilitar. Las opciones de vista previa muestran diferencias sutiles entre las imágenes procesadas y las no procesadas, con un ligero cambio en la posición de los ojos entre las dos cuando miras la imagen de vista previa y activas y desactivas la función.

LEER El 50% de los trabajos poco calificados serán reemplazados por inteligencia artificial y automatización, según un informe

El contacto visual no hará una gran diferencia en su imagen: no hay cambios en la posición de la cabeza ni en la iluminación de la habitación. Todo lo que hace es cambiar ligeramente la posición y la apariencia de sus ojos, hacerlos un poco más anchos y cambiar un poco la posición de su mirada, de modo que incluso si en realidad está enfocando la lente, se ve como si estuviera mirando a la cámara, la que está debajo de la cara de la pantalla.

El efecto resultante te hace parecer más involucrado en la conversación, como si estuvieras mirando a los ojos de los demás en una videoconferencia. Es muy sutil, pero hace que la conversación sea más cómoda porque la persona con la que estás hablando ya no intenta inconscientemente hacer contacto visual contigo mientras miras la pantalla.

Este es un tipo extraño de aprendizaje automático desinteresado. Usted mismo no verá ningún beneficio (a menos que esté hablando con alguien que también usa Surface Pro X), pero verá que participa más en la llamada, por lo que estará más relajado y menos sobrecargado. Sin embargo, estos efectos secundarios no deben subestimarse. Cuanto mejor sea la convocatoria para algunos participantes, mejor para otros.

Usar hardware del dispositivo

tr microsoft surface x pro sq1 — Desarrollado conjuntamente por Microsoft y Qualcomm, el procesador SQ1 es un chip personalizado basado en Arm que combina capacidades de CPU, GPU e IA.
Imagen: Microsoft

Eye Contact utiliza un motor de inteligencia artificial (IA) personalizado en Surface Pro X SOC SQ1, por lo que no debería ver ninguna degradación del rendimiento, ya que gran parte de la compleja fotografía computacional en tiempo real se debe a ella y a la GPU integrada. Todo se maneja en el nivel del controlador del dispositivo, por lo que funciona con cualquier aplicación que use la cámara frontal; ya sea que esté usando Teams, Skype, Slack o Zoom, todos pueden beneficiarse de ella.

Solo hay una limitación: la Surface Pro X debe estar en modo horizontal, porque el modelo de aprendizaje automático utilizado en Eye Contact no funcionará si sostiene la tableta en posición vertical. De hecho, esto no debería ser un gran problema, ya que la mayoría de las aplicaciones de videoconferencia asumen que está utilizando un monitor de escritorio estándar en lugar de una tableta y, por lo tanto, están optimizadas para diseños horizontales.

La pregunta para el futuro es si este enfoque de aprendizaje automático se puede aplicar a otros dispositivos. Lamentablemente, es poco probable que sea una solución universal durante algún tiempo. Debe integrarse en el controlador de la cámara, y la ventaja de Microsoft aquí es tener el software de la cámara y la arquitectura del procesador en Surface Pro X.Microsoft tiene una amplia experiencia en el diseño y desarrollo de hardware de redes neuronales profundas (DNN) en dos generaciones de silicio personalizado Lente holográficay es razonable suponer que parte de ese aprendizaje se dedicó al diseño del chip Surface Pro X (especialmente porque el mismo equipo parece estar involucrado en el diseño de ambos conjuntos de chips).

Para el resto de la línea de Surface basada en Intel y AMD, probablemente tendremos que esperar hasta una nueva generación de procesadores con soporte de aprendizaje automático mejorado, o Microsoft separa su motor de IA personalizado de su procesador SQ1 basado en ARM.Un acelerador de IA independiente como TPU de Google.

La IA en tiempo real requiere chips especializados

El motor de IA en sí mismo es un potente hardware informático capaz de entregar 9 TFLOP. Microsoft ejecuta el modelo de aprendizaje automático Eye Contact aquí, llamándolo desde el modelo de fotografía computacional en el controlador de cámara Surface Pro X.Sin un hardware dedicado como este disponible en todas las PC con Windows, es difícil imaginar una cámara interna o externa que use un servicio de contacto visual universal, aunque Windows 10 admite dispositivos portátiles. ONNX modelo de aprendizaje automático.

Aunque lo último de Intel lago tigre Los procesadores (que vencen en noviembre de 2023) agregan instrucciones DL Boost para aumentar el rendimiento de ML, no ofrecen capacidades DNN como el chip de IA dedicado del SQ1. Probablemente necesitemos dos o tres generaciones de chips antes de que las CPU de propósito general puedan usar estas funciones. Es posible que la próxima generación de GPU admita DNN como Eye Contact, pero es posible que esté buscando hardware costoso de alta gama diseñado para estaciones de trabajo científicas.

Por ahora, Eye Contact se ve mejor como una importante herramienta de prueba de concepto para futuras cámaras basadas en IA, utilizando motores SOC AI como SQ1, o GPU de propósito general con gráficos discretos usando Open CL o CUDA, o instrucción de inferencia de procesador ML conjuntos Al incorporar modelos de IA en controladores de dispositivos, podemos brindarles a los usuarios una funcionalidad avanzada simplemente conectando un nuevo dispositivo. Si las nuevas técnicas de aprendizaje automático proporcionan nuevas funciones, se pueden entregar con controladores de dispositivos actualizados. Hasta entonces, tendremos que aprovechar toda la potencia del hardware para mejorar las videoconferencias para la mayor cantidad de personas posible.

LEER 10 consejos de configuración Wi-Fi de Apple

0 0 4 minutos de lectura

La nueva función de Microsoft utiliza inteligencia artificial para hacer que los chats de video sean menos extraños

Introduce el contacto visual

Usar hardware del dispositivo

La IA en tiempo real requiere chips especializados

Read Next

La cumbre AI for Good de la ONU explora cómo la IA generativa plantea riesgos y fomenta las conexiones

¿Qué es GPT-4? ¿Qué función tiene?

Por qué Alibaba necesita IA para llegar a $ 25.3 mil millones en el Día del Soltero

Wordplay AI Content Generator revoluciona tu marketing de contenidos.

¿Qué es un bardo? ¿Cómo acceder?

La cumbre AI for Good de la ONU explora cómo la IA generativa plantea riesgos y fomenta las conexiones

¿Qué es GPT-4? ¿Qué función tiene?

Por qué Alibaba necesita IA para llegar a $ 25.3 mil millones en el Día del Soltero

Wordplay AI Content Generator revoluciona tu marketing de contenidos.

¿Qué es un bardo? ¿Cómo acceder?

Deja una respuesta Cancelar la respuesta

Dell y SAP colaboran en nuevos productos para simplificar las implementaciones de nube, big data e IoT

HP presenta el ProBook ultradelgado de $549 para pymes y trabajadores móviles

La publicación de empleo de Apple corrobora aún más los rumores de vehículos eléctricos

Cómo preparar su Chromebook para trabajar sin conexión

¿Podría la criptografía C2PA ser la clave para combatir la desinformación impulsada por la IA?

El AI Chatbot de Google compite con ChatGPT

Monitoreo Continuo de Seguridad: La Ola del Futuro

Cómo optimizar y simplificar su flujo de trabajo de información personal

Samsung Galaxy Z Fold 3 5G: hoja de trucos

Uso del G-Hold para controlar la tableta

Cómo instalar y usar la aplicación Amazon Alexa para Windows 11 y 10

Cómo crear su primera historia de datos en Tableau

Las principales habilidades de codificación que los empleadores quieren en los trabajadores independientes en 2023

Es más probable que las organizaciones se den cuenta del valor de la IA cuando los empleados lo hacen

Introduce el contacto visual

Usar hardware del dispositivo

La IA en tiempo real requiere chips especializados

Read Next

La cumbre AI for Good de la ONU explora cómo la IA generativa plantea riesgos y fomenta las conexiones

¿Qué es GPT-4? ¿Qué función tiene?

Por qué Alibaba necesita IA para llegar a $ 25.3 mil millones en el Día del Soltero

Wordplay AI Content Generator revoluciona tu marketing de contenidos.

¿Qué es un bardo? ¿Cómo acceder?

El nuevo análisis de seguridad en la nube encuentra las principales preocupaciones sobre la configuración predeterminada y la administración de identidades

Los 50 mejores equipos de producto/diseño e ingeniería para el trabajo

Publicaciones relacionadas

Deja una respuesta Cancelar la respuesta