Grandes datos

3 lecciones de Big Data del proyecto de mapeo y modelado COVID-19

La recopilación de datos a la velocidad de la vida puede hacer que sea difícil discernir la información real de una multitud de entradas. Un proyecto de mapeo y modelado de datos puede hacer que funcione.

istock 1214212730
Imagen: Ley Libre, Getty Images/iStockphoto

Durante esta pandemia, ha resultado difícil encontrar una versión única de la epidemiología de COVID-19. No existe un registro nacional de casos o una base de datos de inventario médico. Algoritmos de predicción epidemiológica como SIR (Muestreo – Importancia Remuestreo) y IHME (Indicadores y Evaluaciones Internacionales de Salud) los datos utilizados por los gobiernos federal y estatal carecen de datos fiables. Existe una clara necesidad de ayudar a los funcionarios públicos a identificar y responder mejor a los riesgos económicos y de salud.

Mirar: Regreso al trabajo: cómo será la nueva normalidad pospandemia (PDF gratuito) (República tecnológica)

«Gestioné cuatro laboratorios de datos diferentes en todo el mundo, y en las primeras semanas Enfermedad del coronavirus, estamos luchando para salir adelante «, dijo Eric Haller, vicepresidente ejecutivo y director global de Experian DataLabs, que proporciona análisis e investigación de datos avanzados. «Tenemos que aprender a refugiarnos en el lugar y trabajar de forma remota, pero tenemos un enorme sentido de responsabilidad para ayudar a los gobiernos y proveedores de atención médica a clasificar los datos para que podamos avanzar en la pandemia. «

LEER  ¿Cómo se está desempeñando su empresa en materia de privacidad de datos?

El objetivo del trabajo de laboratorio es desarrollar datos confiables que puedan identificar y predecir puntos de acceso viral.

«Nuestro proceso tomó alrededor de seis semanas para construir el mapa central para rastrear los brotes y las respuestas de COVID-19», dijo Haller. «Queremos poder proporcionar información a los gobiernos y proveedores de atención médica para que puedan identificar los puntos críticos y dónde deben redoblar sus esfuerzos para las comunidades más afectadas».

Flujo de datos analizado

El análisis analizó tres flujos de datos principales, dijo Haller.

El primero es la propagación de la enfermedad, representada por el número de casos y muertes. El segundo flujo de datos El flujo de datos proporciona la tasa de comorbilidad. De los que murieron durante el inicio de COVID-19, ¿cuántos ya tenían condiciones que los hacían particularmente vulnerables, como enfermedades cardíacas o asma?

«Con base en la correlación de estos datos, comenzamos a desarrollar puntajes de riesgo para la salud condado por condado», dijo Haller.

Mirar: Automatización robótica de procesos: una hoja de trucos (PDF gratuito) (República tecnológica)

El tercer flujo de datos analiza los determinantes sociales y su impacto en la propagación de COVID-19. ¿Cuántos pacientes son móviles, por ejemplo, con fácil acceso al transporte público? ¿Cuál es la densidad de viviendas en las áreas donde viven estas personas?

El equipo también analizó la demografía, como qué grupos de edad eran más vulnerables.

«Lo que hicimos fue combinar los tres modelos de datos en un modelo maestro que funcionó para más de 3000 condados», dijo Haller. «Esto facilita a los usuarios profundizar en cualquier condado específico que deseen ver para ver datos más específicos».

El equipo de Haller también utiliza de forma creativa datos no estructurados, como mapas y fotografías, para inferir información como la densidad de viviendas a partir de imágenes aéreas.

Aprende una leccion

Para los responsables del modelado de datos y el desarrollo analítico, hay tres conclusiones clave de este proyecto:

1. Obtener datos de calidad es más difícil que modelar datos

«Cuando agregamos datos de diferentes estados y territorios, los datos que tenemos que conciliar son inconsistentes», dijo Haller. «En el estado de Nueva York, por ejemplo, informan muertes por COVID-19 y también informan muertes ‘probables’ por COVID-19. Algunos de esos datos son subjetivos y no tenemos una manera de limpiarlos».

2. Usar big data es bueno si puede eliminar el ruido

Para elementos como la densidad de población, el equipo de análisis utilizó los datos de GPS disponibles, pero el mapeo siguió siendo inconsistente debido a los datos de GPS en constante cambio. «Cuando hay un problema, tenemos que usar nuestra propia perspectiva para determinar qué está pasando», dijo Haller.

3. Los proyectos pueden ser más rápidos de lo que piensas

«Descubrimos que podíamos adaptarnos rápidamente a tener que trabajar y colaborar de forma remota. La gravedad de la situación también nos ayudó a actuar más rápido que en el modo que no es de emergencia», dijo Haller. «Cuando trabajas en una emergencia como esta, los pequeños problemas que podrían arruinar un proyecto tienden a desaparecer».

LEER  Philips quiere combinar los datos de Fitbit y los registros médicos con la nueva plataforma de datos en la nube HealthSuite

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba