Grandes datos

Cómo controlar su embudo de datos: siga estas 3 mejores prácticas

Los científicos de datos deben decidir qué datos incluir en el repositorio de datos. Para facilitar este proceso de toma de decisiones, aprenda técnicas para mantener el control sobre el embudo de datos.

Cómo canaliza Mary Data
Imagen: Elnur/Adobe Stock

A partir de 2023, Todos los días se crean 2,5 terabytes de datos nuevos en todo el mundoSi bien algunos de estos datos son útiles para el análisis, pueden llevar mucho tiempo y ser difíciles de clasificar. Al crear un embudo de datos efectivo, podrá filtrar más fácilmente los datos que necesita.

Mirar: Kit de herramientas de contratación: ingeniero de base de datos (República Tecnológica Premium)

¿Qué es un embudo de datos?

Un embudo de datos se refiere a la reducción de la cantidad de datos que se permite en el repositorio de datos principal.

Una buena manera de pensar en el embudo de datos es compararlo con el embudo de contratación que aplican las herramientas de recursos humanos cuando se usa software para evaluar los currículums de los candidatos. Las solicitudes de entrada de recursos humanos para puestos vacantes en el software de análisis, que filtra los currículos entrantes para crear un embudo más pequeño de datos entrantes para los solicitantes de un trabajo determinado. Esto permite que los gerentes de recursos humanos y de entrevistas se centren en tareas más importantes en lugar de recopilar currículums manualmente.

LEER  Estrategias para adoptar la gestión de datos sin un CDO

Los embudos también funcionan con datos. En un caso, una empresa de ciencias de la vida investigó el potencial para combatir enfermedades de una molécula en particular, eliminando todas las fuentes de investigación de datos entrantes que no mencionaron la molécula por su nombre. El objetivo es ahorrar almacenamiento y procesamiento y obtener información más rápidamente. Controlar el embudo de datos es un equilibrio entre la cantidad de datos que necesita y la cantidad que puede permitirse almacenar y procesar, mientras filtra todos los datos superfluos que son útiles para esta empresa.

¿Cómo decide qué datos son importantes?

El mero costo de almacenamiento y procesamiento, ya sea en las instalaciones o en la nube, obliga a las empresas a evaluar la cantidad de datos que necesitan para el análisis comercial.

En algunos casos, decidir qué datos descartar es fácil. Probablemente no desee el ruido de los protocolos de enlace de la red y la máquina en sus datos, pero es difícil decidir qué datos relacionados con el tema excluir. También existe el riesgo de que el equipo de análisis pierda información importante debido a los datos excluidos.

Por ejemplo, utilizando datos comúnmente recopilados, es posible que un minorista del Reino Unido no haya descubierto que las amas de casa hacen la mayor parte de sus compras en línea mientras sus esposos miran fútbol.

Ejemplos de ideas inesperadas pero impactantes como esta son la razón por la cual los equipos de TI y, en última instancia, de negocios deben tener cuidado al decidir cuánto pueden reducir el embudo de datos entrantes.

3 mejores prácticas para controlar su embudo de datos

Describa los casos de uso que admite su análisis y los datos que cree que necesitan

Este debe ser un ejercicio de colaboración entre TI/ciencia de datos y el usuario final. ¿Desea incluir quejas sobre productos de redes sociales al analizar los datos de ventas e ingresos? Si está investigando las tasas de enfermedades en el Distrito de Servicios de Salud de Nueva York, ¿le importa California?

Determine qué tan preciso debe ser su análisis

El estándar de oro para la precisión analítica es que el análisis debe tener al menos un 95 % de precisión en comparación con las conclusiones extraídas por expertos humanos en la materia, pero ¿siempre se necesita un 95 %?

Si estuviera evaluando la probabilidad de un diagnóstico médico basado en la salud de algunos pacientes, es posible que necesite un 95 por ciento de precisión, pero es posible que solo necesite un 70 por ciento de precisión al predecir las condiciones climáticas dentro de 20 años.

Los requisitos de precisión tienen un impacto en el embudo de datos y, si solo busca tendencias generales a largo plazo, puede excluir más datos y reducir el embudo.

Comprobar regularmente la precisión del análisis.

Si su análisis muestra una precisión del 95 % cuando se implementa por primera vez, pero cae al 80 % con el tiempo, tiene sentido volver a examinar los datos que está utilizando y recalibrar el embudo de datos.

Tal vez una nueva fuente de datos que inicialmente no estaba disponible ahora esté disponible y deba usarse. Agregar estas fuentes de datos ampliará el embudo de datos, pero si aumenta el nivel de precisión, vale la pena expandir el embudo de datos.

LEER  ChatGPT potencia la IA de Einstein de Salesforce

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba