Grandes datos

10 estrategias exitosas de sandboxing de big data

Tenga en cuenta estas diez estrategias al crear y administrar su entorno de prueba de big data.

bigdata business pain

A medida que las empresas comienzan a usar big data, es importante poder experimentar con big data y consultas en un entorno de prueba seguro «sandbox» tanto para TI como para los usuarios comerciales finales. Sin embargo, la creación de un entorno de prueba de espacio aislado de big data es diferente de la creación de un entorno de prueba tradicional para informes y datos de transacciones. Aquí hay diez estrategias clave a tener en cuenta al crear y administrar un sandbox de big data:

1. ¿Data mart o repositorio de datos maestros?

Los administradores de bases de datos deben decidir desde el principio si permitir que el sandbox de prueba use directamente los datos del repositorio de datos principal para uso de producción, o si la mejor solución es copiar y dividir partes de estos datos en data marts separados solo para fines de prueba. La ventaja de un repositorio de datos completo es que las pruebas realmente utilizan los datos utilizados en la producción, por lo que los resultados de las pruebas serán más precisos. La desventaja es que las carreras de datos se pueden crear con la propia producción. Con una estrategia de data mart, no se arriesga a la contienda con los datos de producción, pero si los datos deben estar cerca de la producción, es posible que deba actualizar los datos periódicamente para mantener cierto nivel de sincronización con los datos utilizados en la producción.

LEER  El 65% de las organizaciones no cumplirán con los requisitos clave de cumplimiento de GDPR antes de la fecha límite

2. Haz un plan

La programación es una de las actividades más importantes del sandbox de big data. Garantiza que todos los trabajos en espacio aislado se ejecuten de manera óptima. Por lo general, hace esto al programar simultáneamente un conjunto de trabajos más pequeños que pueden completarse mientras se ejecutan trabajos más largos. De esta manera, los recursos se asignan a tantos trabajos como sea posible. La clave de este proceso es hacer que TI se siente con las diversas áreas de usuarios que usan el entorno limitado, de modo que todos puedan comprender de antemano la línea de tiempo, la razón detrás de esto y cuándo estará listo su trabajo para ejecutarse.

3. Establece límites

Si un data mart o sandbox en particular no se usa después de algunos meses, los usuarios comerciales y TI deben desarrollar políticas mutuamente aceptables para purgar estos recursos para que puedan volver a colocarse en un grupo de recursos que se pueden reconfigurar para otras actividades. Los entornos de prueba deben administrarse de manera tan eficiente como sus contrapartes de producción para que los recursos solo se invoquen cuando se estén utilizando activamente.

4. Usa datos limpios

Uno de los trabajos iniciales de canalización de big data debe ser preparar y limpiar los datos para que tengan una calidad de prueba razonable, especialmente si está utilizando un enfoque de «data mart». El uso de datos incompletos, inexactos o incluso corruptos en el área de prueba es un mal hábito (se remonta a informes y transacciones estándar de prueba), simplemente porque nunca se limpia antes de volcarse en el área de prueba. Resista esta tentación con big data.

LEER  ¿Cual es la diferencia principal? ¿Cual es mejor?

5. Supervisar los recursos

Suponiendo que los recursos de big data se concentran en el centro de datos, TI debe establecer límites de recursos y monitorear la utilización de la zona de pruebas. Un área que a menudo requiere mucha atención es la tendencia a sobreaprovisionar recursos a medida que más sectores de usuarios finales participan en actividades de sandboxing.

6. Cuidado con los elementos superpuestos

En algún momento, tiene sentido tener un «comité directivo» empresarial para big data para realizar un seguimiento de los diversos proyectos de sandbox que se llevan a cabo en toda la empresa para garantizar que no haya superposición o duplicación de esfuerzos.

7. Considere centralizar los recursos informáticos y la gestión en TI

Algunas empresas comienzan con un proyecto de big data específico de un departamento, pero rápidamente descubren que no pueden manejar big data, no pueden hacer su trabajo diario y luego no pueden administrar los recursos informáticos. Eventualmente, trasladaron el equipo al centro de datos para que TI lo administrara. Esto les permite centrarse en el negocio y en las formas en que Big Data aporta valor.

8. Usa equipos de datos

Incluso en un experimento de sandbox, es importante contar con un equipo con las habilidades de big data necesarias para ayudar con la tarea. Por lo general, este equipo está formado por analistas comerciales, científicos de datos y personal de soporte de TI que pueden ajustar los recursos de hardware y software y coordinarse con expertos en bases de datos.

9. Continúe trabajando en el caso de negocio

Es importante inyectar creatividad en las actividades de sandbox, pero no olvide por completo la misión inicial del caso de negocios al que está tratando de aportar valor.

10. ¡Define qué es un arenero!

Los participantes del negocio final en particular pueden no estar familiarizados con el término «sandbox» o lo que significa. Al igual que la caja de arena de la infancia, el propósito de la caja de arena de big data es jugar y experimentar libremente con big data, pero con un propósito. Parte de esta actividad útil debe ser adherirse a las reglas básicas de la caja de arena, como cuándo, dónde y cómo usarla, además de tratar de obtener resultados significativos para el negocio.

LEER  Los desafíos que enfrenta la ciencia de datos en 2023 y cuatro formas de abordarlos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba