Grandes datos

Refinería de big data: donde el caucho se encuentra con la carretera

Descubra por qué algunas empresas luchan con la extracción de big data y cuáles son las claves del proceso de extracción de datos que debe tener en cuenta.

big data 022014

El diccionario Merriam-Webster define una refinería como «un lugar donde se eliminan las sustancias no deseadas de algo, como el aceite o el azúcar: un lugar donde se refina algo». Por lo tanto, no es una coincidencia que el proceso de cribar el tesoro de big data en busca de algunas perlas de información comercial transformadora se conozca en la terminología de TI actual como Big Data Refinery. Desafortunadamente, muchas empresas están luchando con sus refinerías de big data.

La primera parte de la operación, la inserción de grandes cantidades de datos y la selección de materias primas en forma de datos estructurados y no estructurados, es tan simple como prender un cartucho de dinamita. Los proveedores de big data e incluso las interfaces de programación de aplicaciones empresariales (API) internas permiten que los sitios web conecten fácilmente datos sin procesar de Internet de las cosas (IoT), datos sin procesar de sitios web corporativos y redes sociales, y datos de sistemas masivos de registro que informan el consumo de inventario, ventas, productividad de fábrica, reelaboración de productos, cronogramas de entrega y atención al cliente.

La segunda etapa de la refinería es donde el caucho realmente se encuentra con el camino; aquí es donde estos datos sin procesar deben refinarse en algo más grande que la suma de sus partes.

Durante el proceso de extracción de datos, las organizaciones articulan sus objetivos comerciales y reglas para big data. Esto incluye reuniones de TI y de usuarios finales para definir las políticas de retención de big data, así como los datos necesarios para el análisis de tendencias a largo plazo frente a los datos relativamente efímeros necesarios para el análisis y la respuesta en tiempo real. Los datos en esta etapa se agregan y normalizan con un mayor nivel de complejidad que los datos sin procesar originales. Para destilar adecuadamente los datos sin procesar, TI debe comprender lo que el negocio quiere de los datos y la mejor manera de resumir los datos para el análisis para respaldar estas «necesidades de saber» del negocio. Luego, TI realiza la normalización de datos y aplica los algoritmos apropiados para dar forma a los datos para un análisis óptimo.

LEER  Cómo monitorear sus servidores y escritorios desde Android con esta aplicación gratuita

En una buena descripción general del proceso de refinación de datos, Hortonworks, que proporciona la plataforma empresarial Hadoop, habla sobre cómo las empresas están «mejorando su capacidad para comprender con mayor precisión el comportamiento del cliente que conduce a las transacciones». Las empresas pueden utilizar datos bien refinados para recopilar información más profunda sobre casi todos los aspectos de su negocio, que luego pueden fluir en sus análisis.

Esto nos lleva al otro extremo del proceso de destilación que las organizaciones deben considerar, es decir, cómo se distribuirán y utilizarán los resultados del análisis de los datos de destilación.

Al igual que con los informes por lotes tradicionales, generalmente hay dos patrones de uso para la extracción de datos: descargar los datos a un data mart localizado que pueden consultar los posibles usuarios de TI en diferentes áreas comerciales utilizando sus propias herramientas de informes analíticos; y completar informes basados ​​en estos datos y tableros para distribuir a ejecutivos, gerentes de línea y otros que contienen la información comercial crítica y procesable que están buscando.

El desempeño de estos informes y data marts en la entrega de información comercial crítica será el criterio para decidir si se deben realizar más ajustes en la extracción y el refinamiento de datos. Si el proceso funciona bien, TI casi puede contar con una extracción de datos mejorada porque el negocio y lo que necesita saber siempre está cambiando. La clave es recordar para el refinador el producto final de la destilación de datos (y qué tan bien encajan en el negocio), así como los datos sin procesar que se incluyen en el proceso.

LEER  Big Data + Cloud: IBM amplía su cartera con nuevos productos y un mercado de desarrolladores

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba