Tres tendencias de almacenamiento de datos a tener en cuenta
Para aprovechar todo el valor del análisis de big data, las empresas deben tener una visión granular y granular de sus clientes: cómo interactúan digitalmente con las aplicaciones y los productos. Para obtener información, las empresas deben poder analizar datos no estructurados y semiestructurados casi tan rápido como pueden acceder a ellos.
En una entrevista telefónica reciente con Tecnopedia, el CEO de BitYota, Dev Patel, dijo que las soluciones de bases de datos tradicionales no pueden hacer esto. Simplemente no puede obtener información de los datos: las soluciones tradicionales solo pueden agregar patrones amplios de clientes después del hecho.
En noviembre de 2012, la empresa de almacenamiento de datos como servicio (DWS) BitYota lanzó su producto insignia de análisis basado en SaaS en la conferencia re:Invent de Amazon Web Services (AWS). BitYota dijo que ofrece un «almacén de datos integral» con la «flexibilidad y rentabilidad» de la infraestructura de AWS, lo que permite a las empresas «desbloquear el valor de los datos para obtener información y tomar mejores decisiones comerciales».
Patel detalla tres tendencias principales que ve en el espacio de almacenamiento de datos:
- Analice datos de múltiples fuentes,
- Los analistas tienen acceso directo a los datos, y
- Perspectivas de datos de alta velocidad.
República tecnológica: Digamos que soy un cliente potencial con una solución de base de datos antigua. ¿Cómo define el cambio en su análisis? ¿Qué les digo a mis stakeholders?
Patel de desarrollo: Para comprender mejor su negocio, debe comprender mejor cómo los clientes interactúan con su negocio a un nivel muy granular. Su sistema heredado no le permite hacer esto. Su sistema heredado solo le permite hacer esto en un cierto nivel de agregación.
Por definición, pierde algunas de las características de sus datos que necesita para obtener mejores conocimientos. Y necesita poder obtener mejores conocimientos de los datos de múltiples fuentes, y sus sistemas heredados no le permitirán obtener datos de múltiples fuentes para obtener conocimientos.
Los sistemas tradicionales no le permiten obtener información detallada sobre datos sin procesar o de granularidad muy fina, o de datos de múltiples fuentes, donde la velocidad de los datos puede variar para cada fuente. Es algo que no hacen muy bien.
República tecnológica: BitYota se estableció en 2011 como una startup. ¿Qué necesidades comerciales y tendencias tecnológicas está tratando de abordar?
Patel de desarrollo: Tengo mucha experiencia con big data en Yahoo. Aprendí que, incluso para una empresa tan grande como Yahoo, uno de los mayores desafíos es lidiar con el análisis de datos de múltiples fuentes. Una vez que se agregan las fuentes, se agregan los formatos. Al mismo tiempo, el análisis de diferentes formatos de datos es un gran desafío y sigue siendo un desafío.
Lo segundo que veo en Yahoo es hacer análisis de nuevos datos, extrayendo valor del tiempo. Por ejemplo, digamos que este punto de datos sucedió hace 15 minutos, ¿qué debo hacer? Esto es muy difícil porque la única forma de hacer un análisis es publicar la extracción, transformación y carga (ETL) tradicionales, lo que siempre lleva tiempo.
La tercera gran tendencia que vi en ese momento fue que la nube se estaba convirtiendo cada vez más en el nuevo modelo operativo y la próxima generación de centros de datos. Las bases de datos tradicionales están diseñadas para dispositivos; están diseñadas para entregarse en dispositivos cliente, no en entornos virtualizados heterogéneos.
República tecnológica: ¿Cuáles son las tendencias clave que ve en el espacio de servicios de almacenamiento de datos?
Patel de desarrollo: Hay tres tendencias. La primera es analizar datos de múltiples fuentes (nuevas y tradicionales) y combinar las dos. Un ejemplo de una nueva fuente son los datos de una aplicación. Las fuentes tradicionales son datos transaccionales, bases de datos CRM y similares.
La segunda tendencia es que los analistas quieren poder acceder a los datos directamente sin la necesidad de una capa adicional de ingenieros para transformar o traducir esos datos para ponerlos a disposición de los analistas.
La tercera es que los analistas quieren poder analizar los datos casi al mismo ritmo que se generan. Debe poder hacer esto con un formato de datos que genera los datos. Entonces, ¿cómo lo analiza a través de la notación de objetos de JavaScript (JSON)? Recuerde, el lenguaje del analista es SQL.
República tecnológica: ¿Puedes dar más detalles sobre estas tres tendencias?
Patel de desarrollo: Para hacer esto, debemos creer en los grandes datos y, específicamente, debemos creer en ciertos elementos centrales de los grandes datos.
Primero, los datos llegan a diferentes velocidades, y los datos son un campo en rápido crecimiento. Esta es un área donde cada clic de una aplicación genera una gran cantidad de datos y, dependiendo del éxito de la aplicación, cada clic del usuario genera un nuevo punto de datos. Estos datos son continuos en tiempo real. Ese dato cuenta parte de la empresa.
Esa parte de la empresa es la gestión de productos, los diseñadores, las personas que entienden la experiencia del usuario y las personas que desean obtener funciones futuras basadas en lo que hacen los usuarios, eso les dice mucho. Están aprendiendo del compromiso del usuario con el producto.
El segundo grupo que aprenderá a usar este flujo continuo de datos son las personas que ganan dinero en la aplicación. Por lo tanto, es posible que tenga una oferta de una empresa solicitante. Por ejemplo, una compañía de juegos dice que puede obtener un crédito de $10 por $5 porque es un cliente especial. O no te hemos visto activo en mucho tiempo y de repente te vemos; oye, queremos que sigas tan comprometido como hace dos meses, y estamos aquí para ayudarte a hacerlo. Así que casi todo el tiempo hay alguien que quiere aprovechar estos datos continuos.
Dado que los datos provienen continuamente de múltiples fuentes, un gerente de producto muy inteligente tomará datos estáticos de los sistemas financieros donde se mantiene el historial de compras, así como los datos de CRM sobre los clientes, y luego los combinará con datos de transmisión para ofrecer nuevos productos.
Un gerente de producto podría preguntar, oye, el último Halloween, ¿qué pasó?Pueden analizar tendencias a largo plazo para identificar efectos estacionales para determinar posibles impactos en las promociones que están ejecutando ahora. [compared to prior offers]Todos estos son conocimientos ahora generados mediante la combinación de nuevos flujos de datos con antiguas fuentes de datos estáticos, etc. Esta es una tendencia muy importante que veo.
Además, lo que veo es que ahora hay una capa entre las personas de conocimiento como analistas y su lenguaje analítico (que siempre ha sido SQL) y las herramientas de inteligencia comercial (BI) para informes y paneles. Una herramienta típica de BI es Tableau.
Surge una capa entre ellos y los datos. A menudo, las capas se crean porque surge una nueva tecnología, y la nueva tecnología es casi un marco para los ingenieros. Y el marco requiere programación para que los datos estén disponibles para los analistas de manera efectiva.
Esta tendencia es dañina. Ahora tenemos que encontrar formas de romper esta tendencia porque de repente hay un abismo donde los ingenieros tienen que desarrollar para mejorar o transformar los datos para que los analistas puedan usarlos para consumir.
Y los ingenieros son más difíciles de encontrar, más difíciles de conseguir y realmente no necesitan esa capa adicional. La gente ahora está buscando salir de esta capa.
Luego está la velocidad de los análisis, que es la tercera tendencia que veo. Extraer el valor temporal de los datos se está volviendo cada vez más importante. ¿Cómo diseña su sistema para que pueda recopilar datos muy, muy rápidamente y comenzar a entregar métricas por hora, indicadores clave de rendimiento (KPI) por hora o incluso KPI de 15 minutos? Analice los KPI, donde puede comprender lo que sucede en su sistema.
Por ejemplo, desea poder analizar datos en el formato ingresado. Los nuevos formatos de datos claramente usan JSON cada vez más. Vemos mucho JSON como un formato de datos adoptado por los desarrolladores de aplicaciones.
Y si desea realizar análisis de datos casi tan rápido como llegan, no podrá convertir esos datos en un formato de datos estructurados. Necesita poder analizar estos datos directamente. Entonces, si hace eso, obtendrá la velocidad de análisis que necesita en una tarifa por hora o más rápida.