INTELIGENCIA ARTIFICIAL

¿Cómo es un almacén de datos en la nube?

Tradicionalmente, un almacén de datos recopila todos los datos estructurados de su negocio para que pueda integrarlos en un solo modelo de datos, ejecutar análisis y obtener inteligencia comercial, ya sea para desarrollar nuevos productos o comercializar servicios existentes para los clientes. Esto solía llamarse «grandes datos», pero ahora todas las empresas tienen cantidades masivas de datos de fuentes como sitios web de comercio electrónico, dispositivos y sensores de IoT, por lo que los almacenes de datos modernos necesitan procesar datos estructurados, no estructurados y de transmisión y proporcionar Real- análisis de datos de tiempo y BI y generación de informes.

julia white azure vpJulia White, vicepresidenta corporativa de Microsoft Azure.
Imagen: Microsoft

Las empresas están haciendo esto cada vez más en la nube para obtener velocidades más altas y costos más bajos. Julia White, vicepresidenta corporativa de Azure, señala que es posible que ya haya más y más datos en la nube, junto con los servicios que desea consumir esos datos. “A medida que más y más datos existen y migran a la nube, ya sea de aplicaciones SaaS o aplicaciones que acaban de trasladarse a la nube, los datos operativos están ahí y los clientes preguntan ‘por qué estoy sacando mis datos operativos de la nube’. ¿Descargar en las instalaciones solo para análisis? Simplemente no tiene sentido». (White dice que todavía hay una gran cantidad de datos en las instalaciones, y más a medida que crece la computación perimetral, pero muchos clientes mueven algunos o todos sus datos a la nube de todos modos.) , dependiendo de los problemas de cumplimiento.)

VER: Microsoft Power BI: Introducción a la visualización de datos (PDF gratuito) (Tecnopedia)

Todas las empresas están investigando la IA y «se dieron cuenta rápidamente de que el análisis es la base de la IA», señaló White. «Empiezan a preguntar ‘¿cuál es el estado de mi análisis y almacén de datos?’, lo que generalmente no es lo suficientemente bueno».

La popularidad de Power BI también está impulsando a más clientes de Microsoft a usar análisis en la nube. «Cuando tienen estas poderosas visualizaciones de datos, comienzan a cuestionar sus habilidades analíticas: ‘Quiero saber qué sucede detrás de mis visualizaciones de datos: me gusta Power BI, quiero que mi análisis sea más interesante'», dijo White.

LEER  Áreas de interés de más rápido crecimiento para los estudiantes de ChatGPT

Clientes más sofisticados que buscan analizar sus propios datos de Office Graph (que puede replicar en Azure Data Lake usando Azure Data Factory) o aprovechar la Iniciativa de datos abiertos (ODI) entre Microsoft, Adobe y SAP (basado en Azure Data) Lake y eventualmente integrará datos de más proveedores de software). «Azure Data Lake está estrechamente relacionado con Azure Data Warehouse, y los clientes usan Azure Data Warehouse para obtener más información y crear almacenes de datos modernos además de eso», dijo White.

¿Qué servicio de datos?

Microsoft tiene un montón de servicios en la nube que se parecen un poco a los almacenes de datos, sobre todo Azure SQL Data Warehouse o «DW», como suele llamarlo Microsoft), pero también Azure Data Factory, Azure Data Lake, Azure Databricks, Power BI y Azure Machine. Aprendizaje, así como más servicios empaquetados como herramientas de ventas de IA en Dynamics 365.

La forma de entenderlos no es solo mirar las herramientas que brindan, sino también a qué usuarios sirven y cómo trabajan juntos. Esto se debe a que los datos propiedad de la empresa a menudo se distribuyen en varios almacenes de datos, y el primer paso para crear un almacén de datos moderno es consolidar todos estos silos. Cuantos más almacenes de datos diferentes haya en Azure, más fácil será conectarse, una de las razones por las que Microsoft ofrece tantos servicios de datos diferentes. Otro, dice White, es que los clientes no están buscando una sola herramienta que pueda hacer todo: «Hay un pequeño conjunto de opciones que realmente eliges y optimizas para lo que usas en tus propios escenarios».

Cobertura de Windows de lectura obligada

Azure DW es para ingenieros de datos que trabajan con datos seleccionados. Podrían ser datos de una base de datos de SQL Server, pero también podrían ser datos de canalizaciones creadas por ingenieros de datos que usan Databricks o Spark y .NET para preparar datos de fuentes como Azure HDInsight.

Azure Data Factory es otro servicio para la ingesta, transformación y orquestación de datos para ingenieros de datos. Piense en ello como una herramienta ETL a escala de la nube que puede usar a través de una interfaz de arrastrar y soltar (Logic Apps, en realidad) o SDK de Python, Java o .NET, si prefiere escribir código para hacer transformaciones de datos y pasar Databricks o HDInsight administra los diferentes pasos de la canalización de datos, en Azure Data Lake o la salida a Power BI.

Power BI también puede usar flujos de datos (también sin código) para la transformación de datos, pero está destinado a ser una característica de autoservicio para los analistas de negocios. Los ingenieros de datos o los analistas de BI de tiempo completo pueden crear modelos semánticos que usan los usuarios comerciales, y Microsoft está agregando más integración con Azure DW a Power BI.

Los usuarios de Power BI pueden agregar IA a sus visualizaciones e informes. Parte de eso podría ser el uso de los Servicios Cognitivos preconstruidos de Microsoft para hacer cosas como el reconocimiento de imágenes y el análisis de sentimientos. Pero también pueden usar modelos de IA personalizados creados para ellos por ingenieros de datos en Azure Machine Learning Services, con todos los datos empresariales.

azure modern data warehouse

almacén junto al lago

La complejidad de estos escenarios es la razón por la cual las líneas entre los almacenes de datos y los lagos de datos comienzan a desdibujarse en la nube. Un almacén de datos tradicional le permite tomar datos de múltiples fuentes y usar transformaciones ETL para poner esos datos en un solo esquema y un solo modelo de datos en software diseñado para responder las preguntas que planea hacer una y otra vez.

Estas fuentes no tienen que ser datos relacionales estructurados: la compatibilidad con PolyBase y JSON en SQL Server y Azure DW significa que puede conectarse desde almacenamiento no relacional, como HDFS, Cosmos DB, MySQL y MongoDB, así como Oracle, Teradata y PostgreSQL. Esto significa que un almacén de datos (o incluso SQL Server) se parece más a un lago de datos.

Un lago de datos le permite tomar múltiples almacenes de datos, tanto estructurados como no estructurados, extraerlos y almacenarlos en su formato nativo o algo similar, de modo que tenga múltiples modelos de datos y múltiples esquemas de datos, y pueda derivar de manera flexible de los mismos datos. (La variante de SQL que se usa para las consultas de Azure Data Lake se llama U-SQL, no solo porque es la próxima versión después de T-SQL, sino también porque es posible que necesite un submarino para ingresar al lago de datos y descubrir qué está oculto en las profundidades turbias.)

VER: Microsoft Power BI: el análisis de datos se generaliza (Tech Pro Research)

Cuando tenga preguntas que hacer repetidamente (como análisis de ventas o paneles para controlar los tiempos de entrega), puede crear un almacén de datos desde la sección de datos correspondiente. Sin embargo, si las preguntas cambian con el tiempo o si necesita hacer nuevas preguntas, puede volver al lago de datos que contiene los datos originales y crear otro almacén de datos para responder esas preguntas.

La combinación de los dos es lo que Microsoft llama una infraestructura de almacenamiento de datos moderna. Puede tomar todo tipo de datos de diferentes lugares, usar estos datos en un lago de datos para realizar análisis en tiempo real o usar el aprendizaje automático para descubrir patrones que le indiquen qué información puede obtener de sus datos y combinarlos con las herramientas conocidas del almacén de datos. puede responder efectivamente a estas preguntas.

Microsoft no tiene un único servicio para todos ellos. Puede usar varios servicios de Azure para diferentes partes, lo que significa que puede elegir las partes que necesita. Pero también significa que necesita experiencia en datos para construir su propio sistema específico.

Más sobre Power BI y Microsoft

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba