Introducción a la ingesta de datos
La ingesta de datos es el proceso de tomar datos y colocarlos en un almacén de datos. Obtenga más información sobre la ingestión de datos hoy.
Imagen: Leonid/Adobe Stock
En pocas palabras, la ingesta de datos es el proceso de mover o copiar datos de una fuente y moverlos a un nuevo destino. Algunas fuentes de mover o copiar datos son bases de datos, archivos o incluso flujos de datos de IoT. Los datos que se mueven o copian durante la ingesta de datos se almacenan en un destino que puede ser local. Sin embargo, la mayoría de las veces está en la nube.
Mirar: Lista de verificación de prueba de migración de datos: aprobación antes y después de la migración (Tecnopedia (Edición Premium)
Los datos ingeridos permanecen en su forma original y original tal como existen en la fuente, por lo que si los datos deben analizarse o transformarse a un formato más compatible con análisis u otras aplicaciones, aún deben realizarse operaciones de transformación posteriores. En esta guía, analizaremos los detalles adicionales y los beneficios de la ingesta de datos, así como algunas de las principales herramientas de ingesta de datos en las que vale la pena considerar invertir.
Salta a:
¿Cuál es el propósito de la ingesta de datos?
El propósito de la ingestión de datos es mover grandes cantidades de datos rápidamente. Esto es posible porque no hay necesidad de transformar los datos durante el movimiento o la copia de datos. La velocidad de ingestión permite a las organizaciones mover datos rápidamente.
La ingesta de datos utiliza la automatización de software para mover grandes cantidades de datos de manera eficiente porque requiere poco esfuerzo manual por parte del personal de TI. La ingestión de datos es un medio a gran escala para capturar datos de prácticamente cualquier fuente. Puede manejar la enorme cantidad de datos que ingresan a las redes corporativas todos los días.
Mirar: Principales herramientas de integración de datos (República tecnológica)
La ingesta de datos es una tecnología «habilitadora» que se puede combinar con tecnologías de edición y formato de datos como ETL. Por sí mismo, la ingesta de datos solo ingiere datos, no los cambia.
Para muchas organizaciones, la ingestión de datos es una herramienta clave para ayudarlas a administrar el frente de datos y los datos que ingresan a la empresa. Las herramientas de ingestión de datos permiten a las empresas mover instantáneamente sus datos a un depósito de datos central sin el riesgo de dejar «afuera» datos valiosos que luego pueden volverse inaccesibles.
Tipos de ingesta de datos
Hay tres tipos básicos de ingesta de datos: en tiempo real, por lotes y lambda.
ingesta de datos en tiempo real
Informes de big data de lectura obligada
La ingesta de datos en tiempo real mueve datos instantáneamente desde sistemas de origen como IoT, archivos y bases de datos.
Para ahorrar en este movimiento de datos, la ingestión de datos utiliza un método probado y probado de captura de datos: solo captura los datos que han cambiado desde la última vez que se recopilaron. Esta acción se llama «cambiar captura de datos».
La ingesta de datos en tiempo real se usa a menudo para mover datos de aplicaciones relacionados con el comercio de acciones o el monitoreo de la infraestructura de IoT.
Ingesta de datos por lotes
La ingesta de datos por lotes implica la ingesta de datos durante la noche (en un lote de datos) o en intervalos regulares de recopilación de datos programados durante el día. Esto permite a las organizaciones capturar todos los datos necesarios para la toma de decisiones de manera oportuna a una velocidad que no requiere la captura de datos en tiempo real.
La recopilación periódica de datos de ventas de puntos de venta minoristas y de comercio electrónico distribuidos es un buen ejemplo del uso de ingesta periódica por lotes.
Ingesta de datos lambda
La ingestión de datos Lambda combina prácticas de ingestión de datos en lotes y en tiempo real. El objetivo es mover los datos lo más rápido posible.
Si hay problemas de latencia o de velocidad de transferencia de datos que podrían afectar el rendimiento, el modelo de tecnología de ingesta de datos lambda puede poner en cola temporalmente los datos y solo enviarlos a los repositorios de datos de destino cuando esos repositorios estén disponibles.
Ingestión de datos y ETL
La ingestión de datos es un proceso rápido que toma datos sin procesar de los archivos de origen y los mueve en un estado inmediato a un repositorio de datos central de destino.
ETL también es una herramienta de transferencia de datos, pero es más lenta que la ingestión de datos porque también transforma los datos en un formato adecuado para el acceso en el depósito de datos central donde se almacenan los datos.
Mirar: Integración de datos frente a ETL: ¿cuál es la diferencia? (República tecnológica)
La ventaja de la ingestión de datos es que puede capturar todos los datos entrantes a la vez. Sin embargo, una vez que tenga los datos, aún necesita manipularlos para que puedan formatearse para su uso.
Con ETL, la mayor parte del formateo de datos ya está hecho. La desventaja de ETL es que lleva más tiempo capturar y procesar los datos entrantes.
Principales herramientas de ingesta de datos
Conexión precisa
Imagen: exactamente
Precisely Connect, anteriormente conocido como Syncsort, proporciona ingesta de datos por lotes y en tiempo real para objetivos de análisis avanzado, migración de datos y aprendizaje automático. También es compatible con las funciones CDC y ETL.
Precisely Connect puede obtener y ubicar datos en sistemas locales o basados en la nube. Los datos pueden estar en formato de base de datos relacional, big data, streaming o mainframe.
apache kafka
Imagen: Apache
Apache Kafka, para la ingesta de big data, es una solución de software de código abierto que proporciona integración de datos de alto rendimiento, análisis de transmisión y canalizaciones de datos. Puede conectarse a varias fuentes de datos externas. También es la puerta de entrada a una gran cantidad de herramientas y características adicionales de la comunidad global de código abierto.
Estructura de datos de Talend
Imagen: Talend
Talend Data Fabric le permite extraer datos de hasta 1000 fuentes de datos diferentes. Los datos se pueden ubicar en repositorios de datos locales o basados en la nube.
Los servicios en la nube admitidos por Talend son Google Cloud Platform, Amazon Web Services, Snowflake, Microsoft Azure y Databricks. Talend Data Fabric también cuenta con detección y corrección automática de errores.
Lea a continuación: Principales herramientas de migración de aplicaciones y nube (República tecnológica)