Grandes datos

Apache Kafka está en auge, pero ¿deberías usarlo?

Apache Kafka es un complemento natural de Apache Spark, pero no es el único. Aquí se explica cómo determinar qué usar como bus de mensajería de próxima generación.

bigdatabiz

Imagen: iStockphoto/stnazkul

A medida que aumenta el calor, es difícil vencer a Apache Spark. Spark ha superado a Hadoop como el proyecto de big data más destacado y activo, según una nueva encuesta de Syncsort. Esto no es sorprendente, dado que Spark hace que la gestión de datos de alta velocidad sea más sencilla (y posible).

Sin embargo, es sorprendente lo rápido que Apache Kafka se acerca a su primo cercano Spark.

de acuerdo a análisis redmondKafka es «cada vez más necesario para atender cargas de trabajo como el Internet de las cosas». Según el analista de Redmonk, Fintan Ryanlo que resultó en «un gran aumento en el interés de los desarrolladores, los chismes y el uso de Kafka».

Entonces, ¿dónde ha evolucionado Kafka desde aquí y debería usarlo?

arriba y a la derecha

En los primeros días de big data, la infraestructura de datos orientada a lotes estaba bien, pero a medida que la industria se sintió más cómoda con la transmisión de datos, herramientas como Hadoop cayeron en desgracia. Si bien es probable que Hadoop siempre tenga un lugar para brillar, comienza a tener sentido cuando Spark se hace cargo de un corredor de mensajes de propósito general como Kafka.

Ver también: Apache Spark está condenado

Como escribe Ryan, «A medida que las nuevas cargas de trabajo en áreas como IoT, dispositivos móviles y juegos generan flujos de datos masivos y cada vez mayores, los desarrolladores siempre buscan un mecanismo para consumir datos fácilmente de manera consistente y coherente».

LEER  Introducción a la ingesta de datos

Kafka se encuentra en la parte delantera de la transmisión de datos, actuando como un sistema de mensajería para capturar y publicar fuentes, Spark (u otro) como una capa de transformación que permite «manipular, enriquecer y analizar datos antes de que se conserven para el consumo» una aplicación » Como director ejecutivo de MemSQL Eric Frankiere escribió.

Esta asociación con sistemas de transmisión populares como Spark ha resultado en un «crecimiento continuo de usuarios activos en la lista de correo de usuarios de Kafka, más del 260 por ciento desde julio de 2014», señaló Ryan.

De hecho, la demanda de Kafka es ahora tan alta que incluso supera a Spark, al menos en Demanda relativa del empleador:

kafka1.jpg

Imagen: de hecho

incluso si recurrimos a posición absolutaKafka se echó a llorar:

kafka2.jpg

Imagen: de hecho

(de acuerdo a Intereses de búsqueda de Google, Hadoop sigue liderando el camino, pero podría decirse que los trabajos proporcionan una mejor medida de adopción. )

Kafka claramente está prosperando, pero ¿deberías usarlo?

Cuándo usar Kafka

Por supuesto, la respuesta a esta pregunta es «depende». Equipo central de desarrollo de Kafka Rápido Algunos casos de uso clave (mensajería, seguimiento de la actividad del sitio web, agregación de registros, métricas operativas, procesamiento de transmisión), pero incluso con esos casos de uso, algo como Apache Storm o RabbitMQ podría tener más sentido.

Al intentar determinar si usar Kafka o RabbitMQ, como Pivotal’s Resumen de Stuart Charlton Razones clave para usar Kafka: «Si tiene una gran cantidad de eventos (más de 100k/s) que necesita entregar ‘al menos una vez’ en orden de partición con una combinación de consumidores en línea y por lotes, use Kafka, quiere poder para volver a leer los mensajes, puede manejar las limitaciones actuales de HA a nivel de nodo (o puede usar el código de retransmisión), y/o no le importa admitir el software a nivel de incubadora usted mismo a través de foros/IRC».

Eso fue escrito en 2012, y muchas cosas han cambiado desde entonces (por ejemplo, la solidez de Kafka). Hoy en día, es una gran alternativa a los corredores de mensajería tradicionales como IBM MQ o Active MQ, principalmente porque es extremadamente rápido y extremadamente escalable. Si todavía se pregunta si debería usarlo, intente buscar su altamente activo (y relativamente amigable) lista de correo.

Porque, seamos realistas, debes resolverlo lo antes posible. A medida que el mundo se vuelve móvil, estos datos deben estar disponibles y ser entendidos en tiempo real. La necesidad de un servicio de registro de confirmación replicado, particionado y distribuido ultrarrápidamente no hará más que crecer, por lo que descubrir Kafka ahora es fundamental.

LEER  Desarrollo de una estrategia de Business Intelligence: 5 elementos clave

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba