Linux

El creador de Hadoop dice que provocó una ‘explosión cámbrica’

Hadoop es más lento que Spark, pero eso no debería obstaculizar la adopción empresarial. Matt Asay explica.

El creador de Hadoop dice que provoco una explosion cambrica

Si bien las herramientas de transmisión de datos como Apache Spark reciben toda la atención hoy en día, las herramientas de procesamiento orientadas a lotes como Hadoop existirán durante mucho, mucho tiempo. Si bien es fácil suponer que la transmisión reemplazará el procesamiento por lotes, la realidad es mucho más matizada, como me enfatizó el fundador de Hadoop, Doug Cutting, en una entrevista.

De hecho, señala que si bien Hadoop provocó una «explosión cámbrica» ​​de innovación de big data, estamos entrando en una «era evolutiva más normal, ya que el uso de estas tecnologías ahora es generalizado en todas las industrias».

Lote es (no es) el mejor

Si bien a la industria le encanta burlarse del procesamiento por lotes, Cutting y otros no optaron por el procesamiento por lotes porque algunos codificadores pensaron que era la mejor manera de procesar datos. En cambio, como me dijo Cutting, es el mejor lugar para comenzar:

«Hadoop no se creó en torno al procesamiento por lotes porque pensamos que el procesamiento por lotes era lo mejor. En cambio, el procesamiento por lotes, y MapReduce en particular, fue un primer paso natural porque era relativamente fácil de implementar y proporcionaba un valor tremendo». no era posible almacenar y procesar petabytes de datos en hardware comercial utilizando software de código abierto. MapReduce de Hadoop es un gran paso adelante en cuanto a capacidades».

LEER  Cómo implementar la plataforma Helpy Service Desk mediante Docker

Mirando hacia atrás, es difícil discutir cómo ha evolucionado la industria. La industria necesita lidiar con el procesamiento por lotes antes de que pueda procesar datos de transmisión. En 2012, me uní a Nodeable, un proveedor de análisis en tiempo real. Menos de un año después, tuvimos que vender la empresa porque el mercado en vivo no estaba a la altura de sus promesas.

Pero incluso en el más cómodo mundo orientado a lotes de Hadoop, la industria ha tardado en adoptar los grandes datos. Según una encuesta de Gartner de 2014, cada vez más empresas recurren a Big Data para proyectos piloto y de producción:

El creador de Hadoop dice que provoco una explosion cambrica

Al mismo tiempo, todavía hay una falta de comprensión sobre cómo utilizar de manera efectiva estas tecnologías de big data. Esto ayuda a explicar por qué Hadoop, a pesar de ser la tecnología de big data más conocida, aún representa solo el 3 % de todo el almacenamiento empresarial, según lo detallado por 451 Research.

Como me explicó el jefe de evangelización de Datastax, Patrick McFaddin, en una entrevista, «Google, Yahoo y Facebook suenan increíbles, pero es una pena que las empresas estén descubriendo cómo aplicar el martillo analítico a todos los datos. Primero: recopilar todos los datos. Segundo :…Tercero: ¡Beneficio!

Si solo fuera así de facil.

evolución natural

Parte del problema al que se enfrentan las empresas es que los grandes datos se mueven demasiado rápido. Spark, Kafka, MongoDB, Impala, Flume… Big Data de hoy incorpora una variedad desconcertante de tecnologías con nombres extraños que requerirán toda la atención del CIO si quiere que su empresa se mantenga actualizada.

Pero para aquellas empresas que sienten que el rápido crecimiento de big data las ha dejado atrás, Cutting ofrece tranquilidad:

«Espero que las grandes adiciones como la pila [Apache] Spark se volverá más lento y, con el tiempo, nos estabilizaremos en un conjunto de herramientas que brindan el conjunto de capacidades que la mayoría de las personas necesitan para sus aplicaciones de big data. Hadoop desencadenó una explosión cámbrica de proyectos relacionados, pero con el uso de estas tecnologías ahora omnipresente en todas las industrias, es posible que ahora estemos entrando en un período de desarrollo más normal. «

Si bien puede parecer que una nueva tecnología sexy como Spark está haciendo que MapReduce de Hadoop quede obsoleto, la realidad es mucho más matizada. Como continúa Cutting, «no hay uno u otro, y no hay rechazo de lo que vino antes, sino más bien el potencial a medida que madura este ecosistema de código abierto».

Patrick Wendell, ingeniero de software de Databricks, está de acuerdo.Según me dijo, aunque no «cree [streaming analytics] Está sobrevalorado en sí mismo”, dijo, aún argumentando que “recién estamos comenzando y podría haber una expansión significativa de las cargas de trabajo de transmisión en los próximos años”. «

Según Cutting, las cargas de trabajo de transmisión que no eliminan la necesidad del procesamiento por lotes:

«No creo que haya un gran cambio en la transmisión. Ahora, la transmisión se une al conjunto de opciones de procesamiento que las personas tienen a su disposición. Cuando necesitan BI interactivo, usan Impala, cuando necesitan búsqueda por facetas, usan Solr , cuando necesitan análisis en tiempo real, usan Spark Streaming, etc. La gente todavía hace análisis de lotes retrospectivos. Los usuarios maduros de la plataforma probablemente usarán todos estos».

La edad de oro de los grandes datos

El punto de corte tiene sentido en el mundo corporativo, que es lento para adoptar nuevas tecnologías y lento para abandonarlas. Dado que Cobol y los mainframes aún rondan los vestíbulos de los centros de datos privados, puede ser demasiado esperar que las empresas adopten de inmediato y luego abandonen Hadoop cuando una tecnología aparentemente más atractiva esté disponible.

De hecho, un informe de investigación de Deutsche Bank encontró que «los CIO ahora son generalmente [Hadoop] Y véalo como una parte esencial de la arquitectura de datos del futuro.esperamos estar en [fiscal year 2015]»

Como sugieren Cutting y Wendell, estos CIO también pueden encontrar Spark y llevarse bien con él. Pero esa comodidad no elimina la dependencia del lento Hadoop. En cualquier caso, no esta década.

LEER  El 36% de los empleados dice que sus jefes no tienen un buen equilibrio entre el trabajo y la vida.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba