Nube

Apache Hadoop: hoja de trucos

Hadoop es un popular marco de procesamiento y almacenamiento distribuido de código abierto. Este manual sobre marcos cubre soluciones comerciales, Hadoop en la nube pública y su importancia para los negocios.

A medida que las organizaciones acumulan conjuntos de datos en constante expansión, la tarea de procesar estos datos requiere una consideración considerable. Hadoop es un gran marco de almacenamiento y procesamiento de datos que se basó originalmente en dos informes técnicos de Google y se ha convertido en una solución estándar de la industria para organizaciones que hacen un uso intensivo de los datos, como Adobe y Twitter.

La hoja de trucos de Hadoop de Tecnopedia es una introducción rápida al popular marco de procesamiento y almacenamiento distribuido de código abierto. Este recurso se actualizará periódicamente a medida que haya nuevos desarrollos en el ecosistema de Hadoop.

VER: Todas las hojas de trucos y guías inteligentes de Tecnopedia

Resumen Ejecutivo

  • ¿Qué es Hadoop? Hadoop es un marco de código abierto diseñado para almacenamiento distribuido y procesamiento de big data.
  • por qué Hadoop ¿asunto? Para implementaciones de trabajos únicos y casos de uso con entrada continua, Hadoop puede procesar sus datos rápidamente.
  • que hace Hadoop ¿influencias? Las organizaciones que manejan grandes cantidades de datos recurren a Hadoop como la primera opción para un almacenamiento y procesamiento eficientes.
  • cuando Hadoop ¿usable? La primera versión fue lanzada en abril de 2006. Hadoop 2.8.0 es la versión estable actual. La versión 3.0.0-alpha4 se lanzó el 7 de julio de 2023 y se espera que la versión 3.0.0 esté disponible de forma general en octubre de 2023.
  • cómo llegar Hadoop? Para las organizaciones que acumulan más datos, se recomienda crear su propia implementación de Hadoop, aunque los proveedores de nube pública ofrecen servicios de Hadoop.

Ver: Curso en línea: Introducción a Hadoop (Academia Tecnopedia)

LEER  Nextcloud 21: las mejoras de velocidad y complementos hacen que su oferta en la nube sea más amigable para los negocios

forresters hadoop predictions 2015

¿Qué es Hadoop?

Hadoop es un marco de código abierto desarrollado por Apache Software Foundation diseñado para el almacenamiento distribuido y el procesamiento de big data utilizando el modelo de programación MapReduce. Hadoop se ejecuta utilizando un grupo de computadoras, dividiendo archivos en fragmentos y distribuyéndolos entre los nodos en un grupo determinado. Con Hadoop, los trabajos de MapReduce se pueden delegar a nodos específicos que almacenan datos relacionados, lo que permite un procesamiento paralelo más rápido de datos mediante un modelo de programación simple.

Hadoop es particularmente extensible, lo que permite que los servicios externos interactúen con el desarrollo de Hadoop. Los proyectos principales de Hadoop incluyen MapReduce, el sistema de archivos distribuidos de Hadoop (HDFS), YARN (un marco para la programación y la gestión de recursos) y Common (un conjunto compartido de utilidades que admiten el uso de módulos de Hadoop).

Otros proyectos relacionados con Hadoop incluyen:

  • Cassandra, una base de datos escalable sin punto único de falla;
  • HBase, un gran almacén de datos distribuido que admite tablas muy grandes;
  • Spark, un motor informático rápido de propósito general para datos en Hadoop;
  • Pig, un marco avanzado de computación paralela para big data;
  • Hive, un sistema de almacenamiento de datos que proporciona agregación de datos y consultas ad hoc;
  • Mahout, un sistema de aprendizaje automático y minería de datos; y
  • Ambari, una herramienta de configuración y administración basada en la web para clústeres de Hadoop, incluye soporte para algunos complementos no principales.

Otros recursos

¿Por qué es importante Hadoop?

Entre los datos generados por el usuario, el registro de la actividad del usuario y la tarea necesaria de generar métricas basadas en esos registros, muchas organizaciones a menudo generan cantidades absurdas de datos. La implementación de un clúster de Hadoop es una forma más eficiente de almacenar y manipular datos que los métodos tradicionales de almacenamiento y análisis. A medida que Spark comienza a reemplazar a MapReduce, la naturaleza modular de Hadoop brinda flexibilidad en el diseño del sistema.

VER: eBook – Cómo desarrollar una carrera exitosa como científico de datos (Tecnopedia)

Hadoop también es muy beneficioso para las organizaciones que necesitan analizar y/o modificar datos archivados. TimesMachine, un servicio de The New York Times que permite a los suscriptores leer ediciones históricas del antiguo periódico, se construye utilizando Hadoop. Convirtió 405 000 imágenes TIFF grandes, 405 000 archivos XML y 3,3 millones SGML en 810 000 imágenes PNG y 405 000 archivos JavaScript en 36 horas con Amazon EC2, Hadoop y código personalizado.

Otros recursos

¿A quién afectará Hadoop?

Las organizaciones que procesan grandes cantidades de datos a menudo recurren a Hadoop como la primera opción para un almacenamiento y procesamiento eficientes. Probablemente el más importante de ellos sea Facebook, que anunció en 2012 que su clúster más grande tenía más de 100 petabytes y estaba creciendo a más de 0,5 petabytes por día, ejecutando más de 60 000 consultas de Hive por día.

Cobertura de Big Data de lectura obligada

Yahoo, colaborador de Hadoop desde hace mucho tiempo, informa «100 000 CPU en más de 40 000 computadoras que ejecutan Hadoop» para respaldar la investigación en publicidad y búsqueda web. Otro colaborador, Twitter, usa Hadoop «para almacenar y procesar tweets, archivos de registro y muchos otros tipos de datos». El gigante japonés del comercio electrónico Rakuten utiliza Hadoop para el análisis de registros de su sistema de recomendación.

El agregador de música Last.fm (Tecnopedia y Last.fm son marcas de CBS Interactive) tiene un clúster de Hadoop de 100 nodos para cálculos de gráficos, informes de regalías, análisis de registros, pruebas A/B y combinación de conjuntos de datos, además de analizar cientos de miles de pistas de música

Otros recursos

¿Cuándo estará disponible Hadoop?

El primer lanzamiento público de Hadoop, la versión 0.1.0, se lanzó en abril de 2006. El mes siguiente, Yahoo implementó un clúster de 300 máquinas, que en abril de 2007 aumentó a dos clústeres de 1000 máquinas. Yahoo trasladó su índice de búsqueda a Hadoop en febrero de 2008, utilizando un clúster de 10.000 núcleos.

La primera Cumbre de Hadoop se llevó a cabo en Sunnyvale, California, en marzo de 2008. La Hadoop Summit USA se lleva a cabo cada junio en San José, California. Desde 2014, la Cumbre Europea de Hadoop se lleva a cabo cada mes de abril.

El proveedor comercial de Hadoop, Cloudera, se fundó en octubre de 2008. El competidor MapR se fundó en julio de 2009. Hortonworks se formó en junio de 2011 cuando 24 de los ingenieros de Yahoo se fueron para formar su propia empresa.

La versión estable actual, Hadoop 2.8.0, se lanzó el 22 de marzo de 2023. La versión 3.0.0-alpha4 se lanzó el 7 de julio de 2023. Se espera que la versión 3.0.0 esté disponible de forma general en octubre de 2023.

Otros recursos

¿Cómo obtengo Hadoop?

Por lo general, Hadoop está diseñado para implementarse en un clúster de hardware en un centro de datos para organizaciones que necesitan procesar y almacenar datos continuamente. Como proyecto de código abierto, Hadoop está disponible gratuitamente desde la Fundación Apache. Varias organizaciones también ofrecen versiones personalizadas de Hadoop con soporte de productos, incluidos Hortonworks, Cloudera y MapR.

Para conjuntos de datos fijos que deben procesarse (como el ejemplo del New York Times mencionado anteriormente), Hadoop está disponible a través de proveedores de nube pública. Amazon Elastic MapReduce es una versión personalizada de Hadoop que automatiza la transferencia de archivos entre EC2 y S3 y brinda soporte para Hive. Naturalmente, Apache Hadoop estándar se puede ejecutar directamente desde EC2 y S3. Microsoft Azure HDInsight es una implementación HDP de Hortonworks personalizada. En Google Cloud, Dataproc es un servicio personalizado de Spark y Hadoop que usa bdutil para admitir Hortonworks, Cloudera y MapR.

Otros recursos

LEER  Las 10 principales prioridades para una implementación exitosa de Hadoop

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba