Nube

Apache Hadoop: hoja de trucos

0 0 5 minutos de lectura

Hadoop es un popular marco de procesamiento y almacenamiento distribuido de código abierto. Este manual sobre marcos cubre soluciones comerciales, Hadoop en la nube pública y su importancia para los negocios.

A medida que las organizaciones acumulan conjuntos de datos en constante expansión, la tarea de procesar estos datos requiere una consideración considerable. Hadoop es un gran marco de almacenamiento y procesamiento de datos que se basó originalmente en dos informes técnicos de Google y se ha convertido en una solución estándar de la industria para organizaciones que hacen un uso intensivo de los datos, como Adobe y Twitter.

La hoja de trucos de Hadoop de Tecnopedia es una introducción rápida al popular marco de procesamiento y almacenamiento distribuido de código abierto. Este recurso se actualizará periódicamente a medida que haya nuevos desarrollos en el ecosistema de Hadoop.

VER: Todas las hojas de trucos y guías inteligentes de Tecnopedia

Tabla de Contenidos

Resumen Ejecutivo

¿Qué es Hadoop? Hadoop es un marco de código abierto diseñado para almacenamiento distribuido y procesamiento de big data.
por qué Hadoop ¿asunto? Para implementaciones de trabajos únicos y casos de uso con entrada continua, Hadoop puede procesar sus datos rápidamente.
que hace Hadoop ¿influencias? Las organizaciones que manejan grandes cantidades de datos recurren a Hadoop como la primera opción para un almacenamiento y procesamiento eficientes.
cuando Hadoop ¿usable? La primera versión fue lanzada en abril de 2006. Hadoop 2.8.0 es la versión estable actual. La versión 3.0.0-alpha4 se lanzó el 7 de julio de 2023 y se espera que la versión 3.0.0 esté disponible de forma general en octubre de 2023.
cómo llegar Hadoop? Para las organizaciones que acumulan más datos, se recomienda crear su propia implementación de Hadoop, aunque los proveedores de nube pública ofrecen servicios de Hadoop.

Ver: Curso en línea: Introducción a Hadoop (Academia Tecnopedia)

LEER La nube pública puede ingresar a su centro de datos privado, el método específico es el siguiente

¿Qué es Hadoop?

Hadoop es un marco de código abierto desarrollado por Apache Software Foundation diseñado para el almacenamiento distribuido y el procesamiento de big data utilizando el modelo de programación MapReduce. Hadoop se ejecuta utilizando un grupo de computadoras, dividiendo archivos en fragmentos y distribuyéndolos entre los nodos en un grupo determinado. Con Hadoop, los trabajos de MapReduce se pueden delegar a nodos específicos que almacenan datos relacionados, lo que permite un procesamiento paralelo más rápido de datos mediante un modelo de programación simple.

Hadoop es particularmente extensible, lo que permite que los servicios externos interactúen con el desarrollo de Hadoop. Los proyectos principales de Hadoop incluyen MapReduce, el sistema de archivos distribuidos de Hadoop (HDFS), YARN (un marco para la programación y la gestión de recursos) y Common (un conjunto compartido de utilidades que admiten el uso de módulos de Hadoop).

Otros proyectos relacionados con Hadoop incluyen:

Cassandra, una base de datos escalable sin punto único de falla;
HBase, un gran almacén de datos distribuido que admite tablas muy grandes;
Spark, un motor informático rápido de propósito general para datos en Hadoop;
Pig, un marco avanzado de computación paralela para big data;
Hive, un sistema de almacenamiento de datos que proporciona agregación de datos y consultas ad hoc;
Mahout, un sistema de aprendizaje automático y minería de datos; y
Ambari, una herramienta de configuración y administración basada en la web para clústeres de Hadoop, incluye soporte para algunos complementos no principales.

Otros recursos

¿Por qué es importante Hadoop?

Entre los datos generados por el usuario, el registro de la actividad del usuario y la tarea necesaria de generar métricas basadas en esos registros, muchas organizaciones a menudo generan cantidades absurdas de datos. La implementación de un clúster de Hadoop es una forma más eficiente de almacenar y manipular datos que los métodos tradicionales de almacenamiento y análisis. A medida que Spark comienza a reemplazar a MapReduce, la naturaleza modular de Hadoop brinda flexibilidad en el diseño del sistema.

VER: eBook – Cómo desarrollar una carrera exitosa como científico de datos (Tecnopedia)

Hadoop también es muy beneficioso para las organizaciones que necesitan analizar y/o modificar datos archivados. TimesMachine, un servicio de The New York Times que permite a los suscriptores leer ediciones históricas del antiguo periódico, se construye utilizando Hadoop. Convirtió 405 000 imágenes TIFF grandes, 405 000 archivos XML y 3,3 millones SGML en 810 000 imágenes PNG y 405 000 archivos JavaScript en 36 horas con Amazon EC2, Hadoop y código personalizado.

Otros recursos

¿A quién afectará Hadoop?

Las organizaciones que procesan grandes cantidades de datos a menudo recurren a Hadoop como la primera opción para un almacenamiento y procesamiento eficientes. Probablemente el más importante de ellos sea Facebook, que anunció en 2012 que su clúster más grande tenía más de 100 petabytes y estaba creciendo a más de 0,5 petabytes por día, ejecutando más de 60 000 consultas de Hive por día.

Cobertura de Big Data de lectura obligada

Yahoo, colaborador de Hadoop desde hace mucho tiempo, informa «100 000 CPU en más de 40 000 computadoras que ejecutan Hadoop» para respaldar la investigación en publicidad y búsqueda web. Otro colaborador, Twitter, usa Hadoop «para almacenar y procesar tweets, archivos de registro y muchos otros tipos de datos». El gigante japonés del comercio electrónico Rakuten utiliza Hadoop para el análisis de registros de su sistema de recomendación.

El agregador de música Last.fm (Tecnopedia y Last.fm son marcas de CBS Interactive) tiene un clúster de Hadoop de 100 nodos para cálculos de gráficos, informes de regalías, análisis de registros, pruebas A/B y combinación de conjuntos de datos, además de analizar cientos de miles de pistas de música

Otros recursos

¿Cuándo estará disponible Hadoop?

El primer lanzamiento público de Hadoop, la versión 0.1.0, se lanzó en abril de 2006. El mes siguiente, Yahoo implementó un clúster de 300 máquinas, que en abril de 2007 aumentó a dos clústeres de 1000 máquinas. Yahoo trasladó su índice de búsqueda a Hadoop en febrero de 2008, utilizando un clúster de 10.000 núcleos.

La primera Cumbre de Hadoop se llevó a cabo en Sunnyvale, California, en marzo de 2008. La Hadoop Summit USA se lleva a cabo cada junio en San José, California. Desde 2014, la Cumbre Europea de Hadoop se lleva a cabo cada mes de abril.

El proveedor comercial de Hadoop, Cloudera, se fundó en octubre de 2008. El competidor MapR se fundó en julio de 2009. Hortonworks se formó en junio de 2011 cuando 24 de los ingenieros de Yahoo se fueron para formar su propia empresa.

La versión estable actual, Hadoop 2.8.0, se lanzó el 22 de marzo de 2023. La versión 3.0.0-alpha4 se lanzó el 7 de julio de 2023. Se espera que la versión 3.0.0 esté disponible de forma general en octubre de 2023.

Otros recursos

¿Cómo obtengo Hadoop?

Por lo general, Hadoop está diseñado para implementarse en un clúster de hardware en un centro de datos para organizaciones que necesitan procesar y almacenar datos continuamente. Como proyecto de código abierto, Hadoop está disponible gratuitamente desde la Fundación Apache. Varias organizaciones también ofrecen versiones personalizadas de Hadoop con soporte de productos, incluidos Hortonworks, Cloudera y MapR.

Para conjuntos de datos fijos que deben procesarse (como el ejemplo del New York Times mencionado anteriormente), Hadoop está disponible a través de proveedores de nube pública. Amazon Elastic MapReduce es una versión personalizada de Hadoop que automatiza la transferencia de archivos entre EC2 y S3 y brinda soporte para Hive. Naturalmente, Apache Hadoop estándar se puede ejecutar directamente desde EC2 y S3. Microsoft Azure HDInsight es una implementación HDP de Hortonworks personalizada. En Google Cloud, Dataproc es un servicio personalizado de Spark y Hadoop que usa bdutil para admitir Hortonworks, Cloudera y MapR.

Otros recursos

LEER Alexa para empresas: la hoja de referencia

Etiquetas

0 0 5 minutos de lectura

Apache Hadoop: hoja de trucos

Resumen Ejecutivo

¿Qué es Hadoop?

¿Por qué es importante Hadoop?

¿A quién afectará Hadoop?

Cobertura de Big Data de lectura obligada

¿Cuándo estará disponible Hadoop?

¿Cómo obtengo Hadoop?

Read Next

El mercado global de la nube alcanzará $ 1 billón, pero el 63% de los líderes informan una falta de recursos

Lo que los arquitectos empresariales deben saber sobre la modernización de Java

Obtenga 10 TB de almacenamiento en la nube por menos de $70 por tiempo limitado

Cómo el proyecto Ray de código abierto proporciona «portátiles infinitos» para la computación distribuida

re:Invent 2023: Amazon apuesta por chips personalizados

El mercado global de la nube alcanzará $ 1 billón, pero el 63% de los líderes informan una falta de recursos

Lo que los arquitectos empresariales deben saber sobre la modernización de Java

Obtenga 10 TB de almacenamiento en la nube por menos de $70 por tiempo limitado

Cómo el proyecto Ray de código abierto proporciona «portátiles infinitos» para la computación distribuida

re:Invent 2023: Amazon apuesta por chips personalizados

Deja una respuesta Cancelar la respuesta

2014 muestra el alcance y los límites de la innovación tecnológica

Cómo Google mantiene los datos seguros mientras usa un chatbot generativo de IA

Comprender cómo funciona el DNS, Parte 2

Microsoft Word Online agrega Ideas AI para ayudarlo a mejorar su escritura

Visualización de datos que muestra el uso de Internet en los centros de las ciudades inactivos por COVID-19

JVP y la Universidad Ben-Gurion lanzan la primera incubadora israelí de startups de ciberseguridad

Datos móviles: no existe una solución rápida para los problemas de red, haga su tarea

Cómo escalar las implementaciones de servicios con Portainer

Todo sobre la automatización: inmersión profunda en la automatización por una gran causa

4 formas en que las PYMES pueden proteger sus redes de los piratas informáticos

La IA está remodelando el rol de desarrollador, pero no todo es viento en popa

Comience con datos pequeños en mercados emergentes y avance hacia el análisis de datos grandes

FireWire ayuda con multimedia

Google lanza experimento de pagos móviles ‘manos libres’ para Android y iPhone

Resumen Ejecutivo

¿Qué es Hadoop?

¿Por qué es importante Hadoop?

¿A quién afectará Hadoop?

Cobertura de Big Data de lectura obligada

¿Cuándo estará disponible Hadoop?

¿Cómo obtengo Hadoop?

Read Next

El mercado global de la nube alcanzará $ 1 billón, pero el 63% de los líderes informan una falta de recursos

Lo que los arquitectos empresariales deben saber sobre la modernización de Java

Obtenga 10 TB de almacenamiento en la nube por menos de $70 por tiempo limitado

Cómo el proyecto Ray de código abierto proporciona «portátiles infinitos» para la computación distribuida

re:Invent 2023: Amazon apuesta por chips personalizados

Trabajadores remotos: obtenga un mayor nivel de video con estas opciones de cámara

Por qué los iPhones 2023 con tecnología Intel y 5G de Apple tienen mucho sentido para los profesionales

Publicaciones relacionadas

Deja una respuesta Cancelar la respuesta