Hadoop y computación en la nube: ¿curso de colisión o simbiosis feliz?
Según Forrester, es posible que dos de las tendencias más populares de la industria, la computación en la nube y Hadoop, no funcionen bien juntas. Sin embargo, esta teoría no parece estar respaldada por hechos.
Dos de las mayores tendencias en tecnología pueden estar colisionando. Según Forrester, Hadoop, a menudo considerado el corazón de los grandes datos, no es una buena opción para la nube, donde cada vez más queremos ejecutar nuestras aplicaciones. Pero a medida que se generan más datos en la nube y se almacenan en Hadoop, el «proceso de colisión» que prevé Forrester puede ser en realidad una feliz simbiosis.
Hadoop: ¿Un inadaptado en la Tierra?
Según Job Trends de Indeed.com y otras fuentes, Hadoop es una de las tendencias tecnológicas más populares. Lo mismo ocurre con la computación en la nube, ya que más empresas recurren a la nube para acelerar la innovación, según una encuesta de usuarios de RightScale (Figura A):
Figura A
Encuesta de usuarios de RightScale.
Sin embargo, estas dos megatendencias pueden no coincidir. Al menos ese no es el caso del analista de Forrester Richard Fichera, quien señala que la naturaleza misma de la computación en la nube impide que sea un hogar bienvenido para los clústeres de Hadoop.
Para respaldar su argumento, Fichera ofrece tres razones por las que Hadoop pertenece a los centros de datos empresariales en lugar de a los entornos de computación en la nube:
- Las cargas de trabajo pesadas y crecientes favorecen a Hadoop nativo. Los clústeres de Hadoop tienden a usarse mucho, agregando capacidad a medida que los recursos se vuelven escasos, en lugar de tener un sobreaprovisionamiento masivo. En otras palabras, ya sea lento y constante o rápido y constante, un clúster de Hadoop ingiere datos de una manera casi predecible, sin los picos y valles que suelen ser adecuados para las implementaciones de nube elástica.
- El almacenamiento en la nube es lento y costoso para conjuntos de datos en crecimiento. El almacenamiento en la nube puede tener «tiempos de acceso inaceptablemente largos» y las comparaciones de costos no sugieren que sea inherentemente más barato. Además, «Hadoop a menudo recopila 10 veces o más datos que los entornos transaccionales tradicionales, los científicos de datos y sus partes interesadas comerciales centradas en el cliente casi nunca quieren descartar los datos de Hadoop, y los requisitos de acceso son impredecibles; todo esto es bueno para el almacenamiento doméstico».
- El origen y la ubicación de los datos tienen un gran impacto en el rendimiento. Si bien la ejecución de un clúster de Hadoop en la nube puede tener sentido para el lugar en el que se generan los datos en la nube (por ejemplo, análisis para Twitter), «para los sistemas orientados al cliente en tiempo real con datos de múltiples lugares, es posible que las operaciones deban construir Hadoop se encuentra en una instalación física con la interconexión de red correcta (latencia y ancho de banda deterministas) para minimizar la latencia de un extremo a otro para las aplicaciones».
Hadoop multinube para datos multinube
Quizás. Tal vez no. Después de todo, el argumento de la «gravedad de los datos» que Forrester parece restar importancia probablemente conducirá a más implementaciones de Hadoop en la nube. Mike Olson, cofundador y director de estrategia del proveedor de Hadoop, Cloudera, me dijo en Gtalk que es demasiado pronto para hacer predicciones a largo plazo sobre dónde estarán los datos:
«Hadoop se instala donde los datos ya están allí. Las implementaciones en la nube solo tienen sentido cuando ya tiene una gran cantidad de datos en depósitos S3. Simplemente no tiene suficiente historial para analizar tendencias a largo plazo».
Aun así, no es prudente imaginar que Hadoop seguirá vinculado al centro de datos. Es más probable que veamos Hadoop en todas partes, Marten Mickos, CEO del proveedor de nube híbrida Eucalyptus, me dijo por correo electrónico:
«Lo que la gente suele olvidar es que seremos ubicuos con los datos. Los datos ejercen gravedad. Pero cuando los datos son ubicuos, también lo serán las cargas de trabajo de Hadoop. Si comenzamos a buscar estaciones base inalámbricas, vehículos u otros bordes de la infraestructura de TI para las cargas de trabajo de Hadoop, no te sorprendas».
Debido a esta bestia de datos de múltiples cabezas, es poco probable que las cargas de trabajo de Hadoop permanezcan arraigadas en los centros de datos. También es poco probable que todos los clústeres de Hadoop se ejecuten en la nube.
El futuro de Hadoop tanto en el centro de datos como en la nube está más cerca de la verdad, Shaun Connolly, vicepresidente de estrategia del proveedor líder de Hadoop, Hortonworks, me dijo a través de Skype:
«Creo que habrá múltiples centros de gravedad de datos, uno de los cuales estará en las instalaciones. Pero creo que a medida que el mercado de Hadoop continúa madurando, Hadoop en la nube juega un papel importante en la arquitectura más amplia.
«Además, para algunos datos, la economía del almacenamiento en la nube es atractiva para los datos históricos más antiguos a los que aún desea acceder para generar informes históricos. El almacenamiento en la nube puede desempeñar el papel que históricamente desempeñó la cinta, pero con una accesibilidad mucho mejor. Es por eso que [having] linux y windows [available] Tanto en las instalaciones como en la nube (como Azure, Amazon, Rackspace, etc.) son muy importantes. «
Según Mickos, los únicos perdedores en esta división entre el centro de datos y la nube pública son las «configuraciones bare metal dedicadas».
El consultor principal de ThoughtWorks, Hemanth Yamijala, da otras seis razones para creer que Hadoop es una buena opción para los entornos de nube:
- Reducir el costo de la innovación.
- Adquisición de recursos a gran escala rápidamente
- Maneje eficientemente las cargas de trabajo por lotes
- Manejo de requisitos de recursos variables
- correr más cerca de los datos
- Simplifique las operaciones de Hadoop
Como refutación al argumento de Forrester, su segundo punto es particularmente instructivo. Lanzar hardware interno al problema de Hadoop podría tener más sentido sobre el papel, pero la realidad para la mayoría de los departamentos de TI es bastante diferente. Dadas las políticas internas o las políticas de compra, es más fácil decir «Necesito otros 50 servidores» que adquirirlos.
Por estas y otras razones, la teoría de Hadoop en el centro de datos es mucho más optimista que la realidad. Si Hadoop es una buena opción para la infraestructura en la nube es una pregunta muy diferente de si los patrones de adopción de Hadoop están orientados hacia la computación en la nube.
Es posible que esta revolución no funcione en su centro de datos
Todo esto es motivo para creer que, si bien Forrester puede haber dado en el clavo con su teoría de implementación de Hadoop, parece estar ignorando dónde residirán cada vez más los datos empresariales y con qué facilidad TI podrá configurar el hardware para satisfacer la creciente realidad de las necesidades de Hadoop. A medida que más y más datos se muevan a la nube, también habrá más razones y necesidad para que las empresas ejecuten Hadoop allí.
Pero hay más
Como señala James Governor, analista de Redmonk, el componente faltante pero esencial en el cálculo de Forrester es la conveniencia:
«Hadoop es una tecnología compleja que requiere habilidades y experiencia para implementar, configurar, escalar y administrar. Las opciones para las empresas parecen ser trabajar con un proveedor existente para integrar Hadoop en sus sistemas existentes, o probar algo que se puede hacer desde la base de algo que cambia y mejora la forma en que funciona hoy en día. La nube es donde se hace la diferencia”.
La comodidad supera a la mayoría de las demás consideraciones, incluidas las razones razonables pero poco prácticas proporcionadas por Forrester.
¿Qué piensa sobre la combinación de Hadoop y la computación en la nube? Háganos saber en el hilo de discusión a continuación.