Grandes datos

Cómo la comunidad de Apache Cassandra dejó de luchar para construir la mejor versión del mismo

Comentarios: aprenda cómo la versión beta 4.0 mejora la estabilidad, las correcciones de errores y la convergencia de proveedores y usuarios en una entrevista con el líder del proyecto Apache Cassandra.

databaseistock000054790152agsandrew
Imagen: iStock/agsandrew

A lo largo de los años, la comunidad de Apache Cassandra ha mostrado lo mejor y lo peor de la colaboración de código abierto. Pero sucedió algo interesante durante el lanzamiento 4.0 (beta) de Cassandra: una familia de colaboradores, a veces malhumorados, se reunió y entregó algo verdaderamente notable. La versión beta 4.0 de Cassandra, que ya es una de las bases de datos más populares del mundo (actualmente la número 10 en DB-Engines.com), promete nuevos niveles de estabilidad al mismo tiempo que redescubre el estilo. Como dijo Ben Bromhead, CTO de Instaclustr, «Soy un fanático absoluto de las mejoras de proceso y calidad, y Cassandra 4.0 hace exactamente eso, pero las mejoras en torno a Netty y la transmisión sin copia también se ven muy bien».

Para obtener más información sobre esta versión y por qué las empresas deberían preocuparse por sus modelos de datos relacionales, hablé con el responsable de Apache Cassandra y miembro del PMC (Comité de gestión de proyectos), Josh McKenzie.

Mirar: Consejos para la gestión de Big Data (PDF gratuito) (República tecnológica)

Una comunidad de código abierto crece junta

Por supuesto, si ha seguido el mundo de las bases de datos durante años, sabe que los datos son no Siéntese cómodamente en las ordenadas filas de las bases de datos relacionales. Los datos modernos generalmente no son adecuados. Cuando se le hizo esta pregunta, McKenzie señaló que «no sabemos cómo serán los datos del mañana», por lo que es fundamental confiar en el código abierto al explorar métodos de gestión de datos no relacionales.

LEER  Cómo implementar la herramienta de inspección de código SonarQube con Docker

Si bien Cassandra ha sido durante mucho tiempo una opción popular para las empresas, la comunidad ha ignorado los problemas clave de estabilidad durante años. Lo que antes era una fortaleza se ha convertido en una debilidad.

Pero ahí es donde Cassandra se convierte en una historia de éxito tan interesante. Durante años, he creído que el código abierto no tiene su mayor impacto a menos que sus usuarios contribuyan. Los proveedores están bien, pero los usuarios de código abierto tienen opiniones únicas sobre cómo mejorar el software.

En el caso de Cassandra, algunos de sus principales usuarios incluyen Apple, Netflix e Instagram, y aunque algunos proveedores han reducido su participación, han aumentado su participación en el proyecto. Pero como señala McKenzie, la versión 4.0 representa una fusión casi perfecta de proveedores y usuarios, lo que hace que Cassandra sea aún mejor:

La comunidad de Cassandra es muy fuerte en este momento. Si bien los colaboradores empleados por DataStax y Apple son algo bimodales en términos de líneas de código en la versión 4.0, la cantidad de personas involucradas y colaboradores representa la mayor parte de las confirmaciones del proyecto. Si bien los encargados de la confirmación están, por supuesto, involucrados en cada fusión del código base (según la forma de Apache), en el otro lado del trabajo, en más del 60 % de los tickets hay personas que contribuyen con su tiempo y energía al proyecto. Esta diversidad es fundamental para la resiliencia a largo plazo de la comunidad de código abierto, y estamos muy satisfechos con lo bien que lo hace la versión 4.0.

Un área clave en la que los usuarios han contribuido en particular es la estabilidad de Cassandra.

Lograr que Apache Cassandra sea estable… juntos

Como dice McKenzie, gran parte de la estabilidad mejorada de Cassandra 4.0 proviene de «extensas pruebas de carga de trabajo del mundo real» que reproducen casos de uso reales a través del sistema para garantizar versiones mixtas (es decir, durante las actualizaciones) clústeres y actualizaciones tan saludables como siempre. Por ejemplo, los ingenieros de Netflix han realizado algunas pruebas de rendimiento a escala.

¿resultado? Como dice McKenzie, la versión 4.0 tiene más de un 30 % más de correcciones de errores y mejoras que la versión 3.0, y es «la versión .0 mejor probada y más estable de Cassandra». La adición de flujos de copia cero mencionados anteriormente significa que escalar un clúster sin vnodes (nodos virtuales) será 5 veces más rápido, y la recuperación de fallas de hardware también debería ser 5 veces más rápida. «Nunca hemos visto una comunidad realmente unida en torno a la calidad y la estabilidad de esta manera», dijo.

Al mismo tiempo, la adición de consultas completas, registro de auditoría en tiempo real y reproducción de carga de trabajo agrega un nuevo elemento importante para administrar e introspeccionar lo que las personas están haciendo en la base de datos. Entonces, en última instancia, «el objetivo de 4.0 es que todos los que ejecutan Cassandra hagan que todos los fundamentos básicos de cómo lo usan sean más sólidos, visibles y resistentes», dijo McKenzie. ¿resultado? En muchas cargas de trabajo que la comunidad usa para las pruebas de regresión, las ganancias de rendimiento superan el 20 %.

bien.

En cuanto a lo que viene a continuación (en Cassandra 5.0), estamos «pasando a un motor de almacenamiento modular conectable y agregando nuevas formas de visualizar y explorar datos en el sistema, mientras mantenemos la escala y la disponibilidad que garantiza el acceso de los usuarios a la demanda de base de datos. ”, señaló McKenzie. Además, enfatizó: «Somos muy conscientes de que Cassandra necesita evolucionar para mantenerse al día con las innovaciones en otros espacios adyacentes y complementarios, y para adaptarse a la ubicación del usuario, ayudándolos a resolver los problemas divertidos y rápidos que están buscando». para. Cuestiones modernas de desarrollo de aplicaciones nativas de la nube».

Debido a que la comunidad de Cassandra ha aprendido a reunir a proveedores y usuarios, está bien posicionada para cumplir esa promesa.

Divulgación: trabajo para AWS, pero las opiniones expresadas aquí son mías y no reflejan las opiniones de mi empleador.

ver también

LEER  4 pasos hacia la computación de alto rendimiento para el procesamiento de Big Data

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba