Linux

Cómo instalar la base de datos de análisis en tiempo real de Apache Druid en distribuciones de Linux basadas en Ubuntu

Si está buscando una plataforma de análisis de datos en tiempo real, Jack Wallen cree que Apache Druid es difícil de superar. Descubra cómo poner en marcha esta herramienta y luego cómo cargar datos de muestra.

Imagen: Rafael Henrique/Adobe Stock

Apache Druid es una base de datos de análisis en tiempo real que se diseñó para generar análisis rápidos de corte y dados en conjuntos masivos de datos. Puede ejecutar fácilmente Apache Druid desde una versión de escritorio de Linux, o un servidor Linux con una GUI, y luego cargar datos para comenzar a analizar.

Apache Druid incluye funciones como:

  • Almacenamiento orientado a columnas
  • Índices de búsqueda nativos
  • Streaming e ingesta por lotes
  • Esquemas flexibles
  • Particionamiento optimizado en el tiempo
  • Compatibilidad con SQL
  • Escalabilidad horizontal
  • Operación fácil

Apache Druid es una gran opción para casos de uso que requieren ingesta en tiempo real, consultas rápidas y tiempo de actividad elevado.

Lo guiaré a través del proceso de ejecución de Apache Druid en Pop!_OS Linux (aunque se puede ejecutar en cualquier distribución de Linux) y luego le mostraré cómo cargar datos de muestra.

VER: Kit de contratación: Ingeniero de base de datos (Tecnopedia Premium)

Lo que necesitarás

Lo único que necesitará para que esto funcione es una instancia en ejecución de Linux completa con un entorno de escritorio y un usuario con privilegios de sudo.

LEER  Agregar el iniciador de aplicaciones de Chrome al iniciador de Unity

Eso es todo. Hagamos un poco de magia con la base de datos.

Cómo instalar Java 8

Por el momento, Apache Druid solo es compatible con Java 8, por lo que debemos asegurarnos de que esté instalado y configurado como predeterminado. Para instalar Java 8 en una distribución de escritorio basada en Ubuntu, inicie sesión en la máquina, abra una ventana de terminal y emita el comando:

sudo apt install openjdk-8-jdk -y

Una vez completada la instalación, debe configurar Java 8 como predeterminado. Haz esto con el comando:

sudo update-alternatives --config java

Debería ver una lista de todas las versiones de Java que están actualmente instaladas en la máquina. Asegúrese de seleccionar el número que corresponde a Java 8.

Una palabra sobre los servicios de Apache Druid

Lo que vamos a lanzar es una instancia micro de Apache Druid, que requiere 4 CPU y 16 GB de RAM. Hay 6 configuraciones de servicio diferentes para Apache Druid, que son:

  • Inicio rápido nano: 1 CPU, 4 GB de RAM
  • Micro-Quickstart: 4 CPU, 16 GB de RAM
  • Pequeño: 8 CPU, 64 GB de RAM
  • Medio: 16 CPU, 128 GB de RAM
  • Grande: 32 CPU, 256 GB de RAM
  • Extra grande: 64 CPU, 512 GB de RAM

Dependiendo del tamaño de sus datos y necesidades. Cuando ingresa a grandes cantidades de datos, se recomienda que Apache Druid se implemente como un clúster. Sin embargo, dado que recién nos están presentando a Apache Druid, la instancia micro estará bien.

Cómo descargar y descomprimir Apache Druid

Con Java instalado, es hora de descargar y descomprimir Apache Druid. De vuelta en la ventana de la terminal, descargue la última versión (asegúrese de consultar la página de descarga de Apache Druid para verificar que esta es la última versión) con el comando:

wget https://dlcdn.apache.org/druid/0.22.1/apache-druid-0.22.1-bin.tar.gz

Descomprimir el archivo descargado con:

tar xvfz apache-druid-0.22.1-bin.tar.gz

Cambie al directorio recién creado con:

cd apache-druid-0.22.1

Inicie el servicio con:

./bin/start-micro-quickstart

El servicio Apache Druid debería iniciarse sin problemas. Tenga en cuenta que no recuperará su terminal ya que el servicio se ejecuta hasta que lo cancele con CTRL + C.

Cómo acceder a la consola de Apache Druid

En la misma máquina que ejecuta Apache Druid, abra un navegador web y diríjalo a http://localhost:8888. Desafortunadamente, Apache Druid está configurado de tal manera que no puede acceder a él desde una máquina remota, razón por la cual lo instalamos en una máquina de escritorio.

La consola de Apache Druid lo saludará (Figura A).

Figura A

druida
Imagen: Jack Wallen/Tecnopedia. La consola de Apache Druid es muy limpia y fácil de usar.

Cómo cargar datos

Vamos a cargar una muestra predefinida de datos, que se encuentra en el directorio de inicio rápido/tutorial/. La muestra se llama wikiticker-2015-09-12-sampled.json.gz.

druidb
Desde la consola, haga clic en Cargar datos en la fila superior. En la ventana resultante (Figura B), haga clic en Disco local.

Figura B

Imagen: Jack Wallen/TechRepublic.  Hay varias fuentes de las que puede extraer datos.
Imagen: Jack Wallen/Tecnopedia. Hay varias fuentes de las que puede extraer datos.

Haga clic en Conectar datos (en el lado derecho de la ventana) y luego, en la barra lateral resultante (Figura C), escribe quickstart/tutorial como directorio base y wikiticker-2015-09-12-sampled.json.gz en la sección Filtro de archivos.

Figura C

Imagen: Jack Wallen/TechRepublic.  Hay varias fuentes de las que puede extraer datos.
Imagen: Jack Wallen/Tecnopedia. Agregar los datos del tutorial en la consola.

Haga clic en Aplicar y debería ver aparecer una gran cantidad de datos en la ventana principal (Figura D).

Figura D

Imagen: Jack Wallen/TechRepublic.  Nuestros datos han sido cargados.
Imagen: Jack Wallen/Tecnopedia. Nuestros datos han sido cargados.

Haga clic en Siguiente: Analizar datos en la parte inferior derecha y se le presentará una lista de los datos en un formato más legible (Figura E).

Figura E

Imagen: Jack Wallen/TechRepublic.  Nuestros datos son mucho más legibles ahora.
Imagen: Jack Wallen/Tecnopedia. Nuestros datos son mucho más legibles ahora.

Haga clic en Siguiente: Analizar tiempo y podrá ver los datos contra marcas de tiempo particulares (Figura F).

Figura F

Imagen: Jack Wallen/TechRepublic.  Ordenar los datos según la marca de tiempo.
Imagen: Jack Wallen/Tecnopedia. Ordenar los datos según la marca de tiempo.

Haga clic en Siguiente: Transformar y podrá realizar transformaciones por fila de los valores de columna para crear nuevas columnas o modificar las que ya existen.

Siga haciendo clic en los datos y, en cualquier momento, puede ejecutar consultas y filtrar datos según sea necesario. En la sección Configurar esquema (Figura G), incluso puede especificar la granularidad de sus consultas y agregar dimensiones y métricas.

Figura G

Imagen: Jack Wallen/TechRepublic.  Configuración del esquema para los datos importados.
Imagen: Jack Wallen/Tecnopedia. Configuración del esquema para los datos importados.

Y eso es más o menos lo básico de Apache Druid. Aunque solo hemos examinado la superficie de lo que puede hacer esta poderosa plataforma de análisis de datos, debería poder tener una idea bastante clara de cómo funciona jugando con los datos de muestra.

Cuando haya terminado de trabajar, asegúrese de volver a la ventana de la terminal y detenga el servicio Apache Druid con CTRL + C.

¿Interesado en Ubuntu? Verificar El paquete de desarrollo Mastering Linux de Academia Tecnopedia.

Suscríbase a How To Make Tech Work de Tecnopedia en YouTube para obtener los últimos consejos tecnológicos para profesionales de negocios de Jack Wallen.

LEER  Cómo permitir conexiones SSH desde LAN y WAN en diferentes puertos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba