Linux

SQL Server recurre a Kubernetes y big data

Originalmente, los productos SQL Database Service y SQL Server en Azure se basaban en códigos diferentes. Hace unos años, Microsoft unificó el código base para que las aplicaciones fueran compatibles entre sí. El equipo de SQL se dio cuenta de que los clientes no solo querían mover sus aplicaciones de base de datos a la nube, sino que también querían poder administrar más fácilmente las complejidades de tener varias bases de datos.

Ver también: 10 problemas y soluciones comunes de SQL Server (PDF gratuito)

«Lo que estamos viendo es que, incluso en la era de la nube, hay tanto interés en SQL Server que existe la oportunidad de expandir la propuesta de valor de SQL Server», dijo el gerente general de datos e inteligencia artificial de Azure. Lugar de John ‘JG’ Gila le dijo a Tecnopedia.Esto lleva a base polivinílica Tecnología en SQL Server 2023 («Polybase le permite T-SQLEste Lenguaje común SQL Server y consultar un montón de fuentes de datos diferentes») y Servidor SQL 2023 para Linux, que Chirapurath llama «una de las versiones más innovadoras de SQL Server que hemos tenido, y posiblemente la versión más exitosa que hemos tenido». En 18 meses, se ha descargado más de 20 millones de veces, algunas de las cuales dependen de la facilidad con la que el soporte de contenedores haga las implementaciones.

microsoft polybase

Simplificando Kubernetes para Big Data

Los clientes quieren que se ejecute SQL Server KubernetesPero también querían que fuera más fácil, dijo Chirapurath.

«La mayoría de las empresas han adoptado contenedores como un medio para administrar básicamente aplicaciones y sistemas políglotas dentro del centro de datos y, cada vez más, los conectan a Kubernetes como un marco de orquestación», dijo Chirapurath.

«Una de las razones por las que Kubernetes se ha vuelto complicado es que la gente está agregando muchas extensiones, por lo que ha pasado de un marco general a una idea de ‘talla única’. Kubernetes tiene muchas cosas diferentes», agregó Chirapurath.

por Servidor SQL 2023los administradores de clústeres tienen un portal de administración y una interfaz de línea de comandos que pueden usar para toda la administración.

Lo que los clientes empezaron a pedir entonces fue la misma ayuda que les proporcionó SQL Server con un lago de datos de datos no estructurados entre la nube y las bases de datos locales. «Nos ayuda con nuestro lago de datos y todos los datos no estructurados que recopilamos. Nos ayuda a administrar toda esta complejidad usando los datos que vemos en las instalaciones y en la nube. Nos brinda una forma muy consistente de usar las herramientas con las que estamos familiarizados , habilidades familiares y cosas en las que hemos hecho una apuesta. La apuesta incluye Spark, HDFS, tal vez Python, R y cosas por el estilo», dijo Chirapurath.

Mirar: Herramienta de contratación: Administrador de base de datos (República Tecnológica Premium)

Una vez que SQL Server 2023 se ejecuta en contenedores, Microsoft puede extender Polybase para que no solo pueda consultar fuentes de datos como MongoDB y Oracle usando SQL Server 2023, sino también colocar grupos de almacenamiento HDFS en clústeres de SQL Server (ejecutar en clústeres) contenedores de Linux) y ejecute SQL Server y Spark en ese grupo de almacenamiento.

«Básicamente tomamos el motor Spark de código abierto y lo integramos estrechamente con el procesador de consultas SQL, el motor SQL Server», dijo Chirapurath. «Ahora, básicamente, puede incrustar consultas Spark en declaraciones de sintaxis SQL de SQL Server y consultar el lago de datos directamente. SQL es completamente relacional y su lago de datos no está estructurado en absoluto; pueden ser de cualquier tipo de datos. Ahora puede crear una capa de virtualización de datos y administre todo tipo de datos en la empresa, ya sea que se puedan almacenar en SQL Server o no”.

Esto facilita la consulta de HDFS, pero también simplifica la configuración, ya que no es necesario crear y administrar almacenamiento de HDFS por separado, puede implementar un grupo de disponibilidad de SQL Server en Kubernetes con un solo comando y obtener un clúster en aproximadamente media hora. También evita las preocupaciones de seguridad comunes de los entornos relacionales y de big data integrados: los clústeres de big data de SQL Server tienen capas de seguridad integradas que cubren SQL Server, Spark y HDFS. SQL Server Machine Learning Services se ejecuta en la instancia principal, y R, Python, Java y Machine Learning Scoring and Prediction se ejecutan localmente en el clúster principal. Incluso puede usar herramientas de terceros para acelerar Spark en SQL Server si lo desea. FPGA.

Correr Spark significa que puedes correr chispas Y use la compatibilidad con R y Python agregada a SQL Server 2023 para que pueda crear sistemas de aprendizaje automático para datos estructurados y no estructurados. «Puede crear una canalización de aprendizaje automático donde puede ingerir datos no estructurados a través de la integración de Spark, puede ingerir datos relacionales a través de procesadores de consultas SQL y puede crear modelos de aprendizaje automático directamente en SQL Server usando R y Python», dijo Chira Pratt.

“Desde la perspectiva de la IA, lo que veo en el mercado actual es que las personas se acercan al arte, la ciencia y la artesanía del aprendizaje automático de dos maneras”, dijo Chirapurath. «Una forma es a través del ecosistema de big data, ya que recopilan datos en el mundo de Hadoop y comienzan a usar Spark para hacer un razonamiento básico sobre esos datos, y luego comienzan a usar Spark ML y cosas así. Aprendizaje automático muy complejo sobre datos. En el Por otro lado, veo muchos desarrolladores usando lenguajes como R y Python, e incluso cosas como Scala, que está muy centrado en el desarrollador. Lo que SQL Server 2023 puede hacer es unir estas dos perspectivas. «

Los ingenieros de datos, los científicos de datos, los DBA y los desarrolladores de SQL Server pueden usar Estudio de datos de Azure Administre bases de datos y escriba consultas y use dos conjuntos de herramientas.

cruzar el arroyo

La ventaja de usar R y Python en el motor de SQL Server es que puede realizar aprendizaje automático donde residen los datos, con una latencia mucho más baja en comparación con el lugar donde se almacenan los datos en otro lugar. Con SQL Server 2023, obtiene la misma ventaja en ambas direcciones. Una capa de virtualización de datos evita la necesidad de mover petabytes de datos fuera del lago de datos, lo cual no es práctico. «Del mismo modo, los clientes son reacios a sacar datos de SQL Server para un proceso completo de ingeniería de datos para limpiarlos para tareas de IA o tareas de ML. Lo que esto le permite hacer es simplemente tomar los datos en SQL Server y combinarlos con lo que necesita». puede hacer con Spark del conjunto de resultados de los datos consultados en el lago de datos», dijo Chirapurath.

Anteriormente, si deseaba procesar datos estructurados y no estructurados, veía mucho ETL: si deseaba combinar datos de SQL Server y Spark en Azure Data Warehouse, tenía que usar Azure Data Factory para ingerir y transformar los datos.

Analytics presenta a las empresas lo que Chirapurath llama una «elección incorrecta» entre datos estructurados/relacionales y datos no estructurados/no relacionales, tratándolos como silos para administrar y usar datos puramente por razones históricas.

«Los sistemas de bases de datos relacionales nacieron en la era de los altos costos de almacenamiento. Debido a la innovación tecnológica, [the cost of] El almacenamiento es casi nulo”, señala Chirapurath. Cuando apareció por primera vez la PC de IBM, un disco duro de 20 MB costaba entre 3.000 y 4.000 dólares. “La mitad de mis bandejas de entrada ahora son de 20 MB”, dice.

La caída de los costos de almacenamiento y la dificultad de saber qué petabytes de datos vale la pena conservar significan que el problema no es conservar los datos, sino hacerlos útiles. «Lo que hace la gente con las bases de datos relacionales es que crean formas altamente seleccionadas de almacenar datos; son muy duros con lo que se guarda y lo que se tira». [everything in every system of record in an organization], es sacrosanta porque el almacenamiento es muy caro. Lo que ha sucedido durante la última década es que no hay una razón de costo para tirar nada, por lo que lo almacenan todo. Estamos en un mundo que salva todo”, dijo Chirapurath.

Se acerca SQL Server 2023, Chirapurath insinúa que Microsoft lanzará más herramientas de base de datos en línea con estas tendencias del mercado encender, incluyendo una apuesta por el código abierto. «Lo que está viendo en un clúster de macrodatos de SQL Server, con Spark, el motor de análisis de código abierto, justo al lado de SQL Server, el motor de análisis relacional, con la capacidad de consultar datos relacionales y no relacionales, muestra cómo pensamos debemos trabajar con nuestros clientes para eliminar estos obstáculos artificiales».

Más sobre Microsoft

LEER  Beneficios de usar una solución de calidad de datos de código abierto

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba