Grandes datos

Investigadores de la Fed e IBM agregan nueva inteligencia al sistema de gestión de almacenamiento masivo

IBM y el Departamento de Energía crearon HPSS hace más de 25 años y se suponía que se usaría para actualizaciones de metadatos y mejoras de almacenamiento en cinta. Los programas de gestión de almacenamiento jerárquico existen en los centros de supercomputación.

datastorageistock 467916774photosampler

El líder en sistemas de almacenamiento de alto rendimiento (HPSS), establecido hace más de 25 años por los laboratorios de investigación del Departamento de Energía de EE. UU. e IBM, planea modernizar su próximo producto de administración de datos de octava generación.

La gestión de almacenamiento jerárquico es el concepto de utilizar políticas organizativas y automatización de software para determinar qué datos conservar, dónde guardarlos, cuándo moverlos a un método de almacenamiento diferente y cuándo eliminarlos. Hay muchos productos comerciales que hacen esto, pero HPSS enfatiza la gran escala requerida para la investigación científica del gobierno.

Ver también: Glosario rápido: almacenamiento (Tech Pro Research)

«¿Cómo sabe lo que está archivando? Estamos hablando de cientos de petabytes por exabyte de archivos en este momento. Creemos que estaremos allí en 2 o 3 años», dijo Lawrence Leigh de Livermore, CA, Todd Herr, un arquitecto de almacenamiento de supercomputación en el Laboratorio Nacional Fermore.

El sitio web de HPSS enumera 37 Clientes divulgados públicamente; Otros clientes son secretos.A partir del año pasado, HPSS se encuentra actualmente en la versión 7.5.1 y está a punto de llegar a 7.5.2, el próximo año verá 7.5.3, como en Hoja de ruta en línea.

La versión 8 aún no está en la hoja de ruta oficial, pero ¿qué piensan los expertos al respecto? «Creo que nuestro desafío es ser un buen administrador de datos. Creo que ahí es donde apuntaremos el producto», dijo Herr. Esto permitirá que HPSS extraiga sus propios datos y les asigne metadatos.

LEER  El nuevo plan de datos abiertos del presidente Obama puede ayudar a las ciudades a ayudarse a sí mismas

Para lograr esto, «el primer paso fue poder exponer la información en el archivo a alguna aplicación de espacio de nombres general… y ahora estamos trabajando en eso», explicó Herr, refiriéndose a un proyecto liderado por Atempo, Robinhood, Starfish y Strong Link. «Creo que el siguiente paso es escalar el rendimiento de los metadatos», como la partición de bases de datos y la virtualización de múltiples procesadores al realizar búsquedas, dijo.

Un objetivo más general de HPSS (no relacionado con ninguna versión en particular) es hacer que el software use el almacenamiento en cinta de manera más eficiente. «Lo que estamos tratando de hacer es permitir un acceso rápido a la cinta. Si observa la industria, las palabras rápido y cinta generalmente no se juntan», observó Herr. Los científicos de Livermore en el campo nuclear tienen acceso a datos de investigación de hace 50 años en cinta, en su mayoría resultados de investigación textuales o código de software que es lo suficientemente portátil como para ejecutarse en sistemas modernos, tal vez emulando hardware antiguo.

VER: Fantasmas tecnológicos del pasado: fotos de almacenamiento de datos desde la década de 1950 hasta la década de 1980 (Tecnopedia)

«HPSS, debido a que existe en estos grandes centros de supercomputación que operan a una escala tan masiva, las consecuencias para TI son más un efecto de goteo», como el trabajo en los adaptadores de bus de host Fibre Channel en la década de 1990, dijo Herr. . «Resolveremos los problemas más rápido que la mayoría de los sitios y, ciertamente, más rápido que los propios proveedores porque no pueden replicar nuestro entorno en la mayoría de las pruebas».

Se puede colocar un búfer de coincidencia de velocidad entre el almacenamiento en disco principal y el almacenamiento en cinta de archivo, disponible tanto para lectura como para escritura. También hay mejoras físicas, como motores de cinta más rápidos y una colocación más rápida de la cabeza.

«La física siempre es física… Lo que quieres minimizar es la cantidad de veces que tienes que salir y grabar primero», agregó Hull. La próxima supercomputadora de su empleador, llamada Sierra, funcionará a velocidades de hasta 125 petaflops y tendrá un sistema de archivos de 125 petabytes, lo que proporcionará un amplio campo de pruebas para nuevas formas de acelerar y administrar mecanismos de almacenamiento de datos de vanguardia.

Estos temas se discuten en la reunión anual del Grupo de usuarios de HPSS y en la próxima Conferencia Internacional sobre Sistemas y Tecnología de Almacenamiento Masivo.

LEER  Considere la regla de oro antes de publicar información ambigua

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba