
Hoy vamos a hablar de lo vulnerable que son los datos a la hora de almacenarlos. Un simple disco rígido puede contener decenas de miles de fotografías, miles de archivos de música, videos, cartas y otros documentos personales que son invaluables. Sería muy feo perder toda esta información por un fallo del disco. Además recordemos que los discos y las cintas tienen solo unas décadas de vida útil para almacenar datos.
Es por todo eso que un grupo de investigadores se puso en marcha para solucionar todos estos problemas y encontró una forma de almacenar datos con discos rígidos comunes en forma escalable, fiable y que consuma poca energía. Todo esto durante un tiempo estimado de 1400 años.
Aclaremos que el tiempo estimado durante el cual nuestros datos estarán seguros es teórico.
Actualmente la capacidad de almacenamiento no es más un problema, ya que los discos rígidos de gran capacidad son muy baratos. Así que tenemos espacio de sobra para grabar y guardar un montón de películas de alta definición en nuestras computadoras personales. Y aún si no necesitamos tanto espacio lo tendremos al actualizar nuestras PCs, ya que vienen con discos de 500 Gb, 640 Gb o incluso 1 Tb. Ahora si de seguridad nos referimos, la idea más común para asegurarnos que no se pierdan los datos es realizando backups periódicos. Al menos eso es lo que yo suelo hacer (aunque no con la continuidad que debería). Muchos utilizan cds, Dvds o incluso otros discos rígidos para hacer esto, sin embargo es una tarea poco agradable. Y si tuviésemos que resguardar toda la base de datos de corporaciones, librerías, gobiernos y demás organizaciones ¿como lo haríamos? Sin olvidar que esa información tendría que estar disponible durante muchos años y en lo posible ser de bajo costo y de consumo eficiente. Si pensamos en todo esto, se dificulta el resguardar todo en algún dispositivo que nos permita esas facilidades. Y eso sin contar que nos gustaría poder tener un acceso rápido a esta información.
Hasta ahora lo más seguro y de rápido acceso son los discos rígidos, y dependiendo de cual hayan comprado tendrán una fiabilidad de entre 300.000 y 1 millón de horas de Tiempo Medio de Vida entre Fallos o como se le suele decir “Mean Time Between Failure” (MTBF). El MTBF nos indica el tiempo que el disco rígido permanecerá sin averías pero es un poco engañoso para nosotros (los clientes) que no podemos comprar una numerosa cantidad de unidades. Ya que dado el peor disco con un tiempo de 300.000 horas entre fallos (de ahora en más 300.000 MTBF) nos debería soportar más de 34 años. Sin embargo el MTBF indicado por los fabricantes es solamente para ser utilizado en conjunto con un gran número de unidades. En nuestro caso que utilizamos un solo disco la mejor guía para saber cuan fiable resulta ser es su vida útil. El cual habitualmente es de 5 a 7 años.
Otra forma de almacenamiento que lo utilizan aquellas organizaciones que manejan gran cantidad de información son las cintas, usualmente utilizada para backups. Pero ellas tienen el inconveniente de que no se puede acceder en forma rápida a los datos y además su vida útil ronda entre los 10 a los 30 años.
Ahora como dijimos anteriormente ¿como realizamos nosotros nuestros backups? Así es, por medio de cds o DVDs, para decirlo en forma más general por medio de discos ópticos, los cuales tienen una vida útil de 30 a 50 años y eso si lo conservamos en óptimas condiciones, sino este valor baja drásticamente.
Eh aquí donde a los investigadores de la Universidad de California Santa Cruz (UCSC) se les ocurrió una nueva idea, la cual permitiría tanto a individuos como a grandes organizaciones almacenar sus datos en forma fiable y eficiente durante un marco de tiempo largo. Ofreciendo una forma de almacenar datos para las generaciones futuras.
Mark Storer, un estudiante graduado de UCSC dijo “Hay un riesgo de que la historia cultural de una generación entera se pierda si la gente no es capaz de recuperar ciertos datos” y agregó, “Todos están utilizando cámaras digitales, pero nunca les hemos demostrado que los datos digitales pueden ser preservados por un largo tiempo”.
Él junto a Kevin Greenan y los profesores asociados Ethan Miller y Kaladhar Voruganti, y un investigador de NetApp, desarrollaron la idea de Pergamum, un nuevo enfoque de almacenamiento de datos basado en discos.
Pergamum fue el nombre dado a la antigua biblioteca griega que hizo la transición para almacenar escritos utilizando el frágil papiro a utilizar un pergamino más durable.
¿Como trabaja? Pergamum fue diseñado como una red distribuida de dispositivos individuales de almacenamiento en red completamente funcionales. Es como un gran disco rígido formado por discos más pequeños. Funciona como un Maids (Massive array of idle disks) que es un sistema que utiliza cientos de miles de discos rígidos para almacenamiento de datos Near-Line, donde Near-Line es una forma intermedia de almacenamiento que se encuentra entre el almacenamiento on-line (el cual es constante y permite muy rápido acceso) y el almacenamiento offline (acceso infrecuente o para propósitos de backup).
Se le añadió a cada nodo (disco) memorias flash NAND descriptas como NVRAM (on-volatile random access memory) con el propósito de almacenar firmas de los datos, metadatos, y otros pequeños ítems. Permitiendo así que se realicen escrituras diferidas, solicitudes de metadatos y verificación de datos entre discos mientras el disco se encuentre apagado. Ya que la NVRAM puede correr búsquedas frecuentes sin la necesidad de hacer girar al disco, y de ese modo el disco puede permanecer más tiempo apagado aumentando el tiempo de vida útil y reduciendo el consumo del MAID.
Para luchar contra la perdida de datos, Pergamum utiliza redundancia entre discos y dentro del disco (intra-disk and inter-disk) apoyándose en estructuras de árbol de firmas algebraicas hash para verificar eficientemente la corrección de los datos almacenados.
Si por algún motivo ocurre un fallo, Pergamum usa una reconstrucción escalonada para reducir los picos de energía mientras las franjas de reconstrucción son realizadas. En un escenario típico el 95% de los discos permanecerán apagados todo el tiempo según los investigadores.
Entonces utilizando esta tecnología se puede construir un archivero de datos a través de dispositivos de almacenamiento independientes o “tomas”. Donde cada “toma” consiste de un procesador ARM que maneja la unidad (y corre procesos como escaneos de virus), un disco rígido SATA, NVRAM y un puerto Ethernet. La red de discos será soportada por switches de alta performance utilizando la estructura de estrella.
Ahora que ya tenemos idea de cómo funciona nos estaremos preguntando ¿Que tan eficiente es Pergamum?
Actualmente solo es un prototipo y su rendimiento es estimado. Pero estas estimaciones son prometedoras. Para darnos una idea se podría armar un sistema de almacenamiento de 10 PB (Petabyte) donde 1 Petabyte=1024 Terabytes con un costo de US$ 4.7 millones y con un costo de operación anual (energía para que funcione y ventilar el sistema) de aproximadamente US$50.000. Una suma no muy grande para las corporaciones que deseen asegurar sus datos los próximos 1400 años.
En una simulación si se usan discos rígidos de 1TB formando un sistema estructurado Pergamum de 10 Pb con 3 segmentos de paridad entre discos (inter-fisk) por 16 discos y 3 bloques de paridad por segmento intra-disk. El estimado de fiabilidad en MTTDL es de 1.25×107 horas o alrededor de 1400 años. Nuevamente aclaremos que esto es solo un estimado pero aun así va mucho mas allá de lo que hay en el mercado actualmente y hasta ahora la única idea de almacenamiento a largo plazo.

Añadir a Del.Icio.Us




1 Comentario en “Pergamum nos permite guardar datos por 1400 años”
todo esto es fabuloso pero yo solo quiero guardar mis archivos, gracias