Data Lake | Revista .925 Artes y Diseño

Revista de la Facultad de Artes y Diseño plantel Taxco

Tag archive

Data Lake

Data Lake orientado a la preservación de acervos

CUT Data Lake

Por José Pedro Aragón Hernández[1], Francisco Javier Cartujano Escobar[2] y Leticia Santa Olalla Ocampo[3].

La conectividad a servicios de internet es un servicio de confort común en México, estos servicios de conectividad permiten a los usuarios acceder a recursos de diferentes tipos, la mayoría de ellos almacenados físicamente en ubicaciones remotas. Las empresas u organizaciones que brindan recursos computacionales de manera pública han sufrido cambios radicales en su esquema de trabajo desde la creación de los servicios en la nube, dicho término que no se refiere exclusivamente a almacenar las imágenes o conversaciones provenientes de un teléfono móvil para asegurar un medio de respaldo. El termino “nube” se refiere a la utilización de recursos e infraestructura computacional rentada por empresas para garantizar el acceso a datos y sistemas de información de una organización sin la necesidad de realizar un gasto enorme en infraestructura computacional adecuada para mantener su conectividad. Esos servicios “nube” van desde el simple respaldo de información hasta el uso de poder súper computacional para la realización de cálculos y análisis de datos crudos (datos sin ordenar, ni analizar), entre ellos las tecnologías Big Data y Data Lake a las cuales nos referiremos adelante, todo ello con un costo inferior al que representaría la adquisición, funcionamiento y mantenimiento de equipos computacionales y conectividad a internet.

Introducción

Los contextos sociales, culturales y educativos han sufrido cambios radicales en México y en el mundo, estos cambios no han sido cambios generacionales, más bien se pueden sentir como la adaptación humana a entornos que han cambiado en algunas ocasiones en cuestión de horas.

En el entorno nacional, México ha sufrido de cambios constantes, los más remarcables han sido el sismo del 19 de septiembre del año 2017, que inhabilitó poblaciones completas, escuelas de nivel básico, nivel medio y universidades. El segundo es la pandemia actual de COVID-19 que ha afectado no sólo a México. La pandemia actual ha detenido las actividades educativas, sociales, empresariales del mundo entero.

En el caso de México, muchas escuelas y universidades se encontraban parcialmente listas para enfrentar el reto de la educación en línea, pero no todas.

El presente artículo tiene como objetivo principal describir una propuesta computacional que permite transformar de manera transparente la forma en la que se mantienen y alimentan los acervos Bibliográficos y Pictográficos, entre otros posibles, mediante el uso de Tecnologías de la Información basadas en la nube y el uso de tecnologías de almacenamiento más allá de las bases de datos relacionales.

Antecedentes

En Critical analysis of Big Data challenges and analytical methods[4] se define el siguiente concepto: “El problema de la digitalización global produce enormes cantidades de datos. Una estimación muestra que globalmente se producen y consumen alrededor de 2.5 quintillones de datos”. Cabe mencionar que en esta estimación no menciona un intervalo de tiempo.

En Managing data lakes in big data era: What’s a data lake and why has it became popular in data management ecosystem[5], Huang Ling Fang describe: “Tal disponibilidad de datos trae consigo los retos de la ingestión de datos, monitoreo de datos y análisis de datos. Hoy en día, el concepto Data Lake se utiliza de forma popular para definir la acumulación de datos desde fuentes heterogéneas. Los Data Lake se usan para almacenar grandes cantidades de datos crudos en un repositorio basado en Big Data, brindando las funcionalidades de ingestión, exploración y monitoreo de datos.”

Métodos

Una de las tecnologías más importantes en el área de los sistemas de información, es la tecnología referente a los Data Warehouses, también conocidos como almacenes de datos o bodegas de datos. Como es sabido, un Data Warehouse es una enorme base de datos con datos históricos, generalmente de lectura, cuyo propósito principal es apoyar en el proceso de toma de decisiones de las organizaciones.

Los Data Warehouses tienen como característica el uso de modelo de bases de datos relacional, ello genera almacenamientos restringidos al marco de este paradigma. Dichos Data Warehouses tradicionales enfrentan problemas para satisfacer la capacidad y velocidad de procesamiento que demandan esa ola masiva de datos, debido a que no fueron diseñados para escalarse horizontalmente.

Con el mismo avance de las tecnologías de la información, en los últimos años surgieron herramientas de almacenamiento y tecnologías que rompen el paradigma relacional de las bases de datos tradicionales y por ende generan nuevos conceptos que van más allá.

Los Data Lakes, a diferencia de los Data Warehouses, son bases de datos que almacenan datos crudos de distintas fuentes, estos datos pueden tener formato estructurado, sin estructura y semiestructurados[6]. Al ser basados en Big Data, no presentan problemas para escalar horizontalmente (puede crecer su tamaño tanto como se tengan recursos de almacenamiento). En donde podemos definir el concepto “datos crudos” como los datos sin ningún tipo de análisis estadístico u organización y representación visual, estos datos son los resultantes del proceso de “ingestión de datos”.

La “ingestión de datos” se define como el acto de ingresar bytes sin clasificar en un Data Lake, para su posterior análisis (estadístico) y clasificación (sin importar su formato).

Desarrollo

La problemática descrita en la introducción tiene como fondo real los problemas que presentan diversas universidades provocados por la pandemia COVID-19.

Todo el sector educativo se vio obligado a dejar el modelo presencial y cerrar sus instalaciones, varios organismos educativos, principalmente los privados, ya contaban con mecanismos digitales, a muchos otros los tomó por sorpresa y generó una ola de problemas entre los que podemos mencionar el acceso a los trabajos actuales, como: tesis, fotografías, proyectos pictográficos o proyectos en video generados dentro de los organismos educativos locales, quedó cerrado, ya que no se tiene medio de acceso digital en todos los casos.

Con los conceptos anteriores es posible proponer una herramienta computacional aun sin denominar, que esté fuera de la infraestructura local de una organización (incluidas empresas, escuelas de diferentes niveles y gobierno), por lo tanto, eventos naturales como sismos o lluvias que provoquen daños materiales, eventos sociales como huelgas o paros, que impidan el ingreso a las instalaciones, eventos humanos como cortes en el suministro eléctrico, eventos computacionales, como fallas en equipo de computo y eventos mundiales como pandemias, no serían un impedimento para la consulta de los acervos en los que se desee trabajar.

Así mismo, en caso de un desastre que provoque la perdida de dichos acervos, se tendría un respaldo digital completo para garantizar la continuidad de la información.

¿Cómo es esto posible?

En términos coloquiales: si se almacenan estos acervos en la nube, la misma nube por sus propiedades se encargará de respaldar, garantizando su disponibilidad y que no sean alterados. Desde la nube se podrán consultar los acervos en cualquier dispositivo en todo momento, sólo contando con conexión a internet.

En términos técnicos: empresas como Amazon®, Google®, Microsoft® y Oracle® por mencionar las más conocidas por su popularidad, ofrecen servicios basados en Cloud (traducido como Nube), entre estos servicios esta la posibilidad de trabajo con Data Lakes.

Todos los servicios están almacenados en sus centros de datos donde se tienen protocolos de respaldo de datos, así como diversos protocolos de seguridad que garantizan el acceso a los datos sólo por las personas autorizadas.

© José Luis Acevedo Heredia. 2020
© José Luis Acevedo Heredia. 2020

Entre sus posibilidades aplicables se mencionan:

  • La posibilidad de usar y adaptar sus herramientas para transferir y almacenar grandes volúmenes de datos de forma cruda desde distintas fuentes garantizando la seguridad.
  • Organización de los datos almacenados sin importar su tamaño garantizando que siempre tendrán espacios de almacenamiento disponible.
  • Soporte de diversos lenguajes para el diseño de herramientas que presentarán la información de una forma transparente para el usuario final

Por pasos…

Al contratar un espacio Cloud para Big Data, se puede acceder a un lugar donde se pueden almacenar datos ¿Qué tamaño en bytes tiene? El que se requiera. La empresa que brinde el servicio también brinda la posibilidad de asociar usuarios a este espacio de almacenamiento.

Por lo tanto, si se contrató el servicio con Google, el administrador puede agregar a otros usuarios con cuenta de Google para que puedan acceder a las herramientas de transferencia de datos. La seguridad la maneja y garantiza la empresa.

Las herramientas de transferencia son personalizables y pueden cargar archivos crudos a la vez que se puede crear un índice para especificar de qué tipo de datos se trata, qué tipo de acervo es y quiénes tendrán acceso a él. Estas herramientas, son diseñadas de forma transparente para que los usuarios finales no requieran de grandes conocimientos en temas computacionales. El espacio crecerá cada que se requiera, garantizando el espacio suficiente para los acervos a transferir.

Las empresas brindan herramientas para la creación y diseño de interfaces para buscar, acceder y descargar los archivos pertenecientes a los acervos almacenados, usando métodos comunes como palabras claves y buscadores que se deben crear usando sus herramientas.

Por lo tanto, todas estas tecnologías se podrían utilizar para la creación de esta herramienta donde se podrán mantener acervos de diferentes formatos, que pueden ser consultados en cualquier momento, desde cualquier dispositivo con acceso a internet (si sus características lo permiten) sin perder calidad y sin alterar formatos.

Conclusiones

La apertura al uso de data lakes para almacenar acervos de distintas fuentes permitirá el acceso a ellos en todo momento a los miembros de empresas, organizaciones o instituciones. Será un medio para disminuir la pérdida de acervos promoviendo la digitalización de los que aún no están digitalizados. Será un medio que disminuirá la perdida de acervos digitales almacenados en equipos de computo dentro de las instalaciones donde se implemente, ya que no serán susceptibles a daños por eventos naturales o humanos, entre otros posibles escenarios.

En México, se tendrá siempre el problema latente de las velocidades de conectividad fuera de las ciudades principales, lo cual genera tiempos alargados en la carga de datos como proyectos de video o audio. 

(Publicado el 4 de mayo de 2020)

Referencias

  • Chevalier M. et al. (2015). Implementing Multidimensional Data Warehouses into NoSQL. International Conference on Enterprise Information Systems. p172-183.
  • Dayley B. (2015). NoSQL with MongoDB. SAMS Publishing, January 2015.
  • Fang, H. (2015). Managing data lakes in big data era: What’s a data lake and why has it became popular in data management ecosystem. IEEE International Conference on Cyber Technology in Automation, Control and Intelligent Systems, IEEE-CYBER 2015. pp. 820–824.
  • O’Leary, D. E. (2014). Embedding AI and Crowdsourcing in the Big Data Lake. IEEE Intelligent Systems, vol. 29, no. 5, pp. 70-73, Sept.-Oct.2014. doi: 10.1109/MIS.2014.82
  • Mishra D., et al. (2008). A Case Study of Data Models in Data Warehousing. Applications of Digital Information and Web Technologies, ICADIWT.
  • Sivarajah, U. M. et al. (2017). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, Volume 70, January. pp. 263–286.

[1] Los autores agradecen al Tecnológico Nacional de México por el apoyo otorgado para la realización de este artículo.

[2] Francisco Javier Cartujano Escobar, Doctor en Administración con Especialidad en Sistemas de Información egresado del ITESM, Campus Ciudad de México; Maestro en Ciencias de la Computación e Ingeniero en Sistemas Computacionales, ambos títulos otorgados por el ITESM, Campus Cuernavaca. Obtuvo mención honorífica al terminar la carrera de Ingeniería. Se ha desempeñado en el sector privado como gerente de sistemas y como profesor investigador del Departamento de Computación del ITESM, Campus Ciudad de México. Ha pertenecido al SNI del CONACYT. Actualmente catedrático de la carrera de Ingeniería en Sistemas Computacionales y de la Maestría en Ingeniería en el Instituto Tecnológico de Zacatepec. Contacto: francisco.ce@itzacatepec.edu.mx

[3] Leticia Santa Olalla Ocampo, graduada como Licenciada en Informática en 1992 por el Instituto Tecnológico de Zacatepec (ITZ), graduada como Maestra en Ciencias en Ciencias de la Computación 2008 por el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET). Actualmente catedrática de la carrera de Ingeniería en Sistemas Computacionales y de la Maestría en Ingeniería en el Instituto Tecnológico de Zacatepec. Área de Interés Ingeniería de Software. Contacto: leticia.so@itzacatepec.edu.mx

[4] Sivarajah, U. M. et. al. (2017). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, Volume 70, January. pp. 263–286.

[5] Fang, H. (2015). Managing data lakes in big data era: What’s a data lake and why has it became popular in data management ecosystem. IEEE International Conference on Cyber Technology in Automation, Control and Intelligent Systems, IEEE-CYBER 2015. pp. 820–824.

[6] O’Leary, D. E. (2014). Embedding AI and Crowdsourcing in the Big Data Lake. IEEE Intelligent Systems, vol. 29, no. 5, pp. 70-73, Sept.-Oct.2014. doi: 10.1109/MIS.2014.82

ir al inicio