Tecnología | Revista .925 Artes y Diseño

Revista de la Facultad de Artes y Diseño plantel Taxco

Tag archive

Tecnología

Data Lake orientado a la preservación de acervos

CUT Data Lake

Por José Pedro Aragón Hernández[1], Francisco Javier Cartujano Escobar[2] y Leticia Santa Olalla Ocampo[3].

La conectividad a servicios de internet es un servicio de confort común en México, estos servicios de conectividad permiten a los usuarios acceder a recursos de diferentes tipos, la mayoría de ellos almacenados físicamente en ubicaciones remotas. Las empresas u organizaciones que brindan recursos computacionales de manera pública han sufrido cambios radicales en su esquema de trabajo desde la creación de los servicios en la nube, dicho término que no se refiere exclusivamente a almacenar las imágenes o conversaciones provenientes de un teléfono móvil para asegurar un medio de respaldo. El termino “nube” se refiere a la utilización de recursos e infraestructura computacional rentada por empresas para garantizar el acceso a datos y sistemas de información de una organización sin la necesidad de realizar un gasto enorme en infraestructura computacional adecuada para mantener su conectividad. Esos servicios “nube” van desde el simple respaldo de información hasta el uso de poder súper computacional para la realización de cálculos y análisis de datos crudos (datos sin ordenar, ni analizar), entre ellos las tecnologías Big Data y Data Lake a las cuales nos referiremos adelante, todo ello con un costo inferior al que representaría la adquisición, funcionamiento y mantenimiento de equipos computacionales y conectividad a internet.

Introducción

Los contextos sociales, culturales y educativos han sufrido cambios radicales en México y en el mundo, estos cambios no han sido cambios generacionales, más bien se pueden sentir como la adaptación humana a entornos que han cambiado en algunas ocasiones en cuestión de horas.

En el entorno nacional, México ha sufrido de cambios constantes, los más remarcables han sido el sismo del 19 de septiembre del año 2017, que inhabilitó poblaciones completas, escuelas de nivel básico, nivel medio y universidades. El segundo es la pandemia actual de COVID-19 que ha afectado no sólo a México. La pandemia actual ha detenido las actividades educativas, sociales, empresariales del mundo entero.

En el caso de México, muchas escuelas y universidades se encontraban parcialmente listas para enfrentar el reto de la educación en línea, pero no todas.

El presente artículo tiene como objetivo principal describir una propuesta computacional que permite transformar de manera transparente la forma en la que se mantienen y alimentan los acervos Bibliográficos y Pictográficos, entre otros posibles, mediante el uso de Tecnologías de la Información basadas en la nube y el uso de tecnologías de almacenamiento más allá de las bases de datos relacionales.

Antecedentes

En Critical analysis of Big Data challenges and analytical methods[4] se define el siguiente concepto: “El problema de la digitalización global produce enormes cantidades de datos. Una estimación muestra que globalmente se producen y consumen alrededor de 2.5 quintillones de datos”. Cabe mencionar que en esta estimación no menciona un intervalo de tiempo.

En Managing data lakes in big data era: What’s a data lake and why has it became popular in data management ecosystem[5], Huang Ling Fang describe: “Tal disponibilidad de datos trae consigo los retos de la ingestión de datos, monitoreo de datos y análisis de datos. Hoy en día, el concepto Data Lake se utiliza de forma popular para definir la acumulación de datos desde fuentes heterogéneas. Los Data Lake se usan para almacenar grandes cantidades de datos crudos en un repositorio basado en Big Data, brindando las funcionalidades de ingestión, exploración y monitoreo de datos.”

Métodos

Una de las tecnologías más importantes en el área de los sistemas de información, es la tecnología referente a los Data Warehouses, también conocidos como almacenes de datos o bodegas de datos. Como es sabido, un Data Warehouse es una enorme base de datos con datos históricos, generalmente de lectura, cuyo propósito principal es apoyar en el proceso de toma de decisiones de las organizaciones.

Los Data Warehouses tienen como característica el uso de modelo de bases de datos relacional, ello genera almacenamientos restringidos al marco de este paradigma. Dichos Data Warehouses tradicionales enfrentan problemas para satisfacer la capacidad y velocidad de procesamiento que demandan esa ola masiva de datos, debido a que no fueron diseñados para escalarse horizontalmente.

Con el mismo avance de las tecnologías de la información, en los últimos años surgieron herramientas de almacenamiento y tecnologías que rompen el paradigma relacional de las bases de datos tradicionales y por ende generan nuevos conceptos que van más allá.

Los Data Lakes, a diferencia de los Data Warehouses, son bases de datos que almacenan datos crudos de distintas fuentes, estos datos pueden tener formato estructurado, sin estructura y semiestructurados[6]. Al ser basados en Big Data, no presentan problemas para escalar horizontalmente (puede crecer su tamaño tanto como se tengan recursos de almacenamiento). En donde podemos definir el concepto “datos crudos” como los datos sin ningún tipo de análisis estadístico u organización y representación visual, estos datos son los resultantes del proceso de “ingestión de datos”.

La “ingestión de datos” se define como el acto de ingresar bytes sin clasificar en un Data Lake, para su posterior análisis (estadístico) y clasificación (sin importar su formato).

Desarrollo

La problemática descrita en la introducción tiene como fondo real los problemas que presentan diversas universidades provocados por la pandemia COVID-19.

Todo el sector educativo se vio obligado a dejar el modelo presencial y cerrar sus instalaciones, varios organismos educativos, principalmente los privados, ya contaban con mecanismos digitales, a muchos otros los tomó por sorpresa y generó una ola de problemas entre los que podemos mencionar el acceso a los trabajos actuales, como: tesis, fotografías, proyectos pictográficos o proyectos en video generados dentro de los organismos educativos locales, quedó cerrado, ya que no se tiene medio de acceso digital en todos los casos.

Con los conceptos anteriores es posible proponer una herramienta computacional aun sin denominar, que esté fuera de la infraestructura local de una organización (incluidas empresas, escuelas de diferentes niveles y gobierno), por lo tanto, eventos naturales como sismos o lluvias que provoquen daños materiales, eventos sociales como huelgas o paros, que impidan el ingreso a las instalaciones, eventos humanos como cortes en el suministro eléctrico, eventos computacionales, como fallas en equipo de computo y eventos mundiales como pandemias, no serían un impedimento para la consulta de los acervos en los que se desee trabajar.

Así mismo, en caso de un desastre que provoque la perdida de dichos acervos, se tendría un respaldo digital completo para garantizar la continuidad de la información.

¿Cómo es esto posible?

En términos coloquiales: si se almacenan estos acervos en la nube, la misma nube por sus propiedades se encargará de respaldar, garantizando su disponibilidad y que no sean alterados. Desde la nube se podrán consultar los acervos en cualquier dispositivo en todo momento, sólo contando con conexión a internet.

En términos técnicos: empresas como Amazon®, Google®, Microsoft® y Oracle® por mencionar las más conocidas por su popularidad, ofrecen servicios basados en Cloud (traducido como Nube), entre estos servicios esta la posibilidad de trabajo con Data Lakes.

Todos los servicios están almacenados en sus centros de datos donde se tienen protocolos de respaldo de datos, así como diversos protocolos de seguridad que garantizan el acceso a los datos sólo por las personas autorizadas.

© José Luis Acevedo Heredia. 2020
© José Luis Acevedo Heredia. 2020

Entre sus posibilidades aplicables se mencionan:

  • La posibilidad de usar y adaptar sus herramientas para transferir y almacenar grandes volúmenes de datos de forma cruda desde distintas fuentes garantizando la seguridad.
  • Organización de los datos almacenados sin importar su tamaño garantizando que siempre tendrán espacios de almacenamiento disponible.
  • Soporte de diversos lenguajes para el diseño de herramientas que presentarán la información de una forma transparente para el usuario final

Por pasos…

Al contratar un espacio Cloud para Big Data, se puede acceder a un lugar donde se pueden almacenar datos ¿Qué tamaño en bytes tiene? El que se requiera. La empresa que brinde el servicio también brinda la posibilidad de asociar usuarios a este espacio de almacenamiento.

Por lo tanto, si se contrató el servicio con Google, el administrador puede agregar a otros usuarios con cuenta de Google para que puedan acceder a las herramientas de transferencia de datos. La seguridad la maneja y garantiza la empresa.

Las herramientas de transferencia son personalizables y pueden cargar archivos crudos a la vez que se puede crear un índice para especificar de qué tipo de datos se trata, qué tipo de acervo es y quiénes tendrán acceso a él. Estas herramientas, son diseñadas de forma transparente para que los usuarios finales no requieran de grandes conocimientos en temas computacionales. El espacio crecerá cada que se requiera, garantizando el espacio suficiente para los acervos a transferir.

Las empresas brindan herramientas para la creación y diseño de interfaces para buscar, acceder y descargar los archivos pertenecientes a los acervos almacenados, usando métodos comunes como palabras claves y buscadores que se deben crear usando sus herramientas.

Por lo tanto, todas estas tecnologías se podrían utilizar para la creación de esta herramienta donde se podrán mantener acervos de diferentes formatos, que pueden ser consultados en cualquier momento, desde cualquier dispositivo con acceso a internet (si sus características lo permiten) sin perder calidad y sin alterar formatos.

Conclusiones

La apertura al uso de data lakes para almacenar acervos de distintas fuentes permitirá el acceso a ellos en todo momento a los miembros de empresas, organizaciones o instituciones. Será un medio para disminuir la pérdida de acervos promoviendo la digitalización de los que aún no están digitalizados. Será un medio que disminuirá la perdida de acervos digitales almacenados en equipos de computo dentro de las instalaciones donde se implemente, ya que no serán susceptibles a daños por eventos naturales o humanos, entre otros posibles escenarios.

En México, se tendrá siempre el problema latente de las velocidades de conectividad fuera de las ciudades principales, lo cual genera tiempos alargados en la carga de datos como proyectos de video o audio. 

(Publicado el 4 de mayo de 2020)

Referencias

  • Chevalier M. et al. (2015). Implementing Multidimensional Data Warehouses into NoSQL. International Conference on Enterprise Information Systems. p172-183.
  • Dayley B. (2015). NoSQL with MongoDB. SAMS Publishing, January 2015.
  • Fang, H. (2015). Managing data lakes in big data era: What’s a data lake and why has it became popular in data management ecosystem. IEEE International Conference on Cyber Technology in Automation, Control and Intelligent Systems, IEEE-CYBER 2015. pp. 820–824.
  • O’Leary, D. E. (2014). Embedding AI and Crowdsourcing in the Big Data Lake. IEEE Intelligent Systems, vol. 29, no. 5, pp. 70-73, Sept.-Oct.2014. doi: 10.1109/MIS.2014.82
  • Mishra D., et al. (2008). A Case Study of Data Models in Data Warehousing. Applications of Digital Information and Web Technologies, ICADIWT.
  • Sivarajah, U. M. et al. (2017). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, Volume 70, January. pp. 263–286.

[1] Los autores agradecen al Tecnológico Nacional de México por el apoyo otorgado para la realización de este artículo.

[2] Francisco Javier Cartujano Escobar, Doctor en Administración con Especialidad en Sistemas de Información egresado del ITESM, Campus Ciudad de México; Maestro en Ciencias de la Computación e Ingeniero en Sistemas Computacionales, ambos títulos otorgados por el ITESM, Campus Cuernavaca. Obtuvo mención honorífica al terminar la carrera de Ingeniería. Se ha desempeñado en el sector privado como gerente de sistemas y como profesor investigador del Departamento de Computación del ITESM, Campus Ciudad de México. Ha pertenecido al SNI del CONACYT. Actualmente catedrático de la carrera de Ingeniería en Sistemas Computacionales y de la Maestría en Ingeniería en el Instituto Tecnológico de Zacatepec. Contacto: francisco.ce@itzacatepec.edu.mx

[3] Leticia Santa Olalla Ocampo, graduada como Licenciada en Informática en 1992 por el Instituto Tecnológico de Zacatepec (ITZ), graduada como Maestra en Ciencias en Ciencias de la Computación 2008 por el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET). Actualmente catedrática de la carrera de Ingeniería en Sistemas Computacionales y de la Maestría en Ingeniería en el Instituto Tecnológico de Zacatepec. Área de Interés Ingeniería de Software. Contacto: leticia.so@itzacatepec.edu.mx

[4] Sivarajah, U. M. et. al. (2017). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, Volume 70, January. pp. 263–286.

[5] Fang, H. (2015). Managing data lakes in big data era: What’s a data lake and why has it became popular in data management ecosystem. IEEE International Conference on Cyber Technology in Automation, Control and Intelligent Systems, IEEE-CYBER 2015. pp. 820–824.

[6] O’Leary, D. E. (2014). Embedding AI and Crowdsourcing in the Big Data Lake. IEEE Intelligent Systems, vol. 29, no. 5, pp. 70-73, Sept.-Oct.2014. doi: 10.1109/MIS.2014.82

Diseño de un traductor para sordomudos para el idioma español con Kinect y Myo

CUT_aragon

Por José Pedro Aragón Hernández.

La Lengua de Señas Mexicana o LSM, es el medio de comunicación de las comunidades sordas en las regiones urbanas y rurales de México. Es el idioma más utilizado, de 87,000 a 100,000 señantes (TC Smith-Stark, 1986), por lo que es más grande que muchas familias enteras de lenguas indígenas en el país. Es, según la Ley General para la Inclusión de las Personas con Discapacidad (Texto vigente publicado en el Diario Oficial de la Federación el 30 de mayo de 2011), “La lengua de una comunidad de sordos, que consiste en una serie de signos gestuales articulados con las manos y acompañados de expresiones faciales, mirada intencional y movimiento corporal, dotados de función lingüística, forma parte del patrimonio lingüístico de dicha comunidad y es tan rica y compleja en gramática y vocabulario como cualquier lengua oral”.

Esta brecha puede ser acortada mediante la detección de los gestos basándose en la Lengua de Señas Mexicana (LSM) convirtiendo las señas a cadenas de caracteres los cuales pueden ser representados como audio mediante APIS como Google Cloud Natural Language.

Detección de posiciones con Kinect.
Detección de posiciones con Kinect.

Para ello se plantea generar una simbiosis entre la detección de patrones en articulaciones usando la tecnología proporcionada por los dispositivos Kinect[1], originalmente usados para video juegos y la detección de patrones en articulaciones usando la tecnología para la detección de señas en las muñecas por medio de sensores electromagnéticos basándose en un producto de desarrollo llamado MyO[2].

La unión de los diversos elementos electromagnéticos que conforman el sistema nervioso en los brazos del ser humano generará el entorno de datos necesario para trabajar en la normalización y detección de datos, la cual puede ser aprovechada por las tecnologías de Google APIS para la interpretación en Lenguaje Natural, en nuestro caso español.

Dispositivos MyO en cada brazo.
Dispositivos MyO en cada brazo.

LSM puede ser separado en 2 áreas de trabajo:

  • La primera área es la detección de los brazos, cuello, hombros, cadera, manos y codos, así como su posición relativa con respecto al cuerpo, para ello existen tecnologías actuales, comerciales y de bajo costo, entre ellas Microsoft Kinect la cual tiene la capacidad de detectar automáticamente los esqueletos. Cada esqueleto tiene 20 articulaciones:

Skeletal tracking significa seguimiento de esqueleto y se basa en un algoritmo que logra identificar partes del cuerpo de las personas que están en el campo de visión del sensor. Por medio de este algoritmo podemos obtener puntos que hacen referencia a las partes del cuerpo de una persona y hacer un seguimiento de éstos identificando gestos y/o posturas.

En este caso antes de iniciar la detección de los gestos, se debe trabajar en la visualización del esqueleto (Skeletal Tracking) para corroborar la detección en las posturas del cuerpo. En principio el trazo del esqueleto se realiza mediante vectores los cuales se recalculan en tiempo real, aunado a estos vectores, se realizó el remarcado de las articulaciones como puntos de referencia, cabe mencionar que en este trabajo sólo se considera la detección de los gestos que realizan los brazos con respecto a la cabeza y el dorso, ya que, para lenguaje sordo mudo, las piernas no tienen relevancia alguna.

  • La segunda área de trabajo es quizás la más compleja ya que implica demasiadas variables; esta es la detección de las señas específicas de ambas manos en tiempo real usando los pulsos electromagnéticos generados por el sistema nervioso humano. Para ello se utiliza una tecnología de desarrollo llamada MyO.

Con esta tecnología se pretende hacer uso de los 9 sensores EMG integrados, así como giroscopios para detectar los gestos efectuados en ambas manos de forma paralela para 10 señas como mínimo.

Los brazaletes Myo podrían ser utilizados para acercar más los mundos lingüísticos del lenguaje hablado y la lengua de señas utilizado por personas con capacidades diferentes, específicamente personas sordomudas mediante la conversión de la lengua de señas en cadenas de caracteres.

Al pensar en la integración de esta tecnología el problema se eleva exponencialmente, ya que se requiere la detección de los gestos de ambas manos. Lo cual incrementa de 10 a 20 sensores electromagnéticos que detectar simultáneamente.

Para realizar esta labor primero se debe generar un entorno de trabajo para monitorear el estado de cada uno de los dispositivos MyO, conocer los datos en tiempo real de cada sensor, y siguiendo el pensamiento de: “una imagen dice más que mil palabras”; los cientos de datos que genera por segundo nuestro sistema nervioso deben ser representados en graficas donde se compara valor sobre tiempo

¿Qué hacer con estos miles de datos?, ¿qué implementar para analizarlos?

La percepción normal dicta que miles de datos deben ser almacenados para su posterior análisis, la perspectiva moderna informática dicta usar paradigmas como NoSql, BigData, etcétera.

La percepción matemática dice que estos valores deben ser anotados en listas y analizar sus series, así como la función que realizan para comprender el resultado a alcanzar.

Recolección de datos, 2 pulseras 16 sensores.
Recolección de datos, 2 pulseras 16 sensores.

Conclusiones

Al momento de fusionar estas 2 áreas de trabajo en un producto para generar una caja negra que se unirá al arsenal de dispositivos trabajando en el internet de las cosas, será necesario eliminar todos los cálculos y presentación innecesarios para construir una plataforma más fluida y sólida, ya que aún falta la tercera área de trabajo, el habla natural en lenguaje español.

Las posibilidades aún son infinitas, y el trabajo que falta es igualmente infinito, mas no imposible.

El equipo de trabajo que desarrolla este proyecto está liderado por José Pedro Aragón Hernández, acompañado de José Luis Pérez Estudillo (Docente del Departamento de Sistemas y Computación), Francisco Javier Cartujano Escobar y Diana Karina Taboada Torres (ambos docentes del Departamento de Ciencias Económico Administrativas), todos ellos adscritos al Instituto Tecnológico de Zacatepec. 

(Publicado el 6 de febrero de 2018)

Fuentes de consulta

  • Microsoft Authors in Kinect for Windows | Human Interface Guidelines v1.8, 2013 Ed. Microsoft Corporation; First Edition, 1-142.
  • Abhijit Jana in Kinect for Windows SDK Programming Guide; 2012 Packt Publishing, first publishing, 19-355.
  • Myo Gesture Control Armband | Wearable Technology by Thalmic Labs https://www.myo.com/
  • MyoSharp, C# Wrapper for the Myo Armband https://github.com/tayfuzun/MyoSharp

[1] Kinect es un controlador de juego libre y entretenimiento creado por Alex Kipman, desarrollado por Microsoft para la videoconsola Xbox 360. Kinect permite a los usuarios controlar e interactuar con la consola sin necesidad de tener contacto físico con un controlador de videojuegos tradicional, mediante una interfaz natural de usuario que reconoce gestos, comandos de voz y objetos e imágenes.

[2] El brazalete Myo es un dispositivo de reconocimiento de gestos usado en el antebrazo y fabricado por Thalmic Labs. El Myo permite al usuario controlar la tecnología de forma inalámbrica utilizando varios movimientos de la mano. Utiliza un conjunto de sensores electromiográficos (EMG) que detectan la actividad eléctrica en los músculos del antebrazo, combinados con un giroscopio, un acelerómetro y un magnetómetro para reconocer los gestos.

ir al inicio