Blog

Data Lake: Capturando valor en el mar de información

Data Lake: Capturando valor en el mar de información

El verano pasado, fui con mi familia de fin de semana al Pueblo Mágico de Pátzcuaro, Michoacán. Durante el viaje, recuerdo que me acerque a la orilla del lago a ver como los lugareños, con sus redes “mariposa”, realizaban la pesca del tradicional charal y otros peces como el blanco, la carpa, la lobina negra y la mojarra.
 
No obstante, me llamó la atención ver a un turista contándoles a varios niños sobre la importancia de los lagos en el ecosistema y desarrollo de un país, ya que más allá de ser cuerpos extensos de agua dulce, son espacios donde convergen una gran variedad y diversidad de fauna y vegetación, además de generar energía eléctrica, ser fuente de riego para la agricultura y centro de actividades turísticas.
 
Pero, ¿por qué hago referencia a los lagos? Actualmente, las compañías se encuentran sumergidas en lagos extensos de información, donde términos como Big Data, Manejo de Datos Maestros (MDM), Analítica, Business Intelligence, Gobierno de Datos, entre otros, son el pan de cada día ante la necesidad de “pescar” valor en el océano de datos generado diariamente, 2 mil 500 millones de gigabytes para ser exactos.
 
El reto corporativo dentro de la explosión de información, es obtener valor de la gran variedad de datos que crecen a gran velocidad y se generan de distintas fuentes (computadoras, servidores, la nube, sensores, redes sociales, dispositivos móviles, wearables, entre otros).
 
Información es poder y ante la apuesta empresarial de implementar un enfoque data-driven (impulsado por datos) para tomar decisiones basadas en el análisis e interpretación de información, establecer un “Data Lake” es clave para lograrlo.
 
El lago de datos, como también se le conoce, se define como un repositorio con arquitectura plana que almacena gran cantidad de información estructurada, semiestructurada y no estructurada, de manera ágil y segura sin ningún tipo de pre-procesamiento o esquema (modo lectura).
 
El Data Lake es consistente con un nuevo requerimiento corporativo: contar con un lugar donde se pueda explorar y experimentar con los datos, así como encontrarles nuevas aplicaciones. Realizar una solicitud de información nueva al lago de datos, significa que alguien tiene una idea de cómo obtener valor de ella.
 
Para la consultora Gartner, el objetivo del lago de datos es presentar una visión no clarificada de la información a los especialistas para ayudarlos a explorar sus técnicas de limpieza y análisis, más allá del almacenamiento. Además, el Data Lake conserva todos los atributos de los datos, especialmente cuando no se conoce su alcance o su uso.
 
Por lo regular, el concepto de Data Lake se asocia con el procesamiento de información orientado a tecnologías como Hadoop (software de código abierto que habilita el procesamiento distribuido de grandes cantidades de datos)  o algunas otras soluciones como Vertica, Teradata, Netezza, Hana y Exadata, las cuales tienen la habilidad de procesar y transformar rápidamente la información, así como proporcionar el almacenamiento.
 
Posterior al proceso de datos, es necesario aplicar soluciones de análisis y minería de datos, así como los principios de Data Lake Management para integrar, organizar, gestionar, gobernar y asegurar grandes volúmenes de datos. En este punto, la Inteligencia Artificial (AI) y el aprendizaje automatizado tienen un rol clave en la detección, recopilación, relacionamiento, protección y administración de la información. 
 
Actualmente, los lagos de datos son parte integral de las operaciones de negocio e impulsores de la trasformación digital (DX), así como habilitadores de nuevas prácticas que soporten a las organizaciones. Recopilar datos es barato, pero no contar con información cuando se le necesita es muy costoso.
 
Obtener valor de la información vía Data Lake, permitirá, entre otras cosas:
 
  1. Trazar políticas públicas en materia de gobierno digital como el expediente clínico electrónico.
  2. Delinear planes efectivos de marketing, e-commerce y lanzamiento de nuevos productos.
  3. Predecir el patrón de contagio y evolución de una enfermedad para atender a los pacientes.
  4. Supervisar los datos de transacciones financieras para enriquecer las técnicas de detección de fraudes, cumplir con el marco regulatorio e impulsar, mediante la seguridad, la confianza entre los consumidores.
 
El abogado y político americano Charles W. Waterman señaló que: “la mayor parte del mundo está cubierto por agua. El trabajo de un pescador es simple: elegir la mejor parte”. De esta misma forma, las compañías tienen la tarea de capturar el mayor valor dentro del mar de datos en el que navegan, por lo que el Data Lake se integra de manera contundente a su estrategia de negocio.

Comparte el post: