Qué son los data lakes? ventajas y desventajas

data lakes

Con la evolución de la tecnología, la cantidad de datos generados en todo el mundo (principalmente a través de teléfonos inteligentes, redes sociales e IoT) crecerá rápidamente hasta alcanzar los 181 zettabytes de datos para el año 2025, según el estudio internacional Data Never Sleeps 10.0. En este contexto, el concepto de data lakes está ganando popularidad entre las empresas que desean aprovechar al máximo sus datos debido a sus numerosos beneficios.

El término «data lake» fue acuñado por primera vez por James Dixon, CTO de Pentaho, una plataforma de integración y análisis de datos, en su blog «Union of the State – A Data Lake Use Case». Los data lakes son repositorios de almacenamiento de datos que proporcionan análisis de big data nativamente desde múltiples fuentes. Ayudan en la toma de decisiones al ejecutar diversos tipos de análisis, como paneles de control, visualizaciones, procesamiento de big data, análisis en tiempo real y aprendizaje automático. No hay límite de tamaño y se pueden almacenar diversos tipos de datos.


Banner_frasco-suscripcion-800x250

A diferencia de los almacenes de datos donde se almacenan grandes cantidades de datos en forma estructurada, los data lakes recopilan datos sin procesar y sin procesar en varios formatos para los analistas de datos. Se pueden almacenar datos estructurados, datos semiestructurados y datos no estructurados, y al almacenar datos, la búsqueda se puede acelerar mediante la vinculación de identificadores y etiquetas de metadatos. Los usuarios de los data lakes son científicos de datos y desarrolladores, mientras que los de un almacén de datos son especialistas y analistas de negocios.

El almacén de datos es un modelo de datos ventajoso para informes porque utiliza datos estructurados para un propósito, pero es inapropiado en cuanto a costo y tiempo para recopilar y utilizar grandes cantidades de datos no estructurados necesarios para la tecnología de big data. Actualmente, la mayoría de los data lakes se implementan en la nube.

Con un data lake, todos los datos se conservan, no se eliminan ni se filtran antes del almacenamiento, y se almacenan en un estado indefinido hasta que se consulten. Los datos en un data lake se transforman cuando se necesitan para el análisis, en cuyo caso se aplica un esquema para que los datos sean analizables. Mientras que el propósito de los datos en un data lake se acumula sin un propósito predefinido, los datos en un almacén de datos se definen de antemano.

Este tipo de almacén de datos, aplicado al ámbito de la salud, se conoce como Health Data Lake. El Plan para la Recuperación, Transformación y Resiliencia Económica (PRTR) prevé fondos para desarrollar un enorme lago de datos de salud, llamado Espacio Nacional de Datos de Salud, que «permitirá mejorar los diagnósticos y tratamientos basados en el análisis masivo de información recopilada de los sistemas de salud autónomos», según el Ministerio de Salud.

Ventajas de los data lakes:

  • Proporcionan una recopilación más fácil y un almacenamiento indefinido de todo tipo de datos.
  • Permiten a las empresas transformar datos sin procesar en datos estructurados adecuados para análisis basados en SQL, ciencia de datos y aprendizaje automático, todo ello con una latencia menor.
  • Se pueden mantener actualizados con más facilidad porque admiten múltiples formatos de archivos y proporcionan un lugar seguro para los nuevos datos.
  • Ofrecen flexibilidad para aplicaciones de big data y aprendizaje automático.
  • Se pueden aplicar diferentes herramientas para obtener una comprensión de lo que significan los datos.
  • El costo es más económico que el de los almacenes de datos.

Vea también: El 42% de los líderes empresariales está ampliando la adopción de TI como servicio

Desventajas de los data lakes:

  • Almacenar todo tipo de datos puede ser complejo de gestionar.
  • Si no se gestionan adecuadamente, pueden volverse desorganizados y difíciles de conectar con herramientas de análisis e inteligencia empresarial.
  • Tienden a ser más vulnerables al desarrollo de silos de datos (datos a los que no todos los departamentos o equipos de la empresa pueden acceder), que luego pueden convertirse en pantanos de datos (sin metadatos, desorganizados).
  • Contener datos sensibles puede plantear preocupaciones de seguridad.
    La inversión inicial y el mantenimiento pueden ser costosos, especialmente al tratar con grandes volúmenes de datos.

Data Lake House, la nueva tendencia:

Dadas las diferencias entre los data lakes y los almacenes de datos, la mayoría de las empresas eligen operar ambos sistemas al mismo tiempo de manera complementaria. Sin embargo, también está surgiendo una nueva tendencia que combina las ventajas de ambos tipos de repositorios, el Data Lake House. A grandes rasgos, implementan las capacidades de estructuración y gestión de datos de un almacén de datos, pero lo hacen con la flexibilidad y el bajo costo de un data lake.

Un informe de Adroit Market Research pronostica que, a una tasa de crecimiento anual compuesta (CAGR) del 24.0%, el mercado global de data lakes alcanzará los 25.49 mil millones de dólares para 2029. La creciente demanda de gobernanza y seguridad de datos, la creciente tendencia de implementaciones basadas en la nube y la creciente necesidad de soluciones de análisis y big data son factores que contribuyen al crecimiento del mercado de data lakes.

Banner_azules
Reciba las últimas noticias de la industria en su casilla:

Suscribirse ✉