ETL o ELT: cómo elegir el mejor enfoque para su almacén de datos

La explosión de datos ha puesto a prueba la arquitectura del almacén de datos. Las organizaciones administran grandes volúmenes y diferentes tipos de datos, incluidos sensores, redes sociales, comportamiento del cliente y Big Data.

Si su organización tiene un almacén de datos, probablemente use cualquiera la extraer, transformar, cargar (ETL) o el extraer, cargar, transformar (ELT) método de integración de datos. ETL y ELT son dos de los métodos más populares para recopilar datos de múltiples fuentes y almacenarlos en un almacén de datos accesible para todos los usuarios de una organización.

ETL es el método tradicional de almacenamiento y análisis de datos, pero con los avances tecnológicos, ELT ahora ha entrado en escena. Pero, ¿qué sucede cuando «T» y «L» cambian de lugar? Hablemos.

Esto es lo que cubriremos:


  • ¿Cuál es la diferencia entre ETL y ELT?
  • Se trata de la «T» en ETL y ELT
  • Hadoop y las herramientas avanzadas de integración de datos permiten ELT
  • La línea de fondo

¿Cuál es la diferencia entre ETL y ELT?

En ETL, los datos se extraen de fuentes dispares, como sistemas ERP y CRM, se transforman (se aplican cálculos, los datos sin procesar se cambian al formato/tipo requerido, etc.) y luego se cargan en el almacén de datos, también llamado base de datos de destino. .

En ELT, después de la extracción, los datos primero se cargan en la base de datos de destino y luego se transforman; la transformación de datos se produce en la base de datos de destino.

Dicho esto, la diferencia entre estos dos procesos no se limita solo al orden en que se integran los datos. Para comprender sus diferencias, también debe considerar:

  • Las tecnologías de almacenamiento subyacentes
  • El enfoque de diseño de la arquitectura del almacén de datos
  • Casos de uso empresarial de almacén de datos

La siguiente imagen explica los diferentes escenarios comerciales adecuados para los métodos de integración de datos ETL y ELT.

Obtenga más información sobre qué es ELT vs. ETL implica para la integración del almacén de datos con esta analogía de pizza:

Se trata de la «T» en ETL y ELT

La transformación de datos es el paso más complejo en el proceso de ETL y ELT. En este paso, ETL y ELT difieren en dos aspectos principales:

  • Cuando se realiza la transformación de datos
  • Dónde se realiza la transformación de datos

Las herramientas ETL ayudan a integrar datos para satisfacer las demandas de los almacenes de datos tradicionales impulsados ​​por el procesamiento analítico en línea (OLAP) cubos de datos y/o sistema de gestión de bases de datos relacionales (RDBMS) tecnologías. Herramientas OLAP y lenguaje de consulta estructurado (sql) dependen de la estandarización de dimensiones entre conjuntos de datos para proporcionar resultados agregados. Esto significa que los datos deben pasar por una serie de transformaciones, tales como:

  • Conversión de valores numéricos
  • Edición de cadenas de texto
  • Coincidencia de filas y columnas
  • Encontrar y reemplazar elementos de datos
  • Cambiar los nombres de las columnas
  • Recombinación de columnas de diferentes tablas y bases de datos
  • Precálculo de agregados intermedios

Para los almacenes de datos tradicionales, estas transformaciones se realizan antes de que los datos se carguen en el sistema de destino, normalmente un almacén de datos relacional. Este es el proceso seguido en ETL. Sin embargo, con la evolución de las tecnologías subyacentes de procesamiento y almacenamiento de datos, como apache hadoopse hizo posible lograr estas transformaciones dentro del sistema de destino después de cargar los datos, que es el proceso seguido en ELT.

gráfico que muestra el proceso ETL desde los datos sin procesar hasta el análisis

Tanto ETL como ELT involucran áreas de preparación. En ETL, el área de preparación está en la herramienta ETL, ya sea propietaria o personalizada. Se encuentra entre el sistema de origen y el sistema de destino, y aquí se realizan las transformaciones de datos. Por el contrario, con ELT, el área de preparación está en el almacén de datos y el motor de la base de datos que impulsa el sistema de administración de la base de datos realiza las transformaciones.

Una de las consecuencias inmediatas de este aspecto es que en ELT se pierde la interfaz visual ordenada y las funciones de preparación/limpieza de datos proporcionadas por las herramientas ETL. Además, las transformaciones en Hadoop están escritas por programadores de Java, por lo que es posible que las necesite en su equipo de TI para fines de mantenimiento. Esto significa que si su departamento de TI carece de programadores de Java para realizar transformaciones personalizadas, es posible que ELT no sea adecuado para usted.

A pesar de estos desafíos, ¿debería cambiarse a los ELT? ¿Hay algún beneficio al hacerlo? Para responder a estas preguntas, analizaremos más de cerca las características de los sistemas de destino utilizados en el proceso ELT.

Hadoop y las herramientas avanzadas de integración de datos permiten ELT

Herramientas como Apache Hadoop han renovado el interés empresarial en los ELT. Anteriormente, los grandes conjuntos de datos se dividían en otros más pequeños, se procesaban y transformaban de forma remota y luego se enviaban a almacenes de datos. Con la integración de Hadoop, los grandes conjuntos de datos que fluían a través de la nube y se procesaban ahora se pueden transformar en un solo lugar, es decir, en Hadoop.

El ELT es una buena opción si se está cambiando a un marco de almacenamiento de datos para respaldar iniciativas de big data utilizando Hadoop o un DBMS analítico NoSQL.

El proceso ETL alimenta los almacenes tradicionales directamente, mientras que en ELT las transformaciones de datos ocurren en Hadoop, que luego alimenta los almacenes de datos. Por lo tanto, los datos de mala calidad o que requieren una integración sustancial no deben cargarse en Hadoop a menos que tenga un equipo de programadores altamente calificados para escribir códigos personalizados para transformaciones de datos complejas.

el proceso ELT desde los datos de origen hasta los informes

Los conjuntos de datos cargados en Hadoop durante el proceso ELT pueden ser relativamente simples pero grandes, como archivos de registro y datos de sensores. En otros casos, puede cargar datos muy desestructurados, como tweets para análisis de opiniones, que no requieren transformaciones iniciales significativas.

Puede pensar en Hadoop como «una caja de arena para un entorno de big data» en el que sus analistas pueden jugar en lugar de tratarlo como un reemplazo directo de un almacén de datos.

La línea de fondo

Aquí hay algunos pensamientos finales rápidos sobre ETL y ELT:

  • El ETL está obsoleto. Funciona con infraestructuras de centros de datos tradicionales, que las tecnologías en la nube ya están reemplazando. Los tiempos de carga tardan horas, incluso para empresas con conjuntos de datos tan pequeños como unos pocos terabytes.
  • ELT es el futuro del almacenamiento de datos y hace un uso eficiente de las tecnologías de nube actuales. Permite a las empresas analizar grandes conjuntos de datos con menos mantenimiento y ofrece información clave para ayudar a tomar las decisiones comerciales correctas. Con el tiempo, el alcance de ELT se expandirá potencialmente a medida que las herramientas nativas de integración de datos para las soluciones Hadoop y NoSQL continúen evolucionando.

Software Advice ofrece un catálogo de plataformas de Business Intelligence (BI) de extremo a extremo que pueden ayudarlo a integrar los datos de su empresa. ¡Revíselo ahora!

Si necesita ayuda para elegir una herramienta de BI específica, nuestros asesores están a su disposición. Brindan recomendaciones de software gratuitas, rápidas y personalizadas, lo que ayuda a empresas de todos los tamaños a encontrar software que satisfaga sus necesidades comerciales específicas. Haz una cita con un asesor aquí.

Deja un comentario

Tu dirección de correo electrónico no será publicada.