¿Qué es la fusión de datos y qué herramientas la facilitan?

En el pasado, los analistas de negocios podían medirse por su capacidad para persuadir a múltiples fuentes de datos para que funcionaran bien.

Ahora, la complejidad y el volumen de datos que mezcla a menudo se reflejan más en la calidad de su software que sus dotes de SQL o el estado de jinete de Excel.

Por supuesto, el conocimiento de SQL y las habilidades avanzadas con Excel seguirán siendo cruciales en la mayoría de las ramas del análisis empresarial en el futuro previsible. Dicho esto, combinar docenas de tablas de hechos en consultas complejas puede ser un trabajo tedioso, incluso para analistas experimentados.

¿Y quién quiere pasar horas preparando datos en Excel cuando una herramienta dedicada podría hacer el mismo trabajo en minutos o incluso segundos?

Unir fuentes de datos en Vero Analytics

Hablamos en detalle con proveedores líderes de herramientas de autoservicio para la preparación de datos y demostramos las capacidades de combinación de datos de sus soluciones. Este informe lo ayudará a comprender cómo estas herramientas alivian los dolores de cabeza causados ​​​​por cláusulas de combinación interminables, archivos de Excel grandes, fuentes de datos difíciles de manejar como archivos PDF y más.

Esto es lo que cubriremos:

(Haga clic en un enlace a continuación para saltar a esa sección).

Mezcla de datos vs integración de datos
Los dos tipos de herramientas de preparación de datos de autoservicio
¿Cuáles son los beneficios de las mejores herramientas de preparación de datos?
Beneficio n.º 1: fusionar base de datos para mejorar el procesamiento de consultas
Ventaja #2: Coincidencia aproximada para mezclar datos sucios
Ventaja #3: Extracción de formatos difíciles
Próximas etapas

Mezcla de datos vs integración de datos

Mucha gente usa el término «mezcla de datos» como sinónimo de cláusulas de combinación en consultas SQL. Las cláusulas de combinación combinan datos de dos o más tablas vinculándolas mediante una dimensión común (por ejemplo, un campo «ID de producto» o «ID de cliente» que sirve como clave que vincula las dos tablas).

Suena bastante simple, pero la complejidad de las uniones aumenta exponencialmente con la cantidad de tablas de hechos que necesita consultar. Y encontrar dimensiones comunes en múltiples fuentes de datos puede ser difícil, por decir lo menos.

Los procesos tradicionales de integración de datos, también conocidos como procesos de extracción, transformación y carga (ETL), han resuelto algunos de estos dolores de cabeza.

En ETL, los datos son miextraído de múltiples bases de datos transaccionales, transformado en un formato estandarizado para el análisis y yocargado en un almacén de datos donde los analistas de negocios pueden cortarlo y trocearlo con herramientas OLAP.

El problema con este enfoque es que el departamento de TI, en lugar de los analistas comerciales, está a cargo del proceso de ETL. Esta configuración garantiza que ETL esté estandarizado, programado regularmente y administrado de forma centralizada, pero ¿qué sucede si un analista necesita combinar fuentes de datos en el momento? TI no puede inventar, estandarizar y ejecutar un nuevo proceso ETL cada vez que un analista necesita combinar fuentes de datos.

Matthew Madden, director de marketing de productos de Alteryx (un proveedor líder de soluciones de análisis y preparación de datos de autoservicio), explica que mezcla de datos Las herramientas difieren de las herramientas tradicionales. integración de datos herramientas en su enfoque a las necesidades específicas de los analistas:

“Para nosotros, la fusión de datos se trata de trabajar con múltiples fuentes de datos, prepararlas y combinarlas para un caso de uso específico en un momento específico. Es diferente de la integración de datos porque la fusión de datos se trata de resolver un caso de uso específico, mientras que la integración de datos generalmente le brinda una única fuente de verdad y la almacena en un almacén de datos al que las personas pueden acceder.

Matthew Madden, director de marketing de productos en Alteryx

Combinación de datos de arrastrar y soltar en Alteryx Designer

Además, Madden señala que las herramientas de autoservicio están «diseñadas para el analista de negocios» en lugar de un usuario de TI.

Sin embargo, es importante comprender que las herramientas de autoservicio están destinadas a carga extra más bien que reemplazar ETL tradicional.

Dan Potter, director de marketing de reloj de datos (otro actor líder en el campo de la preparación de datos de autoservicio), observa que «la preparación de datos de autoservicio aumenta lo que ETL puede hacer y, en muchos casos, debido a nuestro enfoque en las fuentes de datos como el contenido multiestructurado, potenciamos los datos En el futuro, vemos que la preparación de datos de autoservicio juega un papel mucho más importante en áreas donde el ‘ETL simplemente no puede proporcionar la agilidad y la flexibilidad.

Antes de analizar las funciones que ofrecen las herramientas de autoservicio que ayudan en estas áreas, debemos analizar brevemente los tipos de herramientas de autoservicio que existen en el mercado.

Los dos tipos de herramientas de preparación de datos de autoservicio

Las capacidades de preparación y combinación de datos se encuentran en dos tipos de herramientas de autoservicio:

  • Plataformas de análisis visual como Tableau, Qlik Sense, Spotfire, etc.
  • Las mejores plataformas de preparación de datos como Datawatch Monarch, Alteryx, Vero Analytics, etc.

Herramientas de análisis visual son esencialmente interfaces gráficas de usuario para realizar operaciones analíticas en datos con poca o ninguna asistencia de TI. Dado que el análisis de datos siempre comienza con la preparación, las herramientas de análisis visual también ofrecen una gama de funciones de preparación de datos, incluida la funcionalidad de fusión de datos.

Imagen, la plataforma de análisis visual líder, tiene potentes funciones de fusión, como uniones entre bases de datos. Vijay Doshi, director de administración de productos de Tableau, explica que «cuando los datos relacionados se almacenan en tablas en diferentes bases de datos, puede usar una unión entre bases de datos para combinar las tablas».


captura de pantalla

Obtener el precio

Comparar productos

Múltiples conexiones a bases de datos de SQL Server en Tableau

Dado que las bases de datos almacenan datos en diferentes formatos, puede ser difícil encontrar dimensiones para unir, pero Tableau también puede ayudarlo con funciones de descubrimiento de datos automatizados.

Doshi señala que “a diferencia de otras tecnologías, la capacidad de detectar el campo común para enlazar se realiza automáticamente sin necesidad de ayuda de TI. Cuando no se detecta automáticamente, un usuario puede cambiar fácilmente las relaciones en Tableau, según el conocimiento de los datos que tiene.

En una herramienta de análisis visual, estas funciones de preparación y fusión de datos generalmente están impulsadas por un En memoria motor que aprovecha la potencia de procesamiento del ordenador en el que está instalada la herramienta o de un servidor de aplicaciones para preparar los datos.

Estos motores son bastante potentes, pero fallan en algunos casos de uso. Además, si bien las capacidades de preparación de datos de Tableau son avanzadas, Tableau se enfoca en última instancia en la exploración visual de conjuntos de datos, en lugar de la preparación de datos.

Herramientas de preparación de datos de autoservicio como Datawatch Monarch y Alteryx Designer, por otro lado, son plataformas dedicadas a extraer, preparar y mezclar datos. Estas herramientas se pueden usar para alimentar conjuntos de datos preparados en una herramienta de análisis visual como Tableau, aplicar análisis avanzados a los datos o incluso generar informes estáticos programados como los creados por los sistemas de registro tradicionales gobernados por el gobierno.


captura de pantalla

Obtener el precio

Comparar productos

Informe estático generado con Alteryx Designer

Madden señala: “Tenemos más de 500 clientes conjuntos de Tableau, por lo que sabemos que existe una necesidad de preparación de datos en el mercado de la visualización. Y a la inversa, también existe la necesidad de visualización de datos en el mercado de preparación.

¿Cuáles son los beneficios de las mejores herramientas de preparación de datos?

Muchas organizaciones necesitarán tanto una plataforma de análisis visual como una solución de preparación de datos de última generación. Otros pueden arreglárselas con cualquiera.

Su elección de herramientas debe guiarse por los beneficios específicos de las mejores herramientas de preparación de datos, a las que nos referiremos ahora.

Beneficio n.º 1: fusionar base de datos para mejorar el procesamiento de consultas

Algunas herramientas de preparación de datos de última generación le permiten fusionar datos en su propia base de datos, en lugar de aprovechar la potencia de su computadora portátil o un servidor de aplicaciones para realizar la fusión. Esta función se basa en un motor interno de la herramienta capaz de generar consultas SQL de varias pasadas, es decir, múltiples consultas cuyos resultados se agregan en un conjunto unificado.

Como explica Ajo Abraham, director ejecutivo y fundador de la startup de preparación de datos Vero Analytics: «Debe tomar una solicitud de consulta del usuario, digerirla en partes más pequeñas, agregar los datos al nivel requerido y luego combinarlos para que la el usuario obtiene un resultado preciso».

La razón por la que esta capacidad es importante, continúa Abraham, es que aumenta drásticamente la cantidad de datos que puede procesar. “Digamos que tiene un archivo .CSV de 10 000 líneas que contiene ID de clientes y desea hacer una referencia cruzada de estos ID de clientes con su base de datos de clientes, que contiene aproximadamente 100 000 000 de registros. No hay forma de hacer esto en el motor de una herramienta de BI instalada en su escritorio; debe pedirle a los muchachos de ETL que lo hagan por usted.

Sin embargo, con una herramienta de autoservicio, puede hacer esta mezcla. Abraham señala que herramientas como Vero usan su base de datos «para hacer el trabajo, porque está diseñada para unir conjuntos masivos».

Como puede ver en el ejemplo dado por Abraham, incluso los archivos de Excel pueden tener problemas de fusión difíciles. Madden observa que “la fuente de los datos no importa, podría ser un archivo de Excel. En muchos casos, las personas que trabajan con varias pestañas de datos en Excel usan Alteryx en lugar de BUSCARV.

Entonces, ya sea que esté fusionando en un archivo de Excel o fusionando un archivo de Excel en su base de datos, las mejores herramientas de preparación de datos pueden acelerar y simplificar el trabajo.

Ventaja #2: Coincidencia aproximada para mezclar datos sucios

“Fuzzy Matching” es una capacidad de análisis avanzada que detecta automáticamente coincidencias aproximadas entre valores en lugar de coincidencias perfectas. Esta es una característica relativamente rara que se encuentra principalmente en las mejores herramientas de preparación de datos.

Carlos Oro, director de gestión de productos para la preparación de datos de Datawatch, explica que «en muchos casos hay problemas de calidad de los datos al mezclar dos fuentes de datos, por lo que hemos incluido la coincidencia aproximada en la solución para ampliar el conjunto de resultados».

El problema con las coincidencias aproximadas es que las coincidencias aproximadas no siempre son coincidencias verdaderas, pero Datawatch lo ayuda a clasificar las coincidencias buenas de las malas evaluando la probabilidad de que la coincidencia aproximada sea una coincidencia verdadera.

Puntuación de coincidencia aproximada en Datawatch Monarch

Oro continúa: “Una vez que he hecho la unión, una puntuación muestra cuánta información he barajado que coincide perfectamente y cuál no coincide exactamente. A continuación, puede decidir qué coincidencias desea aceptar.

Ventaja #3: Extracción de formatos difíciles

Uno de los principales casos de uso de la combinación de autoservicio y, de hecho, las mejores herramientas de preparación de datos en general, es analizar los datos contenidos en formatos inestables, como informes en PDF y páginas web.

Con una solución como Datawatch Monarch, puede raspar una página web y convertir los datos en una tabla fácil de analizar en segundos.

Función de web scraping en Monarch

Las herramientas de preparación de datos de autoservicio también pueden funcionar con formatos aún más complicados, como informes en PDF. Potter de Datawatch explica un caso de uso intrigante para esta función:

“Time Warner Cable depende de un tercero para realizar su facturación, por lo que cada vez que realiza una transacción de pago por evento u otra transacción, el tercero lo captura. Cada dos semanas, esta empresa de facturación proporciona un informe de todas las transacciones a Time Warner en forma de un archivo .PDF de 170.000 páginas. Solían tener un equipo de cuentas para cortar, copiar y pegar manualmente este informe antes de encontrar Monarch.

Hoy trasladaron todo a un servidor, por lo que cuando el informe está disponible, el servidor Monarch escucha los nuevos datos, ejecuta automáticamente la rutina de extracción/preparación de datos y los bombea a su almacén de datos. No conozco un solo proveedor de ETL que pueda realizar un análisis automático de un informe complejo como este. »

Incluso en organizaciones pequeñas, los archivos .PDF y las páginas web son fuentes de datos increíblemente comunes, y las mejores herramientas los hacen mucho más fáciles de usar.

Próximas etapas

Ahora que ha comenzado a comprender los casos de uso de las mejores soluciones de preparación de datos, así como las funciones de fusión de datos en las plataformas de análisis visual, aquí hay algunos pasos que puede seguir para elegir la herramienta adecuada a sus necesidades:

  • Si desea obtener más información sobre la preparación de datos de autoservicio, puede leer nuestra guía de preparación de datos.
  • Si desea obtener más información sobre las alternativas a las estrategias de integración de datos tradicionales más allá de las herramientas de preparación de datos de autoservicio, consulte nuestro informe Alternativas de almacenamiento de datos.
  • Si está empezando a pensar que una herramienta de análisis visual como Tableau satisfará sus necesidades, lo cubrimos con una descripción general de la línea de productos de Tableau.
  • Si desea explorar más opciones y leer reseñas, consulte nuestra lista de soluciones de BI de autoservicio.
  • Si aún no puede encontrar proveedores que satisfagan sus necesidades, llame al (855) 998-8505 para una consulta gratuita con uno de nuestros asesores de software. Podemos evaluar su industria, necesidades de características y presupuesto para recomendar una breve lista de proveedores que funcionarán para usted.

Deja un comentario

Tu dirección de correo electrónico no será publicada.