Minería de datos web: no solo minería de datos web

Algunas palabras y expresiones tienen un significado obvio, pero muchas otras no. Una «alfombra» no es una mascota que vive en un coche. Y los carros, por cierto, siguen rodando camina y aparcar en pasillos. Los lenguajes son desordenados (algunos más que otros), pero quizás el más desordenado de todos sea el lenguaje de la informática.

La vaguedad de las definiciones informáticas en particular crea una gran confusión entre los compradores de software. En Software Advice, recordamos este hecho muchas veces al día mientras ayudamos a los compradores a analizar las definiciones de proveedores en opciones de selección de software precisas y concretas.

El software de inteligencia empresarial (BI) es relativamente nuevo en el espacio de las pequeñas y medianas empresas (PYMES) y, tal vez debido a su novedad, se basa en una buena cantidad de terminología a veces ambigua.

En este informe, aclaramos la confusión en torno a dos términos comunes en BI: minería de datos web y procesamiento de datos. Muchos lectores miran estos términos y asumen que están relacionados, pero están tan relacionados como un automóvil y una mascota con una alfombra.

(Haga clic en un enlace a continuación para saltar a esa sección).

¿Qué es el software de minería web?
Característica común del software de minería web
Entonces, ¿qué es el software de minería de datos?
conclusión

¿Qué es el software de minería web?

Hay muchos datos en línea, pero la mayoría están ocultos. (Si aún no lo ha hecho, puede hacer clic con el botón derecho en una página web y seleccionar «Ver código fuente de la página» para ver parte de la información detrás de escena).

Si bien la mayoría de los datos que encontrará allí no tienen valor competitivo, algunos sí lo tienen. El desafío es encontrar y recopilar los datos valiosos. El software de minería web es una de las muchas herramientas de BI utilizadas para superar este desafío. Las herramientas de minería web tienen una variedad de nombres: arañas, raspadores, rastreadores y herramientas de extracción de datos son algunos de los más comunes. Pero lo más importante,

El software de minería web se utiliza para la colección de datos. No determina qué datos deben recopilarse, dónde recopilarlos o qué significan.

Estas capacidades analíticas más profundas se encuentran típicamente en plataformas de software de BI.

Característica común del software de minería web

El software de minería web automatiza el proceso de recopilación de información en línea. Estas herramientas varían entre proveedores y, a menudo, tienen diferentes nombres, pero comparten una funcionalidad subyacente básica. Las características comunes del software de minería web a menudo incluyen:

Agentes de raspado. También conocidos como «rastreadores», estos conjuntos de instrucciones determinan qué sitios web rastrear, qué información extraer, qué hacer con la información y con qué frecuencia se debe recopilar. Las aplicaciones de minería web normalmente permiten a los usuarios crear y registrar muchos rastreadores diferentes, cada uno adaptado a un tipo específico de colección.

Planificación. Para obtener los datos más recientes, los web scrapers deben visitar los sitios con frecuencia. Los scrapers pueden monitorear y descargar información cada vez que detectan actualizaciones o contenido nuevo. Alternativamente, los raspadores pueden extraer datos a intervalos definidos, por ejemplo: una vez al día, una vez al mes o al comienzo de cada nuevo trimestre.

Procesamiento de datos. La minería de datos web produce una gran cantidad de información y las empresas deben pensar en cómo administrarla y almacenarla. Algunas soluciones de minería web contienen funciones de procesamiento de datos que organizan automáticamente los datos recopilados y los almacenan de manera diferente, por ejemplo, en un servidor local o en la nube, según la configuración.

Raspado de capturas de pantalla. A veces, una sola captura de pantalla vale más que mil filas de datos extraídos. En estos casos, el software de minería web con funcionalidad de captura de pantalla puede salvar el día. Encuentra, crea y guarda capturas de pantalla de páginas web seleccionadas. Esto es especialmente útil cuando se compara el diseño, el diseño y la colocación de productos en sitios de la competencia.

Entonces, ¿qué es el software de minería de datos?

Ahora que tiene una mejor comprensión del software de minería web, hablemos de cómo se diferencia del software de minería. En nuestro Guía de compradoresdefinimos el software de minería de datos de la siguiente manera:

“El software de minería de datos permite a los usuarios aplicar análisis semiautomáticos y predictivos para analizar datos sin procesar y encontrar nuevas formas de examinar la información. Por ejemplo, las empresas de comercio electrónico utilizan estas aplicaciones para analizar la demografía de los visitantes y descubrir cómo brindar una mejor experiencia al cliente. »

Si tiene experiencia con aplicaciones de BI, probablemente ya esté familiarizado con esta definición de minería de datos. Pero, ¿qué pasa si, como muchos compradores de software de BI por primera vez, no lo es? Puede asumir que sabe lo que eso significa porque sabe qué son los datos y sabe qué es la minería. Poner los dos juntos debería darle una comprensión precisa del término combinado, ¿verdad?

No necesariamente. Depende de su experiencia minera, o la falta de ella.

Hagamos una analogía…

La imagen de abajo es una mina de oro en Australia, que parece un agujero muy grande en el suelo. Ahora aquí viene el quid de la cuestión: ¿qué se eliminó para crear este agujero gigante? Muchas, muchas, muchas toneladas de suciedad. Luego se procesó esta tierra y se separó el oro, pero la actividad minera se refiere a recolectar la tierra que contiene el oro, no a recolectar el oro en sí.

Esta distinción es importante. Consulte nuevamente la definición de minería de datos anterior. La minería de datos es el proceso de extraer información valiosa de sus datos existentes. En otras palabras, en la jerga de inteligencia de negocios, ya ha extraído muchas toneladas de suciedad y está utilizando software de minería para convertirlo en unos pocos pedacitos de oro.

En la superficie, basándose únicamente en el idioma, la mayoría de las personas esperan que el software de minería web funcione igual que el software de minería normal. Pero como mostramos anteriormente, estas dos herramientas tienen propósitos muy diferentes.

conclusión

La minería web y la minería de datos son dos aplicaciones de BI mucho más diferentes de lo que sugieren sus nombres muy similares. Mientras que la «minería de datos web» se refiere a la recopilación de grandes cantidades de datos de Internet, la «minería de datos» se refiere a la extracción de información valiosa de grandes conjuntos de datos.

Nota: Las leyes sobre el uso del software de minería web varían según la ubicación, la intención y el grado. Las empresas deben consultar con un abogado antes de participar en la minería de datos web para minimizar la posibilidad de acciones legales.

¿Todavía tiene preguntas sobre el software de BI? Llamenos al (855) 998-8505 para una consulta gratuita de FastStart. También puede enviar un correo electrónico al autor de este informe a [email protected]

Imagen mía de Brian Voon Yee Yap usada debajo CC BY-SA 3.0.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *