gestión del big data

6 pasos básicos en la gestión del Big Data

En el día a día de una organización o empresa, se producen y reciben un sinfín de datos desde múltiples dispositivos, lo que denominamos Big Data. Son registros de información de ventas, datos de clientes, variación de stocks, reacciones en las redes sociales, movimiento bancarios, nóminas, etc. Estructurar nuestro Big Data es esencial para poder dar una solución unificada a toda la organización, sin que cada departamento se haga un análisis a medida, donde finalmente descubrimos incongruencias. Éstos son los 6 pasos básicos en la gestión del Big Data para obtener unos resultados alineados con los objetivos de la organización.

1.- Data integration

Para poder gestionar nuestro Big Data necesitamos primero integrar las diferentes fuentes de datos siguiendo estos parámetros:

  • Accesibilidad: Tenemos que encontrar la manera fácil y rápida para poder acceder a la variedad de datos que tenemos. Recibimos bases de datos, datos estructurados, datos relacionales e incluso fuentes de datos transmitidas. El científico de datos, o una consultoría como Saima Solutions, nos ayudará a decidir si el software con el que trabajamos es el idóneo para nuestra organización.
  • Transformación, cambio y entrega: Una vez ha llegado la información a nuestra plataforma, debemos establecer el marco de integración (definir KPIs, origen, visualización) de forma que transformamos los datos en un formato compatible y unificado para poder analizar los resultados.
  • Replicar y actualizar los datos: es necesario poseer soportes que nos permitan la transferencia masiva de datos sin presentar cuellos de botella que mermen la efectividad de la recolección, por ello se han desarrollado sistemas de alimentación denominados “change data capture”, los cuales permiten la actualización de los sistemas destino a medida que el proceso lo necesita.

2.- Data virtualization

La integración de datos es un proceso complejo, en el que podemos encontrar problemas de extracción y transformación de los datos de forma sincrónica. Si no los solucionamos, los resultados no serán válidos.

Para evitar este riesgo, se utilizan técnicas de virtualización de datos que deben:

  • Determinar un modelo estándar de datos para los métodos de acceso de la data.
  • Administrar datos accesibles dentro de un entorno virtual que permita aumentar el rendimiento del sistema.
  • Validar, limpiar y unificar los datos, posterior a los dos pasos anteriores.

3.- Event stream processing

La insuficiencia de los sistemas tradicionales para abarcar la recolección, monitoreo y análisis de la data generada de eventos en tiempo real ha propiciado el nacimiento del procesamiento de flujo de eventos o event stream processing (ESP), que se destaca por monitorear en tiempo real los patrones y secuencias de eventos a través de flujos de información.

El ESP puede monitorear en real time el flujo relevante de eventos contra los patrones esperados, de forma que cuando exista una variación de las expectativas o la identificación de nuevas oportunidades, los sistemas pueden generar alertas para su puntual análisis.

4.- Metadata management

A menudo nos encontramos que tenemos datos procedentes de sistemas muy diferentes, cuya homologación resulta muy complicada. Cada proveedor (banco, red social, CRM, Etc.) utiliza y desarrolla sus propios sistemas bajo enfoques diferentes. Para unificarlos deberemos realizar una gestión de metadatos que incluye métodos para generar aspectos como:

  • Estándares de datos, nomenclatura y datos de referencia definida.
  • Parámetros para almacenamiento e intercambio.
  • Linaje de datos para relacionar conceptos a través de diferentes modelos y aplicaciones.
  • Integración con políticas de gobierno de datos para apoyar validación, cumplimiento y control.

5.- Data quality management

Nuestro científico de datos tendrá que evaluar la calidad de los datos procesados, con el objetivo de:

  • Ayudar a la empresa a mejorar la presión dentro de sus procesos de identificación de fallos de datos y errores.
  • Simplificar el análisis y la corrección de las causas que generan dichos defectos.
  • Señalar problemas cuando sean identificados.
  • Facilitar la comunicación de posibles problemas de datos a los proveedores de data de origen.

Así será posible realizar una limpieza de datos, eliminar incoherencias, gestionar los requisitos y normas de calidad de validación de datos, determinar anomalías o verificar los procesos de integración de datos, entre otros.

6.- Data governance

Se trata de una última validación del proceso, para asegurarnos que se siguen las reglas y las políticas establecidas. Es la única manera de asegurarnos que los resultados y las conclusiones de nuestro análisis son las correctas y están alineadas con los objetivos de la organización.

Comments

Post Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *