¿Qué es el Data Visualization o cómo interpretar grandes cantidades de datos?

 


El Data Visualization permite a los analistas de datos extraer insights de su Big Data de forma mucho más rápida. Otro de sus principales usos es ser la herramienta de comunicación ideal entre los analistas y la dirección de una compañía.


La comprensión del Big Data genera un nuevo reto en cuanto al Data Visualization debido a la cantidad y diversidad de variables y datos que se manejan. Analizar la información a través de imágenes es más sencillo, de modo que:
Los gerentes y Data Scientists que utilizan Data Visualization para presentar la data, tienen 28% más de probabilidad de encontrar datos relevantes para el análisis y predicción de tendencias en su negocio, que los que analizan la información en dashboards tradicionales.

1. Mejora el proceso de toma de decisiones
2. Reduce el tiempo dedicado al análisis
3. Facilita la predicción de tendencias

Principios de Data Visualization

El Data Visualization es la forma más óptima de exponer la miríada de datos que están al alcance de las empresas en la era digital, lo conocido como Big Data. Gracias a esta exposición visual de los cientos de variables y cruces que puede incluir una BBDD, el analista de datos tiene una herramienta que le permite extraer y exponer mucho más rápido y con mayor certeza insights de negocio.

Principios para presentar la información adecuadamente:


1. Simplificar: presentar la cantidad de variables adecuadas.
2. Comparar: para facilitar la comprensión y evitar errores de memoria, es importante poder visualizar todos los datos en una imagen.
3. Dónde y cómo mostrar la información que se quiere destacar para captar la atención.
4. Diversificar: diferentes representaciones de los mismos datos pueden llevar a nuevas conclusiones
5. Buscar el por qué: la meta del Data Visualization no es encontrar qué ocurre, si no dar una forma visual fácilmente interpretable a la miríada de datos de los que dispone una compañía

Técnicas de Data Visualization

Crear un gráfico a partir de una tabla de excel o incluso un SQL como los que se han utilizado hasta hace unos años es bastante sencillo. Las variables apenas pasaban las 100 columnas y no todas estaban relacionadas entre sí. Sin embargo, a medida que se agregan e interrelacionan variables esto se vuelve más complicado. Mucho más complicado.

Para datos estructurados, como ventas, ingresos, etc, los gráficos sencillos son más que suficiente. Sin embargo, para la los datos desestructurados, como textos o imágenes, captados con sistemas de Big Data, hace falta otro tipo de técnica para visualizar la información adecuadamente.

Gráficos relacionales

Son especialmente útiles para estudiar la relación de los clientes con una compañía y el nivel de penetración de nuestros productos en cada hogar. Por ejemplo, ¿de los clientes de una compañía telefónica, cuántos tienen solo línea móvil, cuántos tienen pack completo y cuántos han mostrado interés en servicios adicionales como TV bajo demanda o coberturas? ¿Cómo se relacionan dichos productos con los consumidores y qué datos sociodemográficos cumplen?

Graficos relacionales

Nubes de palabras

Para encontrar la moda en una serie de textos. Este gráfico es especialmente indicado para extraer insights a través de la escucha activa en Redes Sociales, pues te permite relacionar tu marca o keywords concretas con aquello que se comenta de ellas, el sentimiento (bueno, neutro o malo) con el que se comenta y el volumen de interacciones que genera. En próximos artículos veremos cómo esto, asociado a usuarios y propuestas políticas concretas, afectaron a las elecciones de Estados Unidos en 2012 y 2016 e incluso a las de España del año pasado.

Nube de palabras

Diseño de Mapas de Calor

Pueden ser cuadriculados o cartográficos. Se pueden utilizar para comparar datos que tienen mucha diferencia entre si: por ejemplo en el caso de una compañía que quiera medir la penetración geográfica de su producto, o el potencial de clientes de una zona concreta en relación con su nivel socioeconómico y la adquisición de productos similares en función del tiempo.

Cuadriculado
Mapas de calor

Cartográfico

Mapas de calor

Diagramas de Dispersión

Son una versión primeriza del Data Visualization, dado que no pueden mostrar por sí mismas más de tres variables para cada registro (situación en los ejes y tamaño de su representación en la tabla). Sin embargo, si dotamos a estos gráficos de interactividad, nos ayudan a dar a nuestra visualización dos niveles de profundidad: los datos que más nos interesan en función de las 3 variables más importantes y, haciendo click en los datos concretos, una muestra desglosada del resto de variables que hayamos establecido.

Por ejemplo, en la gráfica a continuación se puede observar la mejoría o deterioro en la puntualidad de diferentes aerolíneas desde 1985 hasta el 2010, midiendo la cantidad de minutos de retraso en el despegue. Pulsando en cada aerolínea, podríamos acceder a la representación de los datos que expliquen las causas de su mejoría o empeoramiento.

Diagramas de dispersión


La clave del Data Visualization reside en escoger la representación visual que queremos dar a nuestros datos en función del tipo de conclusión que queremos extraer. Es decir, escoger la representación según la hipótesis que queramos demostrar.