Análisis de datos: El misterio de los totales que no cuadran y cómo resolverlo.


Business Intelligence

En el marco de negocios actual es imprescindible poder visualizar los resultados conseguidos. Disponer de cuadros de mandos o tablas de KPIS (Indicadores Claves de Rendimiento) es clave para la evaluación del rendimiento de las acciones llevadas a cabo, así como para el diseño de nuevas estrategias. Para cumplir con esta necesidad, existen infinidad de herramientas disponibles en el mercado que permiten la integración de múltiples fuentes de datos y la visualización de la información recolectada.

El volumen de datos a los que tienen acceso las empresas es cada vez mayor, por lo que adquirir la capacidad de extraer la información realmente valiosa es el factor que puede marcar la diferencia para una toma de decisiones acertada. En este artículo nos centraremos en uno de los formatos de visualización más usados en cuadros de mando y herramientas de análisis: las tablas planas.

En su formato más básico, una tabla consiste en una serie de registros únicos (filas) que tienen asociados diferentes valores (columnas). A partir de ahí, podemos combinar tablas para enriquecer la información. Una de las operaciones más comunes es el merge: unir dos tablas usando como elemento de unión un valor común en una columna. Es en esta operación tan sencilla donde es importante ser cauteloso, ya que pueden aparecer diferentes problemas que lleven a errores fatales en análisis posteriores.

Seguro que te ha pasado: consultas tu dashboard de Power BI o Looker Studio, exportas una tabla a una hoja de cálculo para una comprobación rápida, sumas los valores de una columna y el resultado no coincide con el Total que muestra el dashboard. ¿Un error de la herramienta? La respuesta es no, y entender la causa es fundamental para garantizar la fiabilidad de tus análisis.

¿Por qué ocurre esta discrepancia?

Causa A: La duplicidad de registros por el cruce de datos (El efecto “One to many”)

Este problema surge a menudo después de unir tablas (merge o join), cuando una fila de la tabla principal (la que tomamos como referencia) se corresponde con múltiples filas de la tabla secundaria (de la que extraemos la nueva información).

Imaginemos que tenemos una tabla de Costes de Campaña (una fila por campaña) y otra de Conversiones (múltiples filas por campaña). Si unimos ambas para ver el coste junto a cada conversión, la cifra del coste de la campaña se repetirá por cada conversión que haya generado. Al sumar la columna ‘Coste’ en esta nueva tabla, estaremos sumando el mismo coste varias veces, inflando artificialmente el total.

Causa B: La mezcla de niveles de granularidad

Hay que partir de la premisa de que no todos los valores de una tabla se pueden cruzar. Las dimensiones, así como las métricas, tienen intrínsecas un entorno al que pertenecen y que hace incompatible relacionarlas con otras por el simple hecho de “vivir en otro nivel”. Un ejemplo claro lo observamos en los resultados de Google Analytics 4: existen métricas asociadas a sesiones, otras a usuarios, otras a eventos, …

Esto puede llevar a que casos como el siguiente: pretendemos analizar el comportamiento de usuarios procedentes de una fuente concreta. Nos puede interesar estudiar cuántas de nuestras sesiones genera esta fuente y qué páginas visitan dichos usuarios. Sin embargo, analizarlo todo en una misma tabla plana lleva a resultados confusos. 

Imaginemos que solo tenemos una sesión cumpliendo estas condiciones y que, en ella, el usuario visita 3 páginas distintas. El resultado son 3 filas, una para cada una de las páginas y con valor 1 en ambas columnas: la de Sesiones y la de Páginas vistas. En cambio, en los totales deberíamos observar 1,3.

Sutilezas como las descritas en este artículo son las que diferencian un análisis superficial de una consultoría de datos estratégica. Es por ello que desde LaMagnética, con nuestro equipo de analistas con formaciones de alto nivel, examinamos cada uno de los resultados para poder garantizar así el primer paso para tomar decisiones de negocio acertadas.