Calidad de datos en Detect

Seguir

En este artículo, aprenderas sobre el análisis de calidad de datos realizado por Detect. El artículo se divide en los siguientes apartados:

¿Qué es el análisis de calidad de datos en Detect?

Para poder comparar edificios similares en Detect, es indispensable garantizar un nivel mínimo de calidad de los datos del edificio. Por eso se evalúan muchos parámetros y variables para cada edificio.

Supongamos que hay una configuración incorrecta, errores como la falta de datos relevantes o datos de consumo erróneos. En ese caso, un edificio se descartará y no generará resultados en Detect ni se utilizará para compararlo con otros edificios.

En cualquier otro escenario, el edificio será aceptado. Sin embargo, a pesar de no ser descartado, no implica una calidad perfecta de los datos. Por ello, se realiza un análisis más profundo para conocer el estado de calidad de los datos de cada edificio.

En los apartados siguientes se explica por qué puede descartarse un edificio y todas las categorías de calidad de datos que analiza el programa.

 

Motivos de descarte

When a building is discarded, it can be owing to reasons in two categories:

Cuando se descarta un edificio, puede deberse a razones de dos categorías:

Problemas relacionados con la configuración de la cuenta o los datos de la localización

Categoría Error Descripción
Medidor de referencia Sin medidor de referencia eléctrico El medidor de referencia eléctrico no ha sido configurado para esa localización
Coordenadas Sin coordenadas La localización se ha descartado en no poder obtener sus coordenadas
Coordenadas incorrectas

La localización se ha descartado porque el proveedor de geolocalización no ha podido obtener una dirección válida de las coordenadas configuradas.

Actividades & Sectores Sector no activo

La localización se ha descartado si la cuenta tiene una lista pre-configurada de sectores activos y el sector de la localización no está incluido.

Datos de Meteo Sin datos de meteo

La localización se descarta si no es posible obtener datos de grados día ni de temperatura.

Superficie

Superficie original considerada incorrecta y no se puede estimar una nueva

La superficie configurada es <10m2 y con los datos de consumo disponibles, Detect no es capaz de estimar una nueva superficie capaz de arrojar resultados de consumo específico razonables.

Sin superficie

La superficie configurada es <10m2 y con los datos de consumo disponibles, Detect no es capaz de estimar una de nueva. 

Consumo específico demasiado alto con huecos de datos

El consumo específico es demasiado alto y faltan datos.

Superficie estimada (solo si la superficie de la localización = 1m²) Consumo específico demasiado bajo sin huecos de datos

Aunque no falten datos, la localización se descarta porque después de imputar la superficie, el consumo específico es demasiado bajo.

Consumo específico demasiado alto sin huecos de datos

Aunque no falten datos, la localización se descarta porque después de imputar la superficie, el consumo específico es demasiado alto.

Consumo específico proyectado demasiado bajo

Después de imputar la superficie para esta localización y rellenar los huecos de datos, la localización se descarta porque el consumo específico es demasiado bajo.

Consumo específico proyectado demasiado alto

Después de imputar la superficie para esta localización y rellenar los huecos de datos, la localización se descarta porque el consumo específico es demasiado alto.

 

Problemas con los datos de consumo

Categoría Error Descripción
Carencia de datos Sin lecturas

La localización si no tiene lecturas de Energía Activa.

Lagunas relevantes en los datos de consumo, faltan los datos de los primeros meses Este error se produce si faltan datos en los meses iniciales del período de 12 meses.
Lagunas relevantes en los datos de consumo, faltan datos de meses intermedios

Este error se produce si faltan datos en meses intermedios del período de 12 meses.

Lagunas relevantes en los datos de consumo, faltan datos de los últimos meses

Este error se produce si faltan datos en los últimos meses del período de 12 meses.

Lagunas relevantes en los datos de consumo, faltan datos de algunos meses Este error se produce si faltan datos distribuidos a lo largo del período de 12 meses.

Lagunas relevantes en los datos de consumo, no faltan datos de ningún mes

Este error se produce si faltan datos pero no suman ningún mes completo.
Valores de consumo Consumo inferior a un umbral definido

Este error se produce si el consumo de 12 meses (teniendo en cuenta el consumo perdido estimado en huecos) es inferior a 1500 kWh

Consumo inferior a un umbral definido, con lagunas de datos de los primeros meses Este error se produce si el consumo de 12 meses es inferior a 1500 kWh porque faltan datos en los meses iniciales del periodo de 12 meses
Consumo inferior a un umbral definido, con lagunas de datos de meses intermedios Este error se produce si el consumo de 12 meses es inferior a 1500 kWh porque faltan datos en meses intermedios del periodo de 12 meses
Consumo inferior a un umbral definido, con lagunas de datos de los últimos meses Este error se produce si el consumo de 12 meses es inferior a 1500 kWh porque faltan datos en los meses finales del periodo de 12 meses

Consumo inferior a un umbral definido, con lagunas de datos en algunos meses

Este error se produce si el consumo de 12 meses es inferior a 1500 kWh porque faltan datos en meses distribuidos del periodo de 12 meses

Consumo inferior a un umbral definido, no faltan datos de ningún mes

Este error se produce si el consumo de 12 meses es inferior a 1500 kWh porque faltan datos, pero no falta un mes concreto

 

Alertas de calidad de datos

Las alertas de calidad de datos se analizan y distribuyen en las siguientes categorías: 

  • Datos externos: Relacionados con datos meteorológicos y días festivos.

  • Metadatos: Relacionados con la configuración de la cuenta.

  • Superficie: Relacionados con los valores válidos para la superficie configurada.

  • Geolocalización: Relacionado con coordenadas.
  • Datos mensuales: Relacionados con lagunas de datos o valores extremos de consumo.

  • Datos horarios: Relacionados con lagunas de datos o valores extremos de consumo.

En este caso, para cada categoría, Detect analiza varios parámetros y luego clasifica todos los edificios aceptados en "sin alertas", "con alertas leves" o "con alertas graves".

En las secciones siguientes hay más detalle sobre las alertas disponibles: 

Alertas - Datos externos

Concepto Descripción Tipo de alerta (leve/grave)
Datos de una sola estación meteorológica Se considera una alerta si los datos provienen de múltiples estaciones meteorológicas Leve
Datos de una estación meteorológica cercana Se considera una alerta si los datos provienen de una estación meteorológica lejana
  • Leve si se encuentra entre 25km y 50km del edificio
  • Grave si se encuentra a más de 50km del edificio 

 

Alertas - Metadatos

Concepto Descripción Tipo de alerta (leve/grave)
Con precios configurados Se considera una alerta si los precios no están configurados Leve
Actividad configurada correctamente Se considera una alerta si la actividad está configurada como 'Otro' Leve
Sector configurado correctamente Se considera una alerta si el sector está configurado como 'Otro' Leve
Temperaturas de referencia configuradas correctas Se considera una alerta si la temperatura de referencia para el cálculo de los grados día no está configurada Leve
Precios con divisa Se considera una alerta si la divisa de los precios es desconocida Leve

 

Alertas - Superficie

Concepto Descripción Tipo de alerta (leve/grave)
Superficie configurada Se considera una alerta si la superficie no ha sido configurada Leve
Superficie configurada dentro de rango (no demasiado baja) Se considera una alerta si la superficie es menor a la esperada Leve
Superficie configurada dentro de rango (no demasiado alta) Se considera una alerta si la superficie es mayor a la esperada Leve
Superficie configurada válida (mayor que cero) Se considera una alerta si la superficie es cero o negativa Leve

 

Alertas - Geolocalización

Concepto Descripción Tipo de alerta (leve/grave)
Con código postal configurado Se considera una alerta si no hay código postal configurado Leve
Código postal y coordenadas consistentes Se considera una alerta si el código postal y las coordenadas no coinciden Leve
Código postal correcto Se considera una alerta si el código postal configurado no corresponde con el formato esperado para el país del edificio Leve
País y coordenadas consistentes Se considera una alerta si el país y las coordenadas no coinciden Leve

 

Alertas - Datos mensuales

Concepto Descripción Tipo de alerta (leve/grave)
Consumo mensual completo
Se considera una alerta si faltan datos mensuales de consumo
  • Leve si falta algún dato mensual
  • Grave si faltan más del 50% de datos mensuales
Consumo mensual sin huecos al inicio Se considera una alerta si faltan datos de consumo mensual al principio del periodo
  • Leve si falta algún dato
  • Grave si faltan más de 3 datos mensuales
Consumo mensual sin huecos intermedios Se considera una alerta si faltan datos de consumo mensual en meses intermedios del periodo
  • Leve si falta algún dato
  • Grave si faltan más de 3 datos mensuales
Consumo mensual sin huecos al final Se considera una alerta si faltan datos de consumo mensual al final del periodo
  • Leve si falta algún dato
  • Grave si faltan más de 3 datos mensuales
Consumo mensual con valores válidos (sin valores negativos) Se considera una alerta si hay consumos mensuales negativos Grave
Consumo mensual con valores válidos (sin ceros) Se considera una alerta si hay consumos mensuales igual a 0
  • Leve si hay algún valor mensual = 0
  • Grave si más de un mes tiene consumo = 0
Consumo mensual dentro de rango (sin valores demasiado bajos) Se considera una alerta si los consumos mensuales son demasiado bajos
  • Leve si hay algún valor demasiado bajo 
  • Grave si hay más de 3 valores demasiado bajos
Consumo mensual dentro de rango (sin valores demasiado altos) Se considera una alerta si los consumos mensuales son demasiado altos
  • Leve si hay algún valor demasiado alto 
  • Grave si hay más de 3 valores demasiado altos

 

Alertas - Datos horarios

Concepto Descripción Tipo de alerta (leve/grave)
Consumo horario con valores válidos (sin ceros) Se considera una alerta si hay consumos horarios igual a 0
  • Leve si hay algún valor=0
  • Grave si hay más de 60 días con valores horarios = 0
Consumo horario sin huecos al inicio Se considera una alerta si faltan datos de consumo horario al inicio del periodo
  • Leve si falta algún valor
  • Grave si faltan más de 60 días de datos horarios
Consumo horario sin huecos intermedios Se considera una alerta si faltan datos de consumo horario en meses intermedios del periodo
  • Leve si falta algún valor
  • Grave si faltan más de 60 días de datos horarios
Consumo horario sin huecos al final Se considera una alerta si faltan datos de consumo horario al final del periodo
  • Leve si falta algún valor
  • Grave si faltan más de 60 días de datos horarios
Consumo horario con valores válidos (sin valores negativos) Se considera una alerta si hay consumos horarios negativos
  • Leve si hay algún valor negativo
  • Grave si más del 5% de valores horarios durante el año son negativos
Consumo horario dentro de rango (sin valores demasiado altos) Se considera una alerta si los consumos horarios son demasiado altos
  • Leve si hay algún valor demasiado alto
  • Grave si más del 5% de valores horarios durante el año son demasiado altos
Consumo horario dentro de rango (sin valores demasiado bajos) Se considera una alerta si los consumos horarios son demasiado bajos
  • Leve si hay algún valor demasiado bajo
  • Grave si más del 5% de valores horarios durante el año son demasiado bajos
Los consumos horarios y mensuales coinciden Se considera una alerta si hay diferencia entre los valores horarios y mensuales no disponibles
  • Leve si la diferencia es mayor que 1%
  • Grave si la diferencia es mayor que 50%
Consumo horario sin valores repetidos Se considera una alerta si hay demasiados valores de consumo horario repetidos

Grave

 

Data Quality en la UI

En la vista del portfolio dentro de Detect, hay tres secciones distintas relacionadas con la Data Quality: 

 

detect-data-quality-1.png

Resumen del estado del portfolio

La vista de resumen del estado de la cartera muestra un resumen del estado de la calidad de los datos de la cuenta, mediante un gráfico circular y barras apiladas.

El gráfico circular muestra en rojo el número de ubicaciones que se han descartado; y de las que se han aceptado, la distribución entre las que no tienen ninguna advertencia (en verde, 0 en la captura de pantalla inferior), las que tienen advertencias leves (en amarillo) y las que tienen advertencias graves (en naranja).

Las barras apiladas muestran la distribución de advertencias entre cada categoría analizada:

detect-data-quality-2.png

El número de ubicaciones descartadas es el mismo en todas las categorías, ya que se descartaron antes del análisis de advertencias y, por tanto, no pertenecen a ninguna categoría. Cada localización aparece una vez en cada categoría.

 

Estado detallado del portfolio

La sección de estado detallado de la cartera enlaza con una tabla que incluye todas las ubicaciones de la cuenta con todos los posibles motivos de descarte o análisis de advertencias:

detect-data-quality-3.png

 

Descripció de los errores y las advertencias

Esta sección muestra los conceptos analizados dentro de cada categoría para las ubicaciones aceptadas. Como ejemplo, la categoría de consumo horario:

detect-data-quality-4.png

Tomando como ejemplo la primera fila, "Consumo horario con valores válidos (sin ceros)":

  • 57 ubicaciones de esta cuenta tienen un consumo horario válido sin ceros
  • 4 tienen advertencias leves (tienen algunos ceros en su consumo)
  • 2 tienen advertencias graves (tienen muchos ceros en su consumo)

 

Data Quality en los Dashboards

Para comprobar los widgets preparados sobre la calidad de datos de Detect, consulte este artículo.

¿Te pareció útil este artículo?