Consejos para que las empresas mejoren la calidad de sus datos (parte 1)
La calidad de los datos es algo por lo que cualquier organización debería preocuparse, y mucho. A diferencia del pasado, ahora confiamos en los datos de manera impensable hace 20 años. Si bien para que esta nueva mentalidad resulte efectiva, es prioritario que cualquier organización atienda a una serie de consejos que mostraremos a los lectores de ContactForum en dos artículos. Analicemos ahora las tres primeras recomendaciones:
1. Nunca modifique sus datos de origen
Los datos de origen son aquellos que el sistema captura en el formato creado originalmente para labores de auditoría, entre otros propósitos. Resulta fundamental que usted pueda recuperar aquello con lo que empezó. Por lo tanto, siempre debería mantener limpia una copia de los datos de origen, y no los datos de origen en sí.
Después de que los procesos de limpieza de datos se encuentren afianzados durante algún tiempo, los usuarios de negocio podrían considerar que esa fuente debería estar más limpia de lo que había estado hasta la fecha.
No caiga en la tentación de tomar los datos cualificados y devolverlos al sistema fuente. Es mejor comenzar con el sistema fuente en sí. Si mejora desde un principio el proceso de recolección de datos, el trabajo de limpieza será menor y se producirán menos discrepancias con los sistemas de información.
Recuerde, para contar con unos datos de origen más limpios, es siempre preferible depurar los procesos de datos de origen antes que enviar los datos limpios de vuelta a los sistemas fuente.
2. Versione todo
Conforme vaya haciendo cambios, realice copias tanto de los registros como de las reglas que tiene en la actualidad. Esto siempre le permitirá retornar al estadio inicial. Además, la estructura clave de los datos nunca debería ser modificada. El formato primario siempre debería acompañar a cualquier registro como parte del proceso de limpieza, e incluso ir a parar a las tablas finales del data warehouse, el lago de datos o cualquier otro sistema de información seleccionado.
Puede que no lo necesite o use siempre, pero siempre puede rastrear los datos desde la clave principal, lo que resulta crítico para el linaje de los datos. No se olvide de etiquetar cada nivel de dimensión o jerarquía con la clave principal de la que procede.
3. Publique las métricas de calidad de datos
Cree un marcador, de tal forma que los usuarios de negocio puedan saber cuáles de sus datos casan con los estándares de calidad de datos. Una mayor transparencia supone una mayor dosis de confianza por parte del usuario.
Estas son algunas de las métricas que debería poder visualizar:
- Validación de miembros que forman parte de un campo.
- Número de registros que casan con los criterios de calidad de datos vs los que no lo hacen.
- Número de registros que casan con criterios de calidad de datos después de que las reglas hayan sido aplicadas.
- Número de registros que se necesitan para su validación o corrección manual.
Esta información resulta útil para los responsables de datos que operan en los departamentos de negocio, que gestionan problemáticas de calidad de datos y que han de facilitar el equilibrio entre las áreas de negocio y de TI.
Finalmente, me gustaría insistir que toda organización debería tener en cuenta los inputs de sus empleados con relación a lo que realmente suponen las métricas de calidad de datos. La gente de las áreas de negocio suele comprender mejor el valor de los datos que los empleados de TI; mientras que éstos entienden mejor cómo funcionan las reglas. Si un profesional de negocio considera que una métrica no tiene sentido para él, quizá la regla de calidad de datos deba ser actualizada o el proceso de conversión modificado. Explicar a los usuarios de negocio el significado de las métricas puede ser muy beneficioso tanto para ellos como para los profesionales de TI.