Bases de datos: Lecciones aprendidas sobre ‘limpieza de datos’ o control de calidad

Javier Casas

Abogado experto en libertades informativas. Miembro de @sumaciudadana

El tema de la ‘limpieza de datos’ es un elemento recurrente e importante en el discurso del tratamiento de bases de datos porque se refiere al control de la calidad de la información. Como veremos a continuación, en el Perú esto no sólo implica asegurar la integridad de los datos dentro de una misma fuente, sobre todo si se trata de una estatal. La experiencia nos obliga a sugerir el empleo de fuentes externas para confirmar la exactitud y vigencia de los datos.    

Primer ejemplo: Pocos días después de que el equipo periodístico Ojo-Público lanzara la aplicación Cuentas Juradas, en septiembre de 2014, presentando al público por primera vez información completa y amigable sobre el patrimonio de los alcaldes distritales de Lima, la Contraloría General de la República (CGR), la entidad que en Perú centraliza esa data, envió a Suma Ciudadana un reporte de errores que sus funcionarios habían cometido al responder nuestros pedidos de información. Quienes lo habían advertido a la CGR fueron los propios alcaldes, al examinar la aplicación periodística, y la CGR pidió a Suma Ciudadana que haga las correcciones en su base de datos que es el soporte de la aplicación periodística. Las correcciones se hicieron de inmediato.

El error de la CGR ya lo habíamos detectado antes de la publicación, aunque no lo habíamos esclarecido. Pudimos realizar ese cotejo porque solictamos paralelamente la misma información a las propias municipalidades de Lima, fuente originaria de las declaraciones juradas patrimoniales de los alcaldes. Decidimos hacer ese doble pedido de información cuando observamos que la Contraloría no nos entregaba copias de los documentos que habíamos solicitado, sino una elaboración propia, resúmenes ad hoc para las respuestas a nuestros pedidos. Como era evidente que el procesamiento de datos lo hacían funcionarios de la CGR y no máquinas, y dada la enorme cantidad de datos, en Suma Ciudadana dudamos de la capacidad de resumen de los funcionarios de la CGR. Por ese motivo decidimos recurrir paralelamente a la fuente original, es decir a cada municipalidad, para estar seguros de advertir errores.

Por el mismo hecho de advertir algunas inconsistencias entre los datos de fuente ‘CGR’ y los de fuente ‘Municipalidad’, el equipo de Ojo Público decidió presentar sólo los datos provenientes de la CGR para mantener la homogeneidad de la fuente. Lógicamente, al momento de la publicación se confirmó que los datos del ex-alcalde del distrito de Santiago de Surco, Juan Manuel del Mar, y los del entonces alcalde de San Martín de Porres, Freddy Ternero, eran errados. En esos dos casos, los datos de la fuente municipal eran los verdaderos.

En realidad se trató de un error que la Contraloría pudo evitar. Ante nuestros pedidos de información, ¿por qué la entidad decidió realizar un tratamiento propio e impertinente de la información pública? Nunca obtuvimos respuesta, pero lo legal y eficaz hubiese sido emplear el método antiguo: fotocopiar las declaraciones juradas y tachar los datos reservados al clásico estilo de la CIA. Por el lado periodístico, lo ideal hubiese sido aclarar primero los datos contradictorios.

Segundo ejemplo: Este año, Convoca, otro equipo periodístico que trabaja con declaraciones juradas de funcionarios públicos almacenadas en bases de datos, presentó la aplicación Rastreador Político que exhibe de manera amigable el patrimonio de los miembros del Congreso de la República. Convoca hizo pedidos de información a la Contraloría, y durante el proceso de contrucción de la base de datos, y mientras su equipo actualizaba sus datos, fuimos consultados para resolver las mismas inconsistencias detectadas en los datos provenientes de las respuestas de la Contraloría. La solución al problema fue contrastar los datos procesados manualmente por la Contraloría, con los datos del Congreso de la República que la CGR publica directamente en su portal, sin procesarlos. Sólo en los casos en donde había coincidencia entre la información de fuente ‘CGR’ y la de fuente ‘Congreso’, podíamos afirmar que había veracidad de los datos.

Estos dos casos ponen en evidencia dos problemas de larga data en Perú. Uno relacionado directamente con las declaraciones juradas patrimoniales de los funcionarios públicos, y el otro con el tratamiento de las bases de datos estatales en general.

Con respecto al primer problema, los errores detectados en los datos brindados por la Contraloría obligan a sus usuarios a tomarlos con precaución y siempre confrontar esos datos con otras fuentes, para obtener una base de datos confiable. En ese sentido, estamos en condiciones de dudar de la capacidad de la Contraloría para tratar los datos personales de los funcionarios públicos (de acceso público y los reservados) siguiendo el principio de calidad que exige la Ley de Protección de Datos Personales.

También podemos afirmar que menos del 50% de los alcaldes de Lima (distritales y provinciales) elegidos desde 2003, posee un registro completo de declaraciones juradas patrimoniales en la Contraloría. Al mismo tiempo se puso en evidencia que la Contraloría no tiene capacidad por sí misma de establecer si la información declarada es veraz y completa, porque los funcionarios públicos pueden omitir bienes en sus declaraciones sin ser descubiertos por la entidad. Y tampoco son sancionados cuando son descubiertos por la prensa. Por ejemplo, un semanario limeño reveló que uno de los principales financistas del partido político Fuerza Popular, el congresista Joaquín Ramírez, investigado en Perú y los Estados Unidos por lavado de activos, había omitido bienes en su declaración jurada patrimonial. La Contraloría ni lo advirtió, ni se ha dado por aludida en la denuncia.

La idea detrás de la publicación de las declaraciones juradas es que la ciudadanía apoye a la CGR brindando información sobre patrimonio no declarado por los funcionarios públicos. Pero se trata de una visión de la lucha contra la corrupción que hasta ahora no ha sido bien recibida dentro del Estado. La opacidad protege la ineficiencia y la mala calidad de los datos. Durante nuestra primera reunión con el equipo de Prevención de la Corrupción de la Contraloría para mostrarles el producto de nuestra labor con los datos que nos enviaban –mucho antes de traspasar la base de datos a Ojo Público- pudimos confirmar que les mostrábamos una herramienta que ellos no tenían ni tienen aún. La anécdota es que en dicha reunión finalmente se reveló la intriga que envolvía a los funcionarios de la Contraloría sobre lo que podíamos estar haciendo con la información que nos proporcionaron.

El segundo problema implica reconocer que las bases de datos útiles para trabajar con rigor asuntos de interés público, normalmente son construidas por sus propios usuarios, por ejemplo, por periodistas e investigadores. Este es un problema advertido en su momento, en las entrevistas que quien suscribe realizó para elaborar el reporte independiente de avances del primer plan de acción de gobierno abierto de Perú (2012-2013). En esa oportunidad, una mesa de trabajo con expertos en Medioambiente señaló que “las entidades sub nacionales (gobiernos regionales y locales) emplean el argumento de la autonomía para sustentar la existencia de procesos de gestión de la información heterogéneos. El hecho que existan reglas generales emitidas desde el gobierno central y tendientes a la homogenización no ha sido impedimento para constatar realidades heterogéneas dentro de la administración”[1]. Y otras entrevistas con investigadores arrojaron que “es aún dificultoso dentro de la propia administración contar con información confiable para tomar decisiones, dado que no es común aún que las entidades puedan exhibir una certificación de sus procesos de generación de la información”[2].

En conclusión, la regla que debe seguir todo aquel que pretenda trabajar con bases de datos -por lo menos las de origen ‘estado peruano’-, para asegurarse de su calidad, es la confrontación con otras bases de datos. El doble control es necesario para no poner en riesgo los resultados de cualquier tipo de investigación.

 

[1] Informe de avance del plan de acción de gobierno abierto de Perú 2012-2013, p. 121. http://www.opengovpartnership.org/sites/default/files/Peru-Final-2012-Web_0.pdf

[2] Idem.

 

@javiercasas

¿Desea comentar este documento?

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s