Busqueda y procesamiento de los datos

En esta etapa los equipos emprenderán la búsqueda de los conjuntos de datos necesarios para cumplir la implementación de la Guía y el consecuente armado del SIC. Es necesario usar fuentes de datos oficiales, en la medida de los posible, públicas, pero también es posible que sea necesario gestionar la publicación de algunos conjuntos de datos que se hayan identificado pero que se encuentren bajo el resguardo de entes públicos. Para ello se recomienda ayudarse del equipo promotor dentro del gobierno para lograr la gestión de la entrega de los conjuntos de datos. Se recomienda que los conjuntos de datos se guarden en un repositorio compartido de tal manera que otros equipos puedan verlos y revisarlos, y que el control de los archivos se lleve mediante una hoja de cálculo que sea una copia de la compartida en esta liga.

Después de la obtención de los conjuntos de datos a conformar el SIC, el equipo de analistas de datos se encargará de limpiar, procesar y agregar la información de los conjuntos de manera que pueda estar listo para su consulta. La liga de los conjuntos contiene una sugerencia del cómputo de cada indicador (i.e. Para el indicador "Promedio de alumnos y alumnas matriculados del nivel inicial y preescolar de la modalidad inicial del sector público por unidades educativas", la definición operativa es el "Cociente de la sumatoria del matriculado y la cantidad de unidades educativas del sector público").

Conjuntos de datos a utilizarse

Dentro de la Guía de Apertura para el Sector de los Cuidados, la lista de indicadores incluye una columna relativa a la fuente de datos sugerida a utilizarse. Dicha columna, describe de manera abstracta una posible fuente de datos desde la que el indicador podría elaborarse y procura describir conjuntos de datos que los países publican mediante sus oficinas nacionales de estadística. Sin embargo, para algunos conjuntos de datos, será necesario buscar completar el indicador por medio de distintas fuentes según la división de atribuciones de los distintos niveles de gobierno. Por ejemplo, para identificar la totalidad de los programas sociales, y luego aquellos destinados a los cuidados, podrá ser necesario ubicar las bases de datos de origen nacional.

Sobre el procesamiento adecuado de los conjuntos de datos

Sobre los conjuntos de datos, según el estado en el que se encuentren, será necesario que tengan un mayor o menor nivel de procesamiento. Idealmente los conjuntos de datos tendrán características descritas en paper seminal Tidy Data por Hadley Wickham, creador del lenguaje R. En resúmen, los conjuntos de datos deberían tener las siguientes características para ser utilizados en el sistema de indicadores:

  • Publicar en un formato .csv.

  • Estar disponibles en un formato tabular.

  • Que dicho formato contenga como primera fila los nombres de las columnas.

  • Que los nombres de las columnas no contengan espacios ni caracteres especiales. Se recomienda una nomenclatura para las columnas de tipo snake_case (minúsculas, sin caracteres especiales, acentos, o letras ñ, sin espacios, y utilizando un símbolo de guión bajo para denotar espacios).

  • Que los datos para las columnas se encuentren normalizados, en el caso de los datos categóricos. Por ejemplo, para una columna con valores positivos y negativos utilizar el mismo tipo de valor en todas las respuestas, ejemplo: "Sí" y "No" en lugar de "Sí", "si", "sí", "Si", "1", "verdadero", etc.

  • En el caso de que se nombren demarcaciones territoriales, normalizarlas en todos los casos. Por ejemplo, si en varios conjuntos de datos hay una columna que describa los nombres de las municipalidades, procurar usar una sola lista maestra de nombres, para evitar nombres distintos en todos los conjuntos. Por ejemplo, para "Buenos Aires", procurar usar exactamente el mismo nombre en lugar de "B.A." "BsAs" etc.

  • Poner especial atención a los campos de datos que representen valores nulos. Un valor nulo es un valor que no fue contestado e idealmente se representa del mismo modo en todos los conjuntos del SIC. Un valor como N/A (no aplica) es distinto de un valor nulo (null, nil).

Last updated