COLOMBIA - Evaluación de impacto de la Formación Profesional Integral FPI ofertada por el SENA-2023
ID de Referencia | DNP-FPISENA-2023 |
Año | 2023 |
País | COLOMBIA |
Productor(es) | DNP |
Colección(es) | |
metadata |
![]() |
Creado el | Aug 28, 2024 |
Última modificación | Aug 28, 2024 |
Visitas a la página | 19622 |
Descargas | 78 |
- Materiales Relacionados
- Descripción de la operación estadística
- Diccionario de Datos
- Obtener Microdatos
Muestreo
Procedimiento de muestreo
a) Marco muestral
Para la conformación del marco, inicialmente, en el período 2016-2022 se identificaron 15.883.646 registros en la base de datos Sofia Plus. De estos, 1.227.313 (registros) hacen parte del programa de articulación con la media, los cuales fueron excluidos (7,73%). Luego, se realizó el cruce con la información de ubicación y contacto, en el módulo de registro del aspirante, de la misma base. Así, se identificaron las personas con residencia en el exterior, en Colombia y con información no válida (MPO_ID_RESIDENCIA), para su exclusión. Posteriormente, en el caso de los registros que no tienen información de residencia en Sofia Plus, se cruzaron con la información de Sisbén para completar la información de "MPO_ID_RESIDENCIA". Con base en la variable "MPO_ID_RESIDENCIA", se identificó el municipio de ubicación para la estratificación de los registros cuya ubicación está en Colombia.
Luego, se exploraron variables sociodemográficas para caracterizar las personas que conforman el marco, teniendo al final información de: sexo (DBU_GENERO) y grupo etario (DBU_FCH_NACIMIENTO). Aunque las bases de Sofia Plus cuentan con una variable de grupo étnico (UBU_GRUPO_ETNICO), no se encontraron datos al respecto registrados. Por último, se utilizaron variables de zona para caracterizar la población en urbano y rural con Sisben IV dado que este dato es un faltante de información en Sofia Plus.
Finalmente, la información relacionada con las personas objeto de estudio por municipio fue agregada para la selección de estos y al interior, se seleccionaron las personas según grupo de estudio.
b) Tipo de muestreo
La estrategia muestral probabilística definida fue: estratificada (en dos niveles), bietápica y de elementos (personas), con selección de UPM's (municipio) y UFM's (Tto o Ctrl), a través del diseño Muestreo Aleatorio Simple y algoritmo de selección Coordinado Negativo,es decir, EST (UPM) - MAS (UPM)- EST (por tipo de formación para Tto y por definir para Ctrl) - MAS (Tto o Ctrl).
Para la agrupación (estratos) de las UPM (municipios) con base en la información disponible para el grupo tratamiento, de beneficiarios FPI, se implementó el método de estratificación de Lavallée, P. and Hidiroglou, M.A. (1988) y el algoritmo de Kozak, M. (2004), implementado en el software libre R versión 4.1.1 por Baillargeon, S. and Rivest, L. (2014) en la librería stratification y la función strata.LH, el cual define, en este caso, los estratos en función del total de beneficiarios, de tal forma que el coeficiente de variación (CV) dentro de cada uno sea menor a un valor determinado. Se construyeron 12 estratos para las UPM. Para la selección de las unidades de muestreo se utilizó el método Muestreo Aleatorio Simple sin reemplazamiento y el algoritmo Coordinado Negativo.
c) Definición del tamaño de la muestra
Para la estimación del tamaño mínimo de muestra en el nivel de las U.F.M (personas por grupo de estudio) se utilizó una simulación, en la cual se consideró un parámetro trazador tipo proporción (P=50 %) generado a partir de una variable aleatoria con distribución Bernoulli de parámetro 0.5; así, se estimó el error estándar, el coeficiente de variación y el margen de error, a través de la técnica bootstrapping (Särndal, Swensson, & Wretman, 2002), bajo la restricción (error mínimo esperado por tipo de población de estudio) con base en 5.000 réplicas. De esta manera, se realizaron 1.550 encuestas tratamiento y 1.500 encuestas control en 120 municipios.
Desviaciones del diseño muestral
Se seleccionaron 21.493 registros, de los cuales el 54,1 % (11.623) no fueron contactados efectivamente por deficiencias en la calidad de los datos de localización (dirección o teléfono) contenida en el marco de muestreo aprobado, a pesar de haber complementado la fuente principal (Sofía Plus período 2016-2022), con otras alternativas como el Sisbén IV con corte a enero de 2023. Ahora, de los que sí se contactaron (9.870 que representan el 45,9 %) se encuestaron el 31,83 % (3.142). Por último, de los 3.142 encuestados, 1.596 son personas del grupo tratamiento y 1.546 del grupo control.
La no respuesta, en relación con los no contactados efectivamente se debió a que los campos de ubicación, localización y contacto no se encuentran validados debidamente en las fuentes secundarias que se utilizaron para construir el marco de muestreo (Sofia Plus del SENA y Sisben IV del DNP). Ahora, en el caso de los que sí se contactaron, es decir, del 45,21 % (8.451) la pérdida observada (del 63,32 %) se debió, en orden de importancia, principalmente a: i) personas por fuera del universo de estudio; ii) cambio de municipio; iii) ausente; iv) ocupado; v) rechazo.
Por otra parte, para el ajuste de los factores de expansión, se implementó la técnica de ajuste por no repuesta a partir de la construcción de una serie de modelos de propensión, con base en información auxiliar (variables explicativas) incluidas dentro de los registros administrativos citados. Especificamente, se desarrolló un código en R versión 4.1.1, iniciando con un análisis exploratorio de las variables antes citadas y con base en esto, se definieron los siguientes modelos: i) logístico sin tener en cuenta la multicolinealidad (M.log); ii) saturado (M.full); iii) usando selección de variables (M.step); iv) usando penalización Lasso (M.lasso) v) y por último, se definió un modelo de clasificación Random Forest (M.Rf), el cual hace parte de la metodología de Statistical Learning, usando validación cruzada para elegir los parámetros que optimicen el AUC de la curva ROC. Para lo anterior se tuvo un modelo de entrenamiento utilizando el 80% de los datos y manteniendo la misma distribución de la variable respuesta en el modelo de entrenamiento y de prueba (14,6% respondientes y 85,4% no respondientes). Al respecto, no fue necesario considerar otro escenario de distribución para la variable respuesta dado los resultados observados.
Las bondades de los modelos se analizaron con base en el cálculo del accuracy, así como los porcentajes de falsos positivos y falsos negativos, considerando las matrices de confusión con un punto de corte de 0.5. Adicionalmente, a partir de la curva ROC de los modelos, y usando el conjunto de prueba, se concluyó que el mejor modelo es M.Rf seguido de M.step ya que maximizan el área bajo la curva. En consecuencia, se escogió el modelo M.Rf (área RC igual a 0,76).
Finalmente, se utilizó la técnica de calibración con base en los tamaños absolutos por estrato de UPM y zona, de manera independiente, por grupo de estudio, y la técnica de "suavizamiento" para corregir los valores atípicos de los factores de expansión como resultado de la calibración.
Tasa de respuesta
/*ESTE ÍTEM SE REDACTA CON BASE EN EL PRODUCTO 4,GENERACIÓN DEL PROCESAMIENTO A PARTIR DEL DOFILE GENERADO*/
A partir del diseño muestral probabilístico implementado se generó un .do file para realizar el procesamiento d elos resultados. Este código tiene la siguiente estructura:
/* Factores finales */
*Se invoca el archivo con los factores.
/* Archivo microdatos */
*Se invoca en archivo con los microdatos.
/* Definición Diseño Muestral */
svyset COD_DANE [pweight= FactorFinalSuavizado], fpc(N_estrato) strata (ESTRATO) singleunit(certain) || NIM, fpc(N_postestrato) strata (POSTESTRATO)
/*Dominios de estimación
*----------------------------------
* Nacional *
*----------------------------------
svy, vce(linearized): proportion M1_105
*----------------------------------
* Nacional X Grupo *
*----------------------------------
*estimaciones
svy, vce(linearized) over(GRUPO) : prop M1_105
*----------------------------------
* Nacional X Subgrupo *
*----------------------------------
*estimaciones
svy, vce(linearized) over(SUBGRUPO) : prop M1_105
*----------------------------------
* Nacional X Zona *
*----------------------------------
* Zona y subgrupo numérico
generate double DOMINIO_NUM = 1 if GRUPO == 1 & M1_113 ==1
replace DOMINIO_NUM = 2 if GRUPO == 1 & M1_113 ==2
replace DOMINIO_NUM = 2 if GRUPO == 1 & M1_113 ==3
replace DOMINIO_NUM = 3 if GRUPO == 2 & M1_113 ==1
replace DOMINIO_NUM = 4 if GRUPO == 2 & M1_113 ==2
replace DOMINIO_NUM = 4 if GRUPO == 2 & M1_113 ==3
*estimaciones
svy, vce(linearized) over(DOMINIO_NUM) : prop M1_105
Expansores / Ponderadores
Los factores fueron construidos con base en el diseño muestral probabilístico implementado, según la estratificación, las etapas de muestreo y los métodos y algoritmos utilizados. Estos, fueron ajustados por la no respuesta observada, calibrados y suavizados.
Especificamente, la inclusión de reemplazos para mitigar las causas de no respuesta y garantizar los tamaños mínimos de muestra comprometidos en el nivel de los principales dominios de análisis se realizó siguiendo la metodología planteada para este fin en el producto 1- Informe metodológico. Es decir, a partir del “ordenamiento” del algoritmo de selección aleatoria Coordinado Negativo con base en la semilla establecida en el acta de inicio del contrato, se fueron incluyendo las UFM (personas) según la necesidad. Lo anterior, se realizó a partir de un seguimiento exhaustivo a través de un tablero de visualización (reportes de monitoreo) en el que se identificaban las causas de pérdida de manera diferencial por UPM (municipio), zona (urbano y rural) y por grupo (beneficiarios y controles) así como los avances en cuanto a las metas de cobertura. La información del tablero de visualización se actualizaba en tiempo real y el CTS tuvo acceso durante todo el operativo de campo. La finalidad de este procedimiento era la de anticipar acciones preventivas para lograr el balance (distribución) de los tamaños según los niveles de desagregación comprometidos para el análisis inferencial de resultados, lo cual se logró.