Colombia - Realizar una evaluación de operaciones y de resultados de la Política de Reintegración Social y Económica de Desmovilizados, que identifique la manera como las personas desvinculadas y desmovilizadas de grupos armados Ilegales se vinculan a la socied
ID de Referencia | DNP-DSEPP-REINTEGRACION-2017 |
Año | 2017 - 2018 |
País | Colombia |
Productor(es) | Departamento Nacional de Planeación - DNP |
Colección(es) | |
metadata |
![]() |
Creado el | Jul 30, 2019 |
Última modificación | Jul 30, 2019 |
Visitas a la página | 238216 |
Descargas | 686 |
- Materiales Relacionados
- Descripción de la operación estadística
- Diccionario de Datos
- Obtener Microdatos
Muestreo
Procedimiento de muestreo
A) Marco Muestral
El marco muestral es el dispositivo que permite identificar y ubicar a todos los elementos de la población.
Para la selección de las UPM´s y las USM's de la muestra de interés en el estudio se utilizará el marco de lista conformado por el inventario de personas desmovilizadas que en algún momento hicieron parte de la PRSE y que ahora se encuentran clasificados como "en proceso" o "culminado" según lo establecido por la Agencia para la Reincorporación y la Normalización (ARN, antes conocida como la Agencia Colombiana para la Reintegración ACR) con identificación, lugar de ubicación y dirección.
Estrategia de obtención: El DNP será quien suministre estos marcos de muestreo o la Agencia para la Reincorporación y la Normalización (ARN).
B) Tipo de Muestreo
El tipo de muestreo es probabilístico, estratificado y bietápico de elementos. El muestreo es probabilístico debido a que las unidades de muestreo en cada una de las etapas tienen una probabilidad conocida y mayor que cero de ser seleccionadas. Es estratificado porque se consideran particiones poblacionales, definidas como conjuntos de elementos cuya unión conforma el universo, que no se traslapan y donde todos son diferentes de vacío, esto tratando de lograr homogeneidad dentro de ellas y heterogeneidad entre ellas. La estratificación se realizará a nivel de municipio con base en el número de desmovilizados que allí residan y que ahora se encuentran clasificados "Ausente - Privado de libertad", "Ausente - No privado de libertad", "Fuera del proceso - Privado de libertad" o "Fuera del proceso - No privado de libertad" en el programa establecido por la Agencia para la Reincorporación y la Normalización
La selección de municipios se realizará de forma independiente dentro de cada estrato obtenido por el algoritmo de Lavallée - Hidiroglou generalizado a través de un muestreo ppt, lo que corresponde a la primera etapa del diseño. La segunda etapa será la selección de los hombres y mujeres desmovilizados que en algún momento hicieron parte de la Política Nacional de Reintegración Social y Económica para Personas y Grupos Armados Ilegales a través de un muestreo aleatorio simple (MAS) dentro de cada estrato natural considerado en la primera población objetivo, es decir, un MAS dentro de los desmovilizados clasificados como "Ausente - Privado de libertad", "Ausente - No privado de libertad", "Fuera del proceso - Privado de libertad" o "Fuera del proceso - No privado de libertad" según la Agencia para la Reincorporación y la Normalización (ARN).
Así, de forma general, el primer diseño de muestra que está propuesto para la menciona población de interés es un Estratificado ppt para la primera etapa y Estratificado MAS para la segunda
Las unidades primarias de muestreo (UPM) corresponden a los municipios del país donde residen los desmovilizados que en algún momento hicieron parte de la Política Nacional de Reintegración Social y Económica para Personas y Grupos Armados Ilegales (PRSE).
Las UPM son estratificadas mediante el método para la construcción de estratos del algoritmo generalizado de Lavallée - Hidiroglou utilizando como variable auxiliar el número total de desmovilizados clasificados como "en proceso" o "culminado" según la Agencia para la Reincorporación y la Normalización (ARN). Dentro de cada uno de los estratos identificados se aplica un diseño PT con probabilidad proporcional al número total de desmovilizados clasificados como "en proceso" o "culminado". Se utiliza el algoritmo generalizado de Lavallée - Hidiroglou (LH) porque permite determinar simultáneamente la muestra mínima, los límites de los estratos y la asignación de la muestra cumpliendo con un nivel especificado de precisión estadística. El algoritmo fue implementado por medio de la función strata.LH del paquete stratification del software estadístico R el cual por defecto utiliza la metodología propuesta por Kozak (2004).
La selección de municipios en cada estrato se realiza con el algoritmo de selección de Sunter - detallado en Gutiérrez (2009) y Särndal (1992) - empleando la función S.piPS del paquete TeachingSampling de R. Särndal (1992) asegura que la utilización de este diseño en la primera etapa contribuye a la reducción de varianza de los estimadores para los parámetros de interés (totales, razones, promedios y proporciones). El DNP sugiere para este estudio seleccionar un mínimo de 18 UPM's (página 31 del pliego de condiciones definitivo) para el grupo de culminados y en proceso. Se determina el tamaño de muestra de municipios dentro de cada estrato de acuerdo a la asignación muestral de potencia.
Las unidades secundarias de muestreo (USM) corresponden a los desmovilizados clasificados como "en proceso" o "culminado". Las USM´s se obtienen empleando el algoritmo de Fan-Muller & Rezucha (algoritmo para selección de unidades en un MAS) dentro de los estratos definidos en cada uno de los grupos de interés definidos el pliego de condiciones para el concurso de méritos abiertos No. CM-002-17. Este algoritmo se encuentra descrito en detalle en Gutiérrez (2009) y puede ser implementado en diferentes funciones de R como por ejemplo la función S.SI del paquete TeachingSampling.
C) Definición del tamaño de la muestra
1. Cálculo del tamaño de muestra, tamaño de muestra en cada etapa y estrato y, generación de escenarios de tamaño de muestra
En la página 31 del pliego de condiciones se menciona: se espera que se realicen una muestra probabilística para el grupo de culminados y en proceso, de mínimo 589 encuestas a personas en mínimo 18 municipios. Se debe garantizar un nivel de confianza del 95% con un margen de error o coeficiente de variación de máximo el 5% para el nivel general de cada grupo y deben estar estratificadas de acuerdo con la Tabla 10.
En la muestra, las UPM son estratificadas mediante el método para la construcción de estratos del algoritmo generalizado de Lavallée - Hidiroglou utilizando como variable auxiliar el número total de desmovilizados clasificados. Dentro de cada uno de los estratos identificados se aplica un diseño PT con probabilidad proporcional al número total de desmovilizados; la selección de municipios en cada estrato se realiza con el algoritmo de selección de Sunter.
Tabla 13. Resultado del algoritmo generalizado de Lavallée - Hidiroglou en la segunda muestra
Estrato bh E(Y) Var(Y) Nh nh
1 7.5 2.96 3.67 381 1
2 20.5 12.76 12.19 204 1
3 54.0 31.72 79.03 165 2
4 152.5 89.30 620.71 76 3
5 369.5 242.17 3856.31 24 2
6 734.5 505.00 6139.86 14 2
7 5062.0 1976.33 2376800.22 9 9
Total 873 20
Cve 4.71%
Fuente: elaboración propia
Se dejan 7 estratos dado que es la cantidad optima de los mismos para garantizar un coeficiente de variación inferior al 5% y visitar al menos 18 municipios por muestra como se menciona en los términos de referencia. Nuestra propuesta consiste en muestrear 20 municipios en el grupo poblacional (desmovilizados clasificados como "en proceso" o "culminado" para la segunda). No se toman 6 estratos dado que el coeficiente de variación aumenta a 5.21% y la cantidad de municipios a visitar asciende, y tampoco 8 estratos porque requeriría visitar tan solo 17 municipios.
Para las unidades secundarias de muestreo se utiliza para el cálculo del tamaño de muestra la fórmula para una proporción siguiendo la sugerencia del DNP (pág. 32 de los pliegos de condiciones):
Se calcula en la simulación presentada en el anexo 1 un cálculo para estimar el deff de la estrategia de muestreo propuesta y verificar si es posible usar el tamaño de muestra sugerido por el DNP y así garantizar la medida de precisión (CV) del 5%.
El diseño muestral al ser estratificado en la primera etapa y al llevarse a cabo un diseño proporcional al tamaño considerando el número de desmovilizados por grupo poblacional como variable auxiliar gana una notable precisión para el parámetro de interés, que para el caso de la simulación es una proporción. De acuerdo con el programa presentado en el ANEXO 1 y cuya metodología se explica en la sección sobre la justificación del efecto de diseño, resulta razonable tomar en la fórmula anterior un efecto de diseño(deff) de 1.5. Además, el tamaño muestral obtenido al utilizar este efecto de diseño, una proporción del 50% (para maximizar el tamaño de muestra) y garantizar un coeficiente de variación máximo del 5% (máximo valor del pliego de condiciones) coincide con el mínimo tamaño de muestra sugerido por el DNP en el pliego de condiciones.
A continuación, se presenta el ejercicio del cálculo del tamaño de muestra requerido para la población objetivo (grupo de desmovilizados en estado "en proceso" o "culminado"). Empleando la ecuación anterior y el tamaño de la primera población objetivo N = 30595, con un P = 0.5, cve = 0.05 y un deff de 1.5, se puede calcular el tamaño de muestra empleando el software estadístico R:
> ### Muestra de desmovilizados para el grupo poblacional ###
>
> p <- 0.5
> cve <- 0.05
> deff <- 1.5
> N = 30595
>
> exprex1 <- p*(1-p) * deff
> exprex2 <- (p*cve)^2
> exprex3 <- (p * (1-p) * deff )/ N
> n_tammue <- ceiling(exprex1 / (exprex2 + exprex3))
> n_tammue
[1] 589
Los escenarios de tamaños de muestra se simularon para distintos coeficientes de variación y se presentan en la siguiente tabla.
Tabla. Escenarios de tamaños de muestra para la segunda población objetivo simulando diferentes cve
Cve Tamaño de muestra
0,02 3341
0,03 1581
0,04 910
0,05 589
0,06 412
0,07 304
0,08 233
0,09 185
0,1 150
Fuente: elaboración propia
De los resultados observados en la tabla anterior y con el objetivo de cumplir con las especificaciones definidas en el pliego de condiciones se propone como tamaño de muestra en el primer grupo una muestra de 589 desmovilizados. Se utilizó el siguiente código en el software estadístico R:
> tam <- function(Cve){
+ exprex1 <- p*(1-p) * deff
+ exprex2 <- (p*Cve)^2
+ exprex3 <- (p * (1-p) * deff )/ N
+ n_tammue <- ceiling(exprex1 / (exprex2 + exprex3))
+ n_tammue
+ }
> tam(0.02); tam(0.03); tam(0.04); tam(0.05);tam(0.06); tam(0.07); tam(0.08); tam(0.09); tam(0.1)
2. Justificación del efecto diseño (DEFF)
Se realizó un estudio de simulación para establecer bajo la estrategia de muestreo propuesta y los tamaños de muestra sugeridos por el DNP, el efecto diseño (deff) para estimar la proporción poblacional.
Para estimar el efecto de diseño se utilizó la base de datos de desmovilizados disponible para el concurso de méritos abiertos No. CM-002-17. La población objetivo corresponde al total de desmovilizados que actualmente están en proceso o que culminaron el programa de reintegración establecido por la Agencia Colombiana para la Reintegración (ACR) para implementar la Política Nacional de Reintegración Social y Económica para Personas y Grupos Armados Ilegales (PRSE). Según el pliego de condiciones, el total de desmovilizados clasificados como "en proceso" o "culminado" es de 30595 y la cobertura geográfica está dada por los 825 municipios del país donde residen las personas con esta clasificación en la base de datos disponible para el concurso de méritos abiertos No. CM-002-17.
Posteriormente se utilizó el algoritmo de Lavalle-Hidroglou utilizando como variable de estratificación el número de desmovilizados por municipios según los grupos (estratos naturales) definidos en cada una de las poblaciones objetivo del estudio. Se especificó en el algoritmo que se estratificaran los municipios de tal forma que se obtengan los 18 municipios sugeridos por el DNP en el pliego de condiciones para cada uno de los diseños de muestreo independientes.
Posteriormente se siguió el plan de muestreo propuesto con el fin de estimar la varianza del diseño. Con el paquete survey a través de la función svydesign y svymean(, deff=T) se estima el efecto de diseño
para un estimador de la proporción suponiendo la simulación de una variable con distribución bernoulli con valor esperado de 0.5 y se realizan 1000 repeticiones.
Tras la realización de 1000 repeticiones se obtuvo una estimación del efecto diseño de 1,46, además se obtuvo que las estimaciones garantizan estimaciones con un coeficiente de variación menores del 5%.
En el ANEXO 1 se presenta el script desarrollado para una repetición utilizando el software estadístico R.
3. Método de asignación de tamaño de muestra por estrato
En el presente proyecto la asignación de muestra del número de desmovilizados a ser seleccionados en el i-ésimo municipio contenido en el estrato h y g-ésimo estrato de desmovilizados (), se realizó por medio de una afijación de potencia con . La expresión utilizada fue la siguiente:
donde es número total de desmovilizados (según grupos poblacionales definidos en el pliego de condiciones) en el i-ésimo municipio contenido en el estrato h y g-ésimo estrato de desmovilizados según población objetivo y donde que está dada por la siguiente expresión
Y corresponde al número de desmovilizados a ser seleccionados en el i-ésimo municipio contenido en el estrato h, siendo es número total de desmovilizados en el i-ésimo municipio contenido en el estrato h y número de desmovilizados a ser seleccionados en el estrato h. Los estratos naturales g corresponden a las subpoblaciones de los desmovilizados clasificados como "en proceso" o "culminado" según la Agencia para la Reincorporación y la Normalización (ARN).
4. Porcentaje de sobremuestra.
En la reducción de la no respuesta se establecen las siguientes técnicas:
Capacitación:
· Rigurosidad y pertinencia de la capacitación a los encuestadores y supervisores que estarán en campo recolectando la información.
· La continua interacción del coordinador de campo y el departamento de estadística permitirán que la ejecución de campo cumpla estrictamente los lineamientos del diseño muestral.
Revisitas:
· En aquellos municipios donde la persona seleccionada no se encuentre en el momento de la visita del encuestador, se realizarán hasta tres revisitas y posteriormente se intentará contactar telefónicamente a dichas personas con el fin de concretar una cita.
Sobremuestra:
· Con el fin de afrontar la no respuesta después de realizados los esfuerzos iniciales, se plantea una sobremuestra del 10% que garantice que se cumpla el tamaño de muestra mínimo calculado. La selección de la sobremuestra sigue los mismos lineamientos muestrales definidos en este documento para la selección de la muestra.
De esta manera, el tamaño de muestra definitivo con sobremuestra para el diseño es de 648 encuestas.
Desviaciones del diseño muestral
1. Metodología para selección de remplazos.
Si se presenta pérdida de Unidades Primarias de Muestreo (municipios), por ejemplo, por recomendaciones de seguridad de las autoridades locales de no ingresar al municipio, el Centro Nacional de Consultoría elevará al DNP el requerimiento de reemplazo.
En el caso de los desmovilizados (Unidades Secundarias de Muestreo), el proceso de selección de la muestra y de la sobremuestra será simultáneo y sigue estrictamente los lineamientos del diseño muestral elegido; desde el departamento de Estadística se generará la muestra, incluyendo la sobremuestra e indicando al supervisor de campo el orden de abordaje; se le enfatiza que puede usar la sobremuestra, sí y solamente sí, se han agotado los de la muestra inicial y se han agotado las revisitas o porque es imposible ingresar por temas de inseguridad u orden público.
b. Estrategia estadística en caso de llegar a presentarse ausencia de respuesta no ignorable
Generalmente en una investigación por muestreo se presentan dos tipos de no respuesta: una es cuando la persona seleccionada se niega a responder algunas preguntas del cuestionario, la otra es cuando hay imposibilidad de levantar toda la información del cuestionario por cualquier razón. El primer tipo de no respuesta se puede solucionar a través de métodos de imputación que buscan asignar información plausible a las variables no levantadas en campo, usando la información de individuos similares. La mayoría de textos de análisis de datos presentan los métodos de imputación con sus ventajas y desventajas; lo más importante es controlar adecuadamente los niveles de no respuesta, pues se aconseja que los datos imputados no tengan una tasa alta.
Särndal y Lundström (2005) muestran diferentes métodos para el tratamiento de la no respuesta, donde además se enfatiza en los supuestos para poder llevar a cabo este tipo de procedimientos de imputación de datos entre los cuales se destaca que el esquema de datos faltantes sea aleatorio. El tratamiento de la no respuesta implicará el uso de estimadores de calibración, como información auxiliar se considerará el total de desmovilizados por grupo definido en el pliego de condiciones (total de desmovilizados clasificados como “en proceso” o “culminado”) y demás parámetros disponibles para este grupo poblacional, si es posible.
Se utilizan los estimadores de calibración para el ajuste de los factores de expansión bajo información faltante (Särndal y Lundström 2005, capítulo 8). Se considera como vector de información auxiliar , donde y
Como pesos finales se consideran:
Con , donde
En esta expresión se tiene:
,
Con , que es el conjunto de individuos de la
muestra que responden la encuesta (conjunto de respondientes).
La estimación del total calibrado se calcula como:
Para implementar los estimadores de calibración se utilizará la función calibrate del paquete survey.
Son varios los autores que han propuesto diferentes procedimientos para tratar la no respuesta, existen diversos paquetes en R, métodos en SPSS, STATA y en otros paquetes estadísticos. Por ejemplo, en el software R los paquetes MissMDA, mice, statmatch, hotdeck, amelia II, mitools entre otros. Sin embargo, el propósito debe ser siempre garantizar que el método que se utiliza es apropiado y se ajusta bien al esquema de no respuesta del estudio. Por esta razón se propone realizar una prueba usando una muestra de entrenamiento con la cual se genera el modelo de imputación, se deja una muestra de comprobación donde no se tenga valores faltantes, con esta se calcula la tasa de error aparente con el fin de identificar si el modelo de imputación es apropiado o haciendo pruebas de hipótesis sobre la distribución de los datos sin imputar e imputados.
Para el tratamiento de la no respuesta, como se mencionó, se puede usar la función mice del paquete de R con el mismo nombre, considerando el método que viene por defecto, el método de predicción de emparejamiento por la media (Predictive mean matching). Los detalles de este método de imputación se describen en (Van Buuren, 2012).
En el segundo tipo de no respuesta, se da cuando la sobremuestra generada no logra cubrir la no respuesta y esta se considera no ignorable por las características de las unidades finales de muestreo que no respondieron, se debe llevar a cabo un ajuste a los factores de expansión. El ajuste de los factores de expansión busca fundamentalmente evitar sesgos debidos a la no respuesta.
Tasa de respuesta
1.2.3 Estimadores
Los parámetros se definen con el fin de obtener respuestas precisas al objetivo de “Realizar una evaluación de operaciones y de resultados de la Política de reintegración social y económica de desmovilizados, que identifique la manera como las personas desvinculadas y desmovilizadas de Grupos Armados Ilegales se vinculan a la sociedad.” (Pág. 65).
a. Parámetros a estimar
Con base en las variables que se van a incluir en la encuesta y con las cuales se buscará responder a los objetivos y las preguntas orientadoras (Pág. 66, 67 y 68) se especificarán los parámetros que permitan evaluar los aspectos de interés en cada una de las poblaciones objetivo.
Total poblacional: se define como la suma de la variable de interés (y) en el universo. Se calcula mediante la siguiente ecuación:
U hace referencia al universo, a la variable de interés en el k-ésimo individuo.
Razón poblacional: se calcula como el cociente de totales, el primer total asociado a una variable de interés y, el segundo total asociado a una variable de interés z. Se calcula mediante la siguiente ecuación:
donde es el total poblacional asociado a la variable y es el total asociado a la variable z.
Promedio poblacional: se define como la suma de la variable de interés en el universo sobre el tamaño poblacional N. Se calcula mediante la siguiente ecuación:
U hace referencia al universo, a la variable de interés en el k-ésimo individuo.
Proporción poblacional: la proporción poblacional es un promedio sobre una variable dicotómica que toma el valor de 1 si el k-ésimo individuo tiene el atributo de interés y de 0 en otro caso. Se calcula mediante la siguiente ecuación:
b. Expresiones de los estimadores insesgados o aproximadamente insesgados
· Estimador insesgado de un total
Para estimar el total poblacional de una variable de interés se utiliza el estimador de Horvitz-Thompson () dado por la siguiente ecuación (Särndal, 1992):
El total anterior puede ser reescrito considerando el diseño muestral propuesto como se especifica en la siguiente expresión:
con
donde
v : denota el subíndice del estrato de municipios (construido con el algoritmo generalizado de Lavallée - Hidiroglou a partir del número de desmovilizados por municipio según la población objetivo).
v : denota el subíndice del estrato natural para los desmovilizados.
v H: denota el número total de estratos de municipios.
v G: denota el número total de estratos de desmovilizados. Los estratos naturales son los desmovilizados clasificados en “en proceso” o “culminado”.
v : muestra de unidades primarias de muestreo (municipios) seleccionadas en cada estrato h.
v : muestra de unidades secundarias de muestreo (número de desmovilizados por municipio según los estratos de la población objetivo) en el i-ésimo municipio contenido en el estrato h y el grupo de desmovilizados g.
v : Probabilidad de inclusión del -ésimo municipio contenido en el estrato h.
v : total estimado de la variable de interés en el estrato h de municipios.
v : total estimado de la variable de interés en el i-ésimo municipio contenido en el estrato h y g-ésimo estrato de desmovilizados según población objetivo.
v : Número total de desmovilizados (según grupos poblacionales definidos en el pliego de condiciones) en el i-ésimo municipio contenido en el estrato h y g-ésimo estrato de desmovilizados según población objetivo.
v : Número de desmovilizados seleccionadas en el i-ésimo municipio contenido en el estrato h y g-ésimo estrato de desmovilizados según población objetivo bajo estudio.
v : variable de interés medida para el k-ésimo desmovilizado seleccionado.
· Estimador insesgado de una razón
Para obtener la estimación de una razón () se deben estimar, inicialmente, los siguientes totales: el total asociado a una variable de interés y, y el total asociado a una variable de interés z. Posteriormente realizar el cociente entre estas estimaciones, es decir:
Para el cálculo de cada uno de los totales se utilizan las mismas expresiones especificadas en el estimador insesgado de un total poblacional.
· Estimador insesgado de un promedio
Para estimar un promedio basta con aplicar las expresiones para estimar una razón considerando , es decir, . Por tanto, la estimación del promedio se estima como sigue:
,
en donde y . Tanto como son estimaciones de totales. Para estimar estos totales son utilizadas las expresiones detalladas anteriormente para estimar un total poblacional.
· Estimación de una proporción
Para estimar la proporción poblacional se siguen los mismos principios que en la estimación de un promedio, pero sobre una variable dicotómica que toma el valor de 1 si el k-ésimo individuo tiene el atributo de interés y de 0 en otro caso. Se obtiene la estimación de una proporción realizando la estimación del total de la variable y dividido sobre la estimación del total poblacional como se presenta a continuación:
c. Factores de expansión en cada etapa, estrato o fase
El factor de expansión de un municipio i del estrato h (UPM) es:
corresponde a la probabilidad de inclusión de primer orden del municipio i dentro del estrato h y es obtenido a partir de la implementación del diseño muestral pt al interior de cada uno de los estratos de los municipios (estos estratos son construidos a partir del algoritmo generalizado de Lavallee-Hidiroglou).
En el caso de la segunda etapa, por ser un muestreo aleatorio simple, la probabilidad de inclusión de una mujer víctima del conflicto armado perteneciente al i-esimo municipio en el estrato h (USM) está dada por la siguiente expresión:
donde es el número total de desmovilizados (según grupos poblacionales definidos en el pliego de condiciones) en el i-ésimo municipio contenido en el estrato h y g-ésimo estrato de desmovilizados según población objetivo.y corresponde al tamaño de la muestra de desmovilizados en el i-ésimo municipio contenido en el estrato h y g-ésimo estrato de desmovilizados según población objetivo bajo estudio.
Por tanto, el factor de expansión para una USM es:
d. Expresiones de estimadores insesgados o aproximadamente insesgados de la varianza de los estimadores propuestos.
v Estimación de la varianza del estimador del total
Para un muestreo de este tipo (de probabilidades desiguales, con tamaño de muestra no aleatorio, y sin reemplazo) es posible estimar la varianza del total de una variable de interés para un total poblacional mediante la siguiente expresión:
La estimación asociada al primer sumando se basa en la propuesta de Deville y Tille (2005), ver Gutiérrez (2009). puede obtenerse como sigue:
donde y corresponde al número de municipios seleccionados en el estrato h. Nótese que será una cantidad será indeterminada si , es decir, si solo se selecciona un municipio en el estrato h; por el contrario si se hace censo ( total de municipios en el estrato h) dentro del estrato la razón y así . Por lo anterior, se puede concluir que . es el total de la variable y para el municipio i-ésimo y se calcula como ya se había descrito anteriormente, es decir, a partir de la siguiente expresión
donde
el valor de corresponde a la estimación de la varianza del total de la variable auxiliar para el municipio i en el estrato h. Este valor se calcula utilizando el muestreo estratificado MAS de las unidades secundarias de muestreo empleando la siguiente ecuación:
donde
donde es la varianza de la variable de interés en el municipio i del estrato (de municipios) h y estrato g de desmovilizados. Donde con .
v Estimador de la varianza de una razón
Para estimar la varianza de una razón basta con construir la variable :
donde es la estimación de una razón es la estimación del total poblacional del denominador de la razón (). Para calcular la estimación de la varianza de una razón se utiliza la misma fórmula de estimación de la varianza del total (explicada anteriormente) pero trabajando con la variable en lugar de la variable , por lo tanto,
La estimación asociada al primer sumando se basa en la propuesta de Deville y Tille (2005), ver Gutiérrez (2009). puede obtenerse como sigue:
donde y corresponde al número de municipios seleccionados en el estrato h. Nótese que será una cantidad será indeterminada si , es decir, si solo se selecciona un municipio en el estrato h; por el contrario si se hace censo ( total de municipios en el estrato h) dentro del estrato la razón y así . Por lo anterior, se puede concluir que . es el total de la variable y para el municipio i-ésimo y se calcula como ya se había descrito anteriormente, es decir, a partir de la siguiente expresión
donde
El valor de corresponde a la estimación de la varianza del total de la variable auxiliar para el municipio i en el estrato h. Este valor se calcula utilizando el muestreo estratificado MAS de las unidades secundarias de muestreo empleando la siguiente ecuación:
donde
donde es la varianza de la variable de interés en el municipio i del estrato (de municipios) h y estrato g de desmovilizados. Donde, con .
v Estimación de la varianza de un promedio
Para estimar la varianza de un promedio se usa la misma expresión utilizada para la estimación de la varianza de una razón. Para llevar a cabo esta estimación basta con construir la variable donde es la estimación del tamaño poblacional explicada en la sección anterior. La estimación de la varianza de un promedio puede verse como un caso particular de la estimación de la varianza de una razón puesto que esta expresión es un cociente de dos totales y ). Por lo tanto,
La estimación asociada al primer sumando se basa en la propuesta de Deville y Tille (2005), ver Gutiérrez (2009). puede obtenerse como sigue:
donde y corresponde al número de municipios seleccionados en el estrato h. Nótese que será una cantidad será indeterminada si , es decir, si solo se selecciona un municipio en el estrato h; por el contrario si se hace censo ( total de municipios en el estrato h) dentro del estrato la razón y así . Por lo anterior, se puede concluir que . es el total de la variable y para el municipio i-ésimo y se calcula como ya se había descrito anteriormente, es decir, a partir de la siguiente expresión
donde
El valor de corresponde a la estimación de la varianza del total de la variable auxiliar para el municipio i en el estrato h. Este valor se calcula utilizando el muestreo estratificado MAS de las unidades secundarias de muestreo empleando la siguiente ecuación:
donde
donde es la varianza de la variable de interés en el municipio i del estrato (de municipios) h y estrato g de desmovilizados. Donde, con .
v Estimación de la varianza de una proporción
Para estimar la varianza de una proporción se usa la misma expresión utilizada para la estimación de la varianza de una razón. Para llevar a cabo esta estimación basta con construir la variable donde es la estimación del tamaño poblacional explicada en la sección anterior. La estimación de la varianza de un promedio puede verse como un caso particular de la estimación de la varianza de una razón puesto que esta expresión es un cociente de dos totales y ). Recuerde que es una variable dicotómica que toma el valor de 1 si el k-ésimo individuo tiene el atributo de interés y de 0 en otro caso. Por lo tanto,
La estimación asociada al primer sumando se basa en la propuesta de Deville y Tille (2005), ver Gutiérrez (2009). puede obtenerse como sigue:
donde y corresponde al número de municipios seleccionados en el estrato h. Nótese que será una cantidad será indeterminada si , es decir, si solo se selecciona un municipio en el estrato h; por el contrario si se hace censo ( total de municipios en el estrato h) dentro del estrato la razón y así . Por lo anterior, se puede concluir que . es el total de la variable y para el municipio i-ésimo y se calcula como ya se había descrito anteriormente, es decir, a partir de la siguiente expresión
donde
el valor de corresponde a la estimación de la varianza del total de la variable auxiliar para el municipio i en el estrato h. Este valor se calcula utilizando el muestreo estratificado MAS de las unidades secundarias de muestreo empleando la siguiente ecuación:
donde
donde es la varianza de la variable de interés en el municipio i del estrato (de municipios) h y estrato g de desmovilizados. Donde, con .
e. Detalles computacionales para la estimación de parámetros e indicadores
El software que usará para obtener las estimaciones de varianza es R; el paquete survey (Lumley, 2010) contiene funciones que permiten estimar la varianza de estimadores como totales, proporciones, razones y promedios de diseños muestrales complejos.
La función svydesign permite ingresar la información de diseño de muestreo elegido (todas las etapas de muestreo y los aspectos de estratificación). Esta función tiene programadas las fórmulas matemáticas para lograr una aproximación de la estimación de la varianza a partir de la linealización de Taylor. En esta propuesta se realizaron simulaciones para un estimador de proporción, el cual permite verificar que el tamaño muestral propuesto es suficiente para obtener estimaciones precisas a nivel nacional.
Dentro del proceso de estimación, svydesign actúa como repositorio de las características del diseño a evaluar, de forma que al momento de plantear el proceso de estimación se deben proporcionar los siguientes elementos:
· Conjunto de personas (desvinculados y desmovilizados) sobre los cuales ha sido recopilada la información de interés.
· Variable indicadora donde se enuncian los códigos de identificación (ID, Cedula, etc).
· Variable dummy o categórica en la cual se identifiquen los estratos sobre los cuales requiere representatividad de análisis el estudio (Dependiendo la muestra puede ser ausente o fuera, y culminado o en proceso).
· Un vector sobre el cual se mencionen cuáles son los factores de corrección por finitud, es decir, los factores de expansión (inverso de la probabilidad de inclusión) de cada individuo.
· Variable(s) sobre la(s) cual(es) se tiene la intención de realizar el proceso de estimación.
Una vez se haya construido el repositorio de las características de interés del análisis, se procede a emplear las siguientes funciones de acuerdo al objetivo o necesidad puntual de la estimación:
· svytotal: Función empleada si la intensión es hacer un proceso de estimación que como resultado genere la estimación de un total poblacional. Asociado al total se ve reflejado el error estándar de la estimación y el efecto diseño.
· svymean: Función empleada si la intensión es hacer un proceso de estimación que como resultado genere la estimación de un promedio poblacional. Asociado al total se ve reflejado el error estándar de la estimación y el efecto diseño.
· svyratio: Función empleada si la intensión es hacer un proceso de estimación que como resultado genere la estimación de una razón. Asociado al total se ve reflejado el error estándar de la estimación y el efecto diseño.
· svyvar: Función empleada si la intensión es hacer un proceso de estimación que como resultado genere la estimación de la varianza poblacional. Asociado al total se ve reflejado el error estándar de la estimación y el efecto diseño.
Es importante mencionar que los resultados entregados en cualquiera de los cuatro escenarios presentados previamente replican los estimadores teóricos presentados en la propuesta técnica del concurso de méritos. Sin importar cuál sea el estimador a alcanzar, las características incluidas en la función svydesign siempre deben cumplir las mismas condiciones.
Expansores / Ponderadores
Factores de expansión en cada etapa, estrato o fase
En este diseño el factor de expansión de un municipio i del estrato h (UPM) es:
corresponde a la probabilidad de inclusión de primer orden del municipio i dentro del estrato h y es obtenido a partir de la implementación del diseño muestral pt al interior de cada uno de los estratos de los municipios (estos estratos son construidos a partir del algoritmo generalizado de Lavallee-Hidiroglou). En el caso de la segunda etapa, por ser un muestreo aleatorio simple, la probabilidad de inclusión de una mujer víctima del conflicto armado perteneciente al i-ésimo municipio en el estrato h (USM) está dada por la siguiente expresión:
donde es el número total de desmovilizados (según grupos poblacionales definidos en el pliego de condiciones) en el i-ésimo municipio contenido en el estrato h y g-ésimo estrato de desmovilizados según población objetivo (“Ausente - Privado de libertad”, “Ausente - No privado de libertad”, “Fuera del proceso - Privado de libertad” o “Fuera del proceso - No privado de libertad”). corresponde al tamaño de la muestra de desmovilizados en el i-ésimo municipio contenido en el estrato h y g-ésimo estrato de desmovilizados según población objetivo bajo estudio. Por tanto, el factor de expansión para una USM es:
Factores de expansión ajustados por la ausencia de respuesta
La falta de respuesta de unidades finales de muestreo no ignorables obliga a realizar una calibración o ajuste al factor inicial calculado en el diseño, a través del cálculo de un factor de ajuste. La expresión matemática para el cálculo del factor de expansión final es:
El principal reto para la calibración del factor debido a la no respuesta es que implica disponer de información secundaria para las unidades finales de muestreo, de modo que los resultados de los que efectivamente respondieron sean extrapolables al universo; aún en el caso en que haya una fracción de éstos que inicialmente fueron seleccionados en la muestra y que no respondieron o no pudieron ser contactados.
Bautista (1998) presenta un factor de ajuste clásico para corregir defectos del marco, cobertura y de ausencia de respuesta, el cual tiene la siguiente expresión matemática
donde n es el tamaño de muestra propuesto, es la cantidad de elementos adicionales que se encuentran por defectos del marco, es la cantidad de elementos que son fueras de universo (no son desmovilizados) y es la cantidad de rechazos en la muestra.
a) Factores de expansión ajustados por la ausencia de respuesta
La falta de respuesta de unidades finales de muestreo no ignorables obliga a realizar una calibración o ajuste al factor inicial calculado en el diseño, a través del cálculo de un factor de ajuste. La expresión matemática para el cálculo del factor de expansión final es:
El principal reto para la calibración del factor debido a la no respuesta es que implica disponer de información secundaria para las unidades finales de muestreo, de modo que los resultados de los que efectivamente respondieron sean extrapolables al universo; aún en el caso en que haya una fracción de éstos que inicialmente fueron seleccionados en la muestra y que no respondieron o no pudieron ser contactados.
Bautista (1998) presenta un factor de ajuste clásico para corregir defectos del marco, cobertura y de ausencia de respuesta, el cual tiene la siguiente expresión matemática
donde n es el tamaño de muestra propuesto, es la cantidad de elementos adicionales que se encuentran por defectos del marco, es la cantidad de elementos que son fueras de universo (no son desmovilizados) y es la cantidad de rechazos en la muestra.