Horizon Nexus Journal | Vol . 0 4 | Núm . 0 1 | Ene Mar | 202 6 | www.horizonnexusjournal.editorialdoso.com ISSN: 3073 - 1275 211 Articulo Muestreo y sesgo de cobertura en encuestas virtuales: una evaluación mediante simulación estadística Sampling and Coverage Bias in Online Surveys: An Evaluation Using Statistical Simulation Luz María Quinde Arreaga 1 * , John Aníbal Herrera Rivera 2 , Marco Fernando Villarroel Puma 3 , Mariana Del Rocio Reyes Bermeo 4 y Stefania Carolina Ubillus Chicaiza 5 1 Universidad Técnica Estatal de Quevedo , Ecuador , Quevedo ; https://orcid.org/0009 - 0009 - 2306 - 4561 2 Universidad de Guayaquil, Ecuador, Guayaquil; https://orcid.org/0000 - 0003 - 3689 - 9006 ; john.herrerar@ug.edu.ec 3 Universidad Técnica Estatal de Quevedo, Ecuador, Quevedo; https://orcid.org/0000 - 0001 - 9288 - 6221 ; mvillarroel@uteq.edu.ec 4 Universidad Técnica Estatal de Quevedo, Ecuador, Quevedo; https://orcid.org/0000 - 0001 - 5100 - 2098 ; mreyes@uteq.edu.ec 5 Universidad Técnica Estatal de Quevedo, Ecuador, Quevedo; https://orcid.org/000 0 - 0003 - 1238 - 506X ; subillusc@uteq.edu.ec * Correspondencia : lquindea@uteq.edu.ec https://doi.org/10.70881/hnj/v4/n1/110 Res umen: Las encuestas virtuales se han consolidado como herramienta predominante de recolección de datos; sin embargo, su validez inferencial depende críticamente del diseño muestral y del marco de cobertura. El presente estudio evalúa el impacto del sesgo de cobertura y la autoselección en la estimación de la media poblacional mediante un experimento de simulación Monte Carlo con 1000 réplicas. Se generó una población sintética de 100 000 unidades con correlación estructural entre características sociodemográficas, acceso digital y variable de interés. Se compararon cuatro escenarios: muestreo aleatorio simple, encuesta virtual no probabilística (opt - in), muestreo estratificado digital y ajuste por ponderación postestratificada. Las métricas de evaluación incluyeron sesgo, error cuadrático medio y cobertura empírica de intervalos de confianza al 95%. Los resultados muestran que el diseño no probabilístico presenta sesgo sistemático elevado y subcobertura significativa, mientras que el muestreo estratificado digital reduce sustancialmente el error total. La postestratificación mitiga parcialmente el sesgo, pero no lo elimina bajo mecanismos no ignorables. Se concluye que la representatividad en encuestas virtuales es una propiedad del diseño y no del tamaño muestral. Palabras clave: representativi dad, encuestas virtuales, sesgo, muestreo probabilístico . Abstract: Online surveys have become a dominant data collection tool; however, their inferential validity critically depends on sampling design and frame coverage. This study evaluates the impact of coverage bias and self - selection on the estimation of the population mean through a Monte Carlo simulation experiment with 1,000 replications. A synthetic population of 100,000 units was generated, incorporating structural correlations among soci odemographic characteristics, digital access, and the outcome variable. Four scenarios were compared: simple Cita : Quinde Arreaga, L. M., Herrera Rivera, J. A., Villarroel Puma, M. F., Reyes Bermeo, M. D. R., & Ubillus Chicaiza, S. C. (2026). Muestreo y sesgo de cobertu ra en encuestas virtuales: una evaluación mediante simulación estadística. Horizon Nexus Journal , 4 (1), 211 - 228. https://doi.org/10.70881/hnj/ v4/n1/110 Recibido: 09 / 02 /20 26 Revisado: 14 / 03 /20 26 Aceptado: 16 / 03 /20 26 Publicado: 18 / 03 /20 26 Copyright: © 202 6 por los autores . Este artículo es un artículo de acceso abierto distribuido bajo los términos y condiciones de la Licencia Creative Commons, Atribución - NoComercial 4.0 Internacional. ( CC BY - NC ) . ( https://creativecommons.org/lice nses/by - nc/4.0/ )
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 1 | Ene Mar | 202 6 | www.horizonnexusjournal.editorialdoso.com 212 random sampling, nonprobability online opt - in survey, digital stratified sampling, and post - stratification weighting adjustment. Performance was as sessed using bias, mean squared error, and empirical coverage of 95% confidence intervals. Results indicate that the nonprobability design exhibits substantial systematic bias and severe undercoverage, whereas digital stratified sampling significantly redu ces total error. Post - stratification mitigates bias partially but does not eliminate it under non - ignorable selection mechanisms. The findings confirm that representativeness in online surveys is a property of the sampling design rather than sample size, a nd that increasing the number of observations does not compensate for structural bias. Keywords: Representativeness, online surveys, bias, probability sampling 1. Introducción La transformación digital de los procesos de recolecci ón de datos ha modificado estructuralmente la práctica de la investigación social, económica y administrativa durante las últimas dos décadas, intensificándose de manera notable a partir de 2020 con la expansión del trabajo remoto y la investigación mediad a por tecnologías digitales (Cornesse et al., 2020; International Telecommunication Union, 2023; Schonlau & Couper, 2017) . En este contexto, las encuestas virtuales se han consolidado como uno de los instrumentos predominantes para la obtención de inform ación empírica, debido a su bajo costo marginal, rapidez operativa y escalabilidad logística (Cornesse et al., 2020; Schonlau & Couper, 2017) . Sin embargo, esta expansión ha reactivado un debate metodológico central en estadística aplicada: la validez in ferencial y la representatividad de las muestras obtenidas en entornos digitales (Bethlehem, 2010; Cornesse et al., 2020; Elliott & Valliant, 2017) . Desde la teoría clásica del muestreo, la inferencia estadística válida hacia una población finita U={ 1,…,N} requiere que cada unidad posea una probabilidad conocida y estrictamente positiva de inclusión > 0 (Särndal et al., 2003) . Bajo un diseño probabilístico, el estimador de Horvitz Thompson para la media poblacional, = , e s insesgado en el sentido de diseño, es decir, Ε( ) = μ , donde . E sta propiedad constituye el fundamento matemático de la representatividad estadística. Cuando las probabilidades de inclusión son desconocidas o inexistentes como ocurr e en muchas encuestas virtuales de participación voluntaria el supuesto de aleatorización se vulnera y el sesgo deja de ser nulo (Elliott & Valliant, 2017) : La digitalización del levantamiento de datos no modifica estos principios fundamentales; por el contrario, introduce nuevos desafíos asociados a la cobertura diferencial y a la autoselección. Uno de los problemas estructurales más relevantes es el sesgo de cobertura, que emerge cuando una fracción de la población obje tivo carece de probabilidad de inclusión en el marco muestral digital (Groves & Lyberg, 2010) . La brecha digital entendida no solo como acceso físico a internet, sino como desigualdad en
Horizon Nexus Journal H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u habilidades, uso significativo y disponibilidad tecnológica genera una divergencia entre la población objetivo y la población efectivamente accesible ( International Telecommunication Union, 2023; Robinson et al., 2020) . Si el acceso digital d epende de características correlacionadas con la variable de in terés , la restricción del marco a ind uce un sesgo estructural incluso antes del proceso de selección muestral (Blank et al., 2018) . A este fenómeno se suma el sesgo de autoselección, característico de encuestas opt - in, donde la probabilidad de participación puede depender del propio resultado o de variables no observadas asociadas con él. En términos de teoría de datos faltantes, esta situación corresponde a un mecanismo no ignorable (MNAR), bajo el cual los métodos de ponderación o calibración solo corrigen parcialmente la distorsión si no se dispone de información auxiliar suficiente (Bethlehem, 2010; Lee & Valliant, 2009; Yang & Kim, 2020) . En consecuencia, la mera ampliación del tamaño muestral no garantiza reducción del error total cuando el sesgo sistemático domina al componente aleatorio. Este fenómeno fue formalizado por Meng (2018) en el denominado Big Data Paradox , donde gr andes volúmenes de datos pueden producir estimaciones altamente precisas, pero sistemáticamente sesgadas. Este concepto fue posteriormente ampliado mediante la noción de data defect correlation , que formaliza matemáticamente cómo pequeñas correlaciones entre la inclusión y la variable de interés pueden amplificarse en grandes bases de datos (Little et al., 2020; Meng, 2018) . Evidencia empírica reciente demuestra que encuestas masivas no probabilísticas pueden sobreestimar parámetros poblac ionales incluso cuando el tamaño muestral es extraordinariamente grande (Bradley et al., 2021; Yeager et al., 2011) . Estos resultados han motivado el desarrollo de nuevos marcos inferenciales para muestras no probabilísticas masivas (Biffignandi Silvia & Bethlehem Jelke, 2021; Wu, 2022) , enfatizando que la calidad del diseño supera al volumen de datos. La literatura contemporánea converge en un punto central: la representatividad no depende del modo de recolección (web, telefónico o presencial), sino del diseño muestral subyacente y de la estructura del marco de cobertura (Cornesse et al., 2020) . No ob stante, en la práctica investigativa actual se observa una proliferación de encuestas virtuales no probabilísticas justificadas por restricciones operativas o por la facilidad de difusión mediante plataformas digitales, fenómeno que evidencia una brecha pe rsistente entre teoría y práctica metodológica. Esta preocupación ha sido ampliamente documentada por el informe de la AAPOR Task Force on Non - Probability Sampling , el cual sistematiza las limitaciones estructurales de los diseños opt - in y advierte sobre l a imposibilidad de garantizar inferencia válida sin probabilidades conocidas de inclusión (Baker et al., 2013) . Aunque diversos estudios han comparado muestras probabilísticas y no probabilísticas utilizando datos observacionales, son menos frecuentes lo s análisis controlados que permitan aislar el efecto estructural del sesgo de cobertura bajo
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u condiciones simuladas. La simulación estadística ofrece una ventaja metodológica fundamental: permite fijar el parámetro poblacional verdadero : y evaluar directam ente el comportamiento del sesgo, el error cuadrático medio y la cobertura de intervalos de confianza bajo distintos mecanismos de generación y selección de datos. En este contexto, el objetivo general del presente estudio es evaluar formalmente las condic iones bajo las cuales una encuesta virtual puede considerarse estadísticamente representativa, integrando los fundamentos de la teoría del muestreo con evidencia empírica derivada de simulación Monte Carlo. E specíficamente , se analiza el impacto del sesgo de cobertura inducido por el acceso digital diferencial, se evalúa el efecto de los procesos de autoselección bajo mecanismos de respuesta ignorables y no ignorables, se compara el desempeño inferencial de distintos diseños muestrales aplicados en entornos digitales y se examina en qué medida las estrategias de ajuste estadístico, como la ponderación postestratificada, logran compensar las deficiencias estructurales asociadas a marcos muestrales incompletos. En síntesis, la evidencia teórica y empírica disp onible sugiere que la era digital no redefine los principios de la inferencia estadística, sino que exige su aplicación rigurosa y explícita en contextos caracterizados por desigualdades estructurales de acceso y participación. La representatividad continú a siendo una propiedad del diseño y no del volumen de datos recolectados. 2. Materiales y Métodos 2.1 Enfoque inferencial y marco teórico El estudio se desarrolló bajo el paradigma de inferencia basada en diseño (design - based inference ), donde la aleatorización proviene exclusivamente del mecanismo de selección muestral y no del modelo generador de datos (Särndal et al., 2003) . En este marco, la validez inferencial depende de la estructura probabilística del diseño y de la cobertura del marco muestral. Sea U ={1,2,…,N} una población finita de tamaño N. Para cada unidad i Ð U se define: Ü : variable continua de interés Ü : vector de covariables observables Ü : indicador de acceso digital Ü : indicador de respuesta El parámetro poblacional objetivo es: J L 5 Ç Ã Ü Ç Ü @ 5 El propósito metodológico fue evaluar el comportamiento del estimador ä ¸ bajo distintos mecanismos de selección que alteran las condiciones clásicas de: 1. Cobertura completa
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u æ 2. Probabilidades conocidas de inclu sión 3. Independencia condicional del mecanismo de respuesta 2.2 Diseño de simulación Monte Carlo Se implementó un experimento de simulación Monte Carlo con: B=1000 réplicas independientes por escenario. Esta elección garantiza estabilidad numérica del sesgo estimado, dado que el error estándar Monte Carlo cumple: 5' Ƽ L § ÏºË : Ý ; » El diseño fue estructurado en tres niveles jerárquicos: 1. Generación de población sintética 2. Modelización del acceso digital (cobertura) 3. Aplicación de mecanismos de muestreo 2.3 Generación de la población sintética Se generó una población artificial de tamaño: N=100,000 2.3.1 Variables sociodemográficas Se simularon las siguientes covariables: 5 Ü ý 0 : vr á sw 6 ; 6 Ü ý %=PACKNE?=H : 5 á 6 á 7 ; 7 Ü ý $ANJKQ H HE : r ä x ; Estas variables representan edad, nivel educativo y zona geográfica. 2.3.2 Generación de la variable de interés La variable de interés fue generada mediante un modelo estructural lineal: Ü = = 4 E = 5 5 Ü + = 6 6 Ü E = 7 7 Ü + t Ü , donde t Ü ý 0 : r á ê 6 ; Esta estructura induce correlación entre características sociodemográficas y resultado, condición necesaria para que la exclusión digital produzca sesgo estructural. 2.4 Modelización del sesgo de cobertura El acceso a internet se modeló como: Ü ý $ANJKQHHE : N ½Ü ; con : l ogit( N ½Ü ) = Ú 4 E Ú 5 5 Ü + > 6 6 Ü E Ú 7 7 Ü La población accesible digitalmente se define como: 7 ½ = {i U : & Ü =1 } Si Cov( & Ü , ; Ü ) 0 , entonces: E ( ; Ü | & Ü = 1) J , lo cual formaliza el sesgo de cobertura antes del proceso muestral.
Horizon Nexus Journal H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u 2.5 Modelización del sesgo de autoselección Dentro de la población accesible 7 ½ , la respuesta se modeló como: Ü ý $ANJKQHHE : N ËÜ ; con: l ogit( N ËÜ ) = Û 4 E Û 5 ; Ü + @ 6 6 Ü Si Û 5 ≠0 , el mecanismo e s MNAR , generando selección dependiente del resultado. Bajo este esquema: P ( 4 Ü =1 | ; Ü , : Ü ) P ( 4 Ü =1 | : Ü ) lo cual viola el supuesto de ignorabilidad condicional. 2.6 Escenarios de muestreo evaluados Se analizaron cuatro diseños. 2.6.1 Muestreo Aleatorio Simple (Referencia) N Ü = á Ç J Ý ÆºÌ = 5 Ç Ã Ü Ü Ð æ Propiedad: Ε( J Ý ÆºÌ )= μ 2.6.2 Encuesta virtual no probabilística Muestra: s = {i ϵ 7 ½ : 4 Ü = 1} Estimador: J Ý ÇÉ = 5 á Þ Ã Ü Ü Ð æ Generalmente: E ( J Ý ÇÉ ) J 2.6.3 Muestreo estratificado digital Se definieron estratos h=1,…,H según combinación de covariables. J Ý ÌÍË = Ã Û ; $ Û Á Û @ 5 donde: 9 Û = R Ó Ç Este diseño corrige composición diferencial bajo cobertura parcial.
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u 2.6.4 Ponderación postestratificada Se calcularon pesos: S Ü = R Ó l Ó y el estimador: J Ý ÉÌ = à u Ô ] Ô Ô Ð Þ Ã u Ô Ô Ð Þ La consistencia depende de: P ( 4 Ü =1 | ; Ü , : Ü ) = P ( 4 Ü =1 | : Ü ) 2.7 Métricas de evaluación Para cada réplica b : 2.7.1 Sesgo ã = 5 » à J Ü : Õ ; » Õ @ 5 F J 2.7.2 Error Cuadrático Medio ã = 5 » à : J Ü : Õ ; F J » Õ @ 5 ; 6 2.7.3 Cobertura empírica ‘˜ ã = 5 » à s < J +% : Õ ; » Õ @ 5 } 2.8 Análisis de sensibilidad Se variaron los parámetros 2 y 3 generando tres intensidades de brecha digital: 1. Leve 2. Moderada 3. Severa Esto permitió analizar la dinámica: ECM = Var ( ä ¸ ) + 5'5)1 6 , bajo distintos niveles de dependencia estructural. 2.9 Reproducibilidad La simulación se implementó en R STUDIO utilizando: survey sampling dplyr
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u replicate() Se fijó: set.seed(12345) Se documentaron todos los supuestos, garantizando replicabilidad completa. 3. Resultados La presente sección reporta los hallazgos del estudio diferenciando explícitamente entre (i) resultados derivados del análisis conceptual de la literatura y (ii) resultados empíricos obtenidos mediante simulación Monte Carlo. La evidencia cuantitativa se organiza por métrica (sesgo, error cuadrático medio y cobertura) y co ncluye con una comparación global de desempeño entre escenarios de muestreo. 3.1 Resultados conceptuales de la revisión metodológica 3.1.1 Condiciones de representatividad en encuestas virtuales La síntesis de la literatura revisada converge en que la representatividad estadística en encuestas en línea no depende del modo de recolección, sino de: (a) la existencia de un marco muestral verificable, (b) probabilidades de inclusión conocidas y positi vas, y (c) mecanismos de no respuesta compatibles con supuestos de ignorabilidad (condicional o aproximada). En consecuencia, el tamaño muestral elevado no garantiza inferencias válidas cuando el mecanismo de selección induce sesgo sistemático (p. ej., cob ertura incompleta o autoselección). 3.1.2 Sesgos dominantes: cobertura y autoselección El análisis de la literatura permitió identificar dos componentes recurrentes del error total en encuestas web : el sesgo de cobertura y el sesgo de autoselección. El ses go de cobertura ocurre cuando existe una brecha entre la población objetivo y la población efectivamente accesible digital mente . En estos casos, la exclusión no aleatoria de subgrupos ( por edad, nivel educativo, ubicación geográfica o ingreso ) implica dist orsiones estructurales en el marco muestral incluso antes de iniciar el proceso de muestreo . De manera complementaria, el sesgo de autoselección es característico de encuestas opt - in o de participación voluntaria, en las cuales la probabilidad de respuesta puede estar correlacionada con el fenómeno de interés. Cuando la decisión de participar depende de características relacionadas con la variable estudiada, se vulneran los supuestos de independencia requeridos para la inferencia estadística, comprometiendo tanto la validez de los estimadores como la cobertura de los intervalos de confianza. 3.1.3 Estrategias de mitigación reportadas en la literatura La literatura sugiere que los ajustes a posteriori (postestratificación, calibración, puntajes de propensión) (Valliant & Dever, 2011) pueden reducir desbalances observables, pero su eficacia es limitada cuando existen variables no observadas asociadas tanto a la participación como a la variable de interés. En paralelo, los diseños probabilísticos dentro de la población accesible (p. ej., estra tificación digital)
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u ı mejoran el desempeño inferencial, aunque no eliminan completamente el sesgo de cobertura si la población accesible difiere sistemáticamente de la población objetivo. 3.2 Resultados empíricos de la simulación Monte Carlo La simulación se ejecutó con B=1000 réplicas por escenario. Se compararon cuatro estrategias: muestreo aleatorio simple (MAS), encuesta virtual no probabilística (opt - in), muestreo estratificado digital y encuesta virtual ajustada por ponderación postestratificada. Las mé tricas de desempeño evaluadas fueron: sesgo, error cuadrático medio (ECM) y cobertura empírica de intervalos de confianza al 95%. 3.2.1 Sesgo del estimador de la media Los resultados muestran diferencias sustantivas en el sesgo según el mecanismo de selecc ión (Tabla 1). El MAS presentó sesgo prácticamente nulo, consistente con sus propiedades bajo cobertura completa. En contraste, la encuesta virtual no probabilística exhibió un sesgo positivo elevado, reflejando una sobreestimación sistemática del parámetr o poblacional cuando la participación no es aleatoria. El muestreo estratificado digital redujo de manera importante el sesgo respecto al escenario no probabilístico, evidenciando que controlar la composición muestral dentro del marco accesible mejora la a proximación al parámetro de interés. Por su parte, la ponderación postestratificada logró una mitigación parcial del sesgo, pero dejó un sesgo residual apreciable, coherente con el hecho de que el ajuste corrige únicamente desbalances observables. Tabla 1 Sesgo de modelos de muestreo Escenario de muestreo Sesgo Muestreo aleatorio simple (MAS) 0.03 Encuesta virtual no probabilística 2.84 Muestreo estratificado digital 0.41 Encuesta virtual ponderada 1.12 El sesgo no se reduce por “tener muchos datos”, sino por aproximarse a un mecanismo de inclusión compatible con inferencia válida. La autoselección y la cobertura incompleta dominan el error cuando se opera con diseños opt - in. Como se observa en l a figura 1, las densidades de ä ¸ obtenidas en B=1000 réplicas Monte Carlo para cada diseño: muestreo aleatorio simple (MAS), encuesta virtual no probabilística (opt - in), muestreo estratificado digital y encuesta virtual con ponderación postestratificada. La línea vertical punteada indica la media poblacional verdadera :. Un desplazamiento sistemático de la distribución respecto a : evidencia sesgo de estimación.
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u Fi gura 1 Distribución del s esgo por escenarios 3.2.2 Error cuadrático medio (ECM) El ECM integra simultáneamente sesgo y variabilidad: ECM = Var ( ä ¸ ) + 5'5)1 : ä ¸ ; 6 Los resultados en la t abla 2 evidencian el patrón esperado: el MAS registra el ECM más bajo, mientras que la encuesta no probabilística presenta el mayor ECM, lo cual indica pérdidas sustantivas de precisión total (no solo varianza). El estratificado digital logra una reducción marcada del ECM y la postestratificación obtiene mejoras intermedias. Tabla 2 Error cuadrático medio de modelos de muestreo Escenario de muestreo ECM Muestreo aleatorio simple (MAS) 0.31 Encuesta virtual no probabilística 8.96 Muestreo estratificado digital 1.12 Encuesta virtual ponderada 2.47 El ECM confirma que el costo inferencial de las encuestas opt - in no es marginal: aun cuando la varianza muestral pudiera ser pequeña, el sesgo sistemático incrementa de forma dominante el error total. 3.2.3 Cobertura empírica de intervalos de confianza (95%) La cobertura evalúa si los intervalos de confianza mantienen validez frecuentista bajo cada diseño. El MAS alcanzó cobertura cercana al nivel nominal (≈0.95). En la tabla 3 se observa como l a encuesta no probabilística presentó cobertura marcadamente inferior, indicando intervalos demasiado “optimistas” (subcobertura), típicamente
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u porque la construcción del intervalo asume aleatoriedad que no existe en diseños opt - in. El estratificado digital incrementó sustancialmente la cobertura, mientr as que la postestratificación mejoró la cobertura sin restituirla completamente al nivel nominal. Tabla 3 Cobertura de modelos de muestreo Escenario de muestreo Cobertura Muestreo aleatorio simple (MAS) 0.947 Encuesta virtual no probabilística 0.612 Muestreo estratificado digital 0.903 Encuesta virtual ponderada 0.842 La baja cobertura en opt - in implica riesgo de conclusiones erróneas: intervalos que no contienen el verdadero parámetro con la frecuencia esperada, incluso cuando aparentan precisión. Como se muestra en l a figura 2, la cobertura acumulada de los intervalos de confianza nominales al 95% conforme se agregan réplicas Monte Carlo (B=1000). La línea horizontal punteada en 0.95 indica el nivel nominal esperado. Curvas que convergen por debajo de 0.95 evidencian subcobertura (intervalos excesivamente optimistas), típica de diseños no probabilísticos cuando se aplican fórmulas de error estándar que asumen aleatoriedad. Figura 2 Cobertura empírica IC 95% por escenario 0.00 0.25 0.50 0.75 Digital_stratified Nonprob_optin Poststrat_weighted SRS Cobertura Cobertura empírica (IC 95%) por escenario
Horizon Nexus Journal H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u 3.3 Comparación global de desempeño entre escenarios Integrando sesgo, ECM y cobertura, el orden de desempeño inferencial observado fue: MAS  >  Estratificado digital  >  Ponderado postestratificado>No probabilístico Este patrón fue consistente con la lógica de la teoría del muestreo, según la cual la valid ez de la inferencia depende fundamentalmente de dos condiciones: la aleatoriedad del diseño y la calidad del marco de cobertura. Resultados similares han sido documentados en estudios recientes que integran datos probabilísticos y no probabilísticos median te estimadores doblemente robustos, los cuales combinan modelamiento estadístico y ponderación para mitigar el sesgo bajo supuestos más flexibles (Chen et al., 2020; Yang et al., 2020). En este sentido, los resultados obtenidos indican que el muestreo estr atificado digital se aproxima a la validez probabilística dentro del marco accesible y, por ello, supera claramente el desempeño de los métodos opt - in. Asimismo, la postestratificación reduce el sesgo y mejora la cobertura de los intervalos de confianza, a unque su eficacia depende de que las variables de ajuste capturen adecuadamente las fuentes reales de autoselección; cuando existen factores no observados asociados tanto a la participación como a la variable de interés, persiste un sesgo residual. Finalme nte, el enfoque no probabilístico mostró el desempeño más deficiente en las tres métricas evaluadas ( sesgo, error cuadrático medio y cobertura ) lo que sugiere que las estimaciones derivadas de este tipo de diseños pueden resultar poco confiables en ausenci a de supuestos adicionales fuertes sobre el mecanismo de selección. 3.4 Síntesis de hallazgos En conjunto, los resultados empíricos obtenidos mediante la simulación confirman varios patrones consistentes con la teoría del muestreo. En primer lugar, los dis eños no probabilísticos aplicados en encuestas virtuales generan sesgo sistemático y una reducción significativa en la cobertura de los intervalos de confianza, lo que compromete la validez inferencial de las estimaciones. En segundo lugar, los diseños pro babilísticos, incluso cuando se aplican dentro de marcos digitales parcialmente restringidos, muestran mejoras sustantivas en términos de precisión, sesgo y cobertura, lo que evidencia la importancia de preservar probabilidades conocidas de inclusión en el proceso de selección muestral. Finalmente, los ajustes estadísticos basados en ponderación, como la postestratificación, actúan como mecanismos de mitigación que pueden reducir parcialmente los efectos del sesgo, pero no constituyen sustitutos de un diseñ o muestral probabilístico con adecuado control de cobertura poblacional. 4. Discusión Los resultados obtenidos mediante simulación Monte Carlo confirman de manera consistente que el desempeño inferencial de las encuestas virtuales está determinado por el mecanismo de selección y no por el tamaño muestral per se. Este hallazgo es
Horizon Nexus Journal H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u P ( R =1 | Y, X) = P ( R =1 | X ) Cuando esta condición no se cumple, los ajustes basados en información auxiliar solo corrigen parcialmente el sesgo (Lee & Valliant, 2009; Yang & Kim, 2020) . La simulación mostró precisamente este comportamiento: la postestratificación redujo el sesgo, pero dejó un componente residual apreciable, consistente con la existencia de variables no observadas correlacionadas con la participación. Este resultado tien e implicaciones metodológicas importantes: la corrección estadística no sustituye la estructura probabilística del diseño, sino que actúa como mecanismo de mitigación bajo supuestos fuertes. 4.3 Superioridad relativa del muestreo estratificado digital El m uestreo estratificado aplicado dentro de la población accesible mostró mejoras sustantivas en sesgo, ECM y cobertura respecto al diseño opt - in. Este hallazgo sugiere que la preservación de probabilidades conocidas de inclusión, incluso dentro de marcos dig itales imperfectos, constituye una estrategia intermedia viable entre la pureza probabilística ideal y la práctica no probabilística dominante. No obstante, la mejora observada no elimina completamente las distorsiones asociadas a la brecha digital, dado q ue la representatividad final depende de la relación entre 7 ½ y U . En términos de inferencia, el diseño estratificado digital es consistente para el parámetro: 7 ½ = E(Y | D=1) , pero no necesariamente para μ si la cobertura es incompleta. 4.4 Implicaciones metodológicas para la investigación social Los resultados obtenidos tienen implicaciones metodológicas relevantes para la investigación social basada en encuestas digitales. En primer lugar, confirman que el tamaño muestral no compensa el ses go estructural asociado a diseños no probabilísticos. Si bien el incremento del tamaño de muestra reduce la varianza del estimador Var ( ä ¸ ) , no modifica el sesgo sistemático Sesgo ( ä ¸ ) , por lo que el error total puede mantenerse elevado cuando el mecanismo d e selección introduce distorsiones estructurales. En segundo lugar, los hallazgos destacan la importancia de la transparencia metodológica en estudios basados en encuestas virtuales ; e n particular, los investigadores deben explicitar con claridad la poblac ión objetivo, la población accesible, el mecanismo de selección de participantes y los supuestos bajo los cuales se aplican procedimientos de ajuste estadístico. En tercer lugar, los resultados sugieren que las estrategias de ponderación, como la postestra tificación, deben interpretarse como mecanismos de corrección parcial y no como sustitutos de un diseño muestral probabilístico. Aunque estas técnicas pueden mejorar algunas métricas inferenciales, no garantizan validez cuando el proceso de participación d epende de factores no observados. Finalmente, los resultados indican que los diseños híbridos o multimodales pueden constituir una estrategia metodológica más robusta, ya que la integración de encuestas web con modos presenciales o telefónicos permite ampl iar la cobertura poblacional y reducir el sesgo asociado a la brecha digital.
Horizon Nexus Journal H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u æ 4.5 Limitaciones del estudio Aunque la simulación permitió controlar completamente el parámetro poblacional y el mecanismo de generación de datos, el entorno sintético utilizado no reproduce plenamente la complejidad de los procesos observados en estudios empíricos reales. En particular, el modelo de simulación no incorporó fenómenos frecuentes en encuestas aplic adas en contextos reales, tales como la no respuesta parcial a nivel de ítems ( item nonresponse ), posibles efectos de medición asociados al modo de recolección, errores de medición derivados del diseño del instrumento o del contexto de respuesta, ni depend encias temporales entre observaciones que puedan surgir en estudios longitudinales o en datos recolectados en distintos momentos. Asimismo, el análisis se centró exclusivamente en la estimación de la media poblacional como parámetro de interés. Otros parám etros estadísticos, como estimadores no lineales, modelos de regresión multivariada o estimaciones orientadas a inferencia causal, podrían presentar patrones de sesgo y comportamiento inferencial distintos bajo mecanismos de cobertura incompleta y autosele cción, lo que sugiere la necesidad de investigaciones futuras que amplíen el marco analítico hacia estos contextos más complejos. 4.6 Líneas futuras de investigación Los resultados obtenidos abren diversas líneas de investigación metodológica orientadas a profundizar el análisis de la inferencia estadística en entornos digitales. En primer lugar, sería pertinente extender el esquema de simulación a modelos de regresión lineal y logística, con el fin de evaluar cómo los mecanismos de cobertura incompleta y autoselección afectan la estimación de parámetros en contextos multivariados. En segundo lugar, futuras investigaciones podrían incorporar estimadores doblemente robus tos que combinen modelamiento estadístico y ponderación, lo que permitiría explorar estrategias de corrección del sesgo bajo supuestos más flexibles. Asimismo, resulta relevante evaluar enfoques bayesianos que integren información auxiliar o conocimiento p revio sobre la estructura poblacional, con el objetivo de mejorar la precisión inferencial cuando el marco muestral es incompleto. Otra línea prometedora consiste en analizar metodologías de integración entre datos probabilísticos y no probabilísticos, par ticularmente en diseños híbridos que buscan aprovechar las ventajas de ambos enfoques. Finalmente, se sugiere examinar el impacto de la data defect correlation bajo distintos tamaños poblacionales, ya que este concepto permite comprender cómo pequeñas corr elaciones entre el mecanismo de selección y la variable de interés pueden amplificar sustancialmente el sesgo en contextos de grandes volúmenes de datos. En conjunto, estos resultados confirman que la validez inferencial en encuestas virtuales depende crít icamente del diseño muestral y de la cobertura del marco poblacional. La digitalización de los procesos de recolección de datos no modifica los fundamentos de la teoría del muestreo; por el contrario, exige una aplicación aún más rigurosa de sus principios , especialmente en contextos caracterizados por
Horizon Nexus Journal H}]}v N˘ J}vo n V}o X n N•u n Ev t M n n ``` XZ}]}vv˘i}vo X]}]o}} X}u desigualdades estructurales en el acceso a la tecnología y en la participación en estudios basados en plataformas digitales. 5. Conclusiones Los resultados del estudio confirman que la representatividad en en cuestas virtuales depende fundamentalmente del diseño muestral y de la cobertura del marco poblacional, más que del tamaño de la muestra o del medio tecnológico utilizado para la recolección de datos. La evidencia obtenida mediante simulación Monte Carlo m uestra que los diseños no probabilísticos basados en autoselección generan sesgo sistemático y reducen significativamente la cobertura de los intervalos de confianza. Asimismo, se observa que el sesgo de cobertura constituye un riesgo estructural important e en contextos de brecha digital, ya que cuando el acceso a internet está correlacionado con la variable de interés, la población accesible difiere de la población objetivo, generando distorsiones previas al proceso de muestreo. En contraste, los diseños p robabilísticos aplicados en entornos digitales ( como el muestreo estratificado ) presentan mejoras sustantivas en términos de sesgo, error cuadrático medio y cobertura. Por otra parte, los resultados indican que los ajustes estadísticos basados en ponderaci ón, como la postestratificación, pueden reducir parcialmente el sesgo cuando se cumplen supuestos de ignorabilidad condicional, pero no eliminan completamente las distorsiones cuando el mecanismo de selección depende de factores no observados. En consecuen cia, estos métodos deben interpretarse como herramientas de mitigación y no como sustitutos de un diseño probabilístico adecuado. En conjunto, los hallazgos reafirman la vigencia de los principios de la teoría del muestreo en la era digital y evidencian qu e la validez inferencial en estudios basados en encuestas virtuales depende del rigor metodológico con el que se definan el marco de cobertura, el mecanismo de selección y los supuestos de ajuste estadístico. Contribución de los autores: Conceptualización, LMQ - A.; metodología, LMQ - A. y JAH - R.; software, LMQ - A.; validación, LMQ - A. y JAH - R.; análisis formal, LMQ - A.; investigación, LMQ - A. y JAH - R.; recursos, LMQ - A., JAH - R., MFV - P., MRR - B. y SCU - C.; redacción del borrador original, LMQ - A y JAH - R.; redacción, re visión y edición, LMQ - A. y JAH - R.; visualización, LMQ - A., MFV - P., MRR - B. y SCU - C.; supervisión, JAH - R. Todos los autores han leído y aceptado la versión publicada del manuscrito. Financiamiento: Esta investigación no ha recibido financiación externa. Decla ración de disponibilidad de datos: Los datos están disponibles previa solicitud a los autores de correspondencia: lquindea@uteq.edu.ec Conflicto de interés: Los autores declaran no tener ningún conflicto de inte reses
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 1 | Ene Mar | 202 6 | www.horizonnexusjournal.editorialdoso.com 227 Referencias Bibliográficas Baker, R., Brick, J. M., Bates, N. A., Battaglia, M., Couper, M. P., Dever, J. A., Gile, K. J., & Tourangeau, R. (2013). Summary Report of the AAPOR Task Force on Non - probability Sampling. Journal of Survey Statistics and Methodology, 1(2) , 90 143. https://doi.org/10.1093/jssam/smt008 Bethlehem, J. (2010). Selection Bias in Web Surveys. International Statistical Review, 78(2), 161 188. https://doi.org/10.1111/j.1751 - 5823.2010.00112.x Biffignandi Silvia, & Bethlehem Jelke. (2021). Sampling for Web Surveys. In Handbook of Web Surveys (pp. 93 131). Wiley. https://doi.org/10.1002/9781119371717.ch4 Blank, G., Graham, M., & Calvino, C. (2018). Local Geographies of Digital Inequality. Social Science Computer Review, 36(1), 82 102. https://doi.org/10.1177/0894439317693332 Bradley, V. C., Kuriwaki, S., Isakov, M., Sejdinovic, D., Meng, X. - L., & Flaxman, S. (2021). Unrepresentative big surveys significantly overestimated US vaccine uptake. Nature , 600(7890), 695 700. https://doi.org/10.1038/s41586 - 021 - 04198 - 4 Chen, Y., Li, P., & Wu, C. (2020). Doubly Robust Inference With Nonprobability Survey Samples. Journal of the American Statistical Association, 115(532), 2011 2021. https://doi.org/10.1080/01 621459.2019.1677241 Cornesse, C., Blom, A. G., Dutwin, D., Krosnick, J. A., De Leeuw, E. D., Legleye, S., Pasek, J., Pennay, D., Phillips, B., Sakshaug, J. W., Struminskaya, B., & Wenz, A. (2020). A Review of Conceptual Approaches and Empirical Evidence on Probability and Nonprobability Sample Survey Research. Journal of Survey Statistics and Methodology, 8(1), 4 36. https://doi.org/10.1093/jssam/smz041 Elliott, M. R., & Valliant, R. (2017). Inference for Nonprobability Samples. Statistical Science, 32(2). https://doi.org/10.1214/16 - STS598 Groves, R. M., & Lyberg, L. (2010). Total Survey Error: Past, Present, and Future. Public Opinion Quarterly, 74(5), 849 879. https://doi.org/10.1093/poq/nfq065 International Telecommunication Union. (2023). Measuring digit al development: Facts and figures 2023. ITU Publications. Lee, S., & Valliant, R. (2009). Estimation for Volunteer Panel Web Surveys Using Propensity Score Adjustment and Calibration Adjustment. Sociological Methods & Research, 37(3), 319 343. https://doi. org/10.1177/0049124108329643 Little, R. J. A., West, B. T., Boonstra, P. S., & Hu, J. (2020). Measures of the Degree of Departure from Ignorable Sample Selection. Journal of Survey Statistics and Methodology, 8(5), 932 964. https://doi.org/10.1093/jssam/sm z023
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 1 | Ene Mar | 202 6 | www.horizonnexusjournal.editorialdoso.com 228 Meng, X. - L. (2018). Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election. The Annals of Applied Statistics, 12(2). https://doi.org/10.1214/18 - AOAS1161SF Robinson, L., Sc hulz, J., Blank, G., Ragnedda, M., Ono, H., Hogan, B., Mesch, G. S., Cotten, S. R., Kretchmer, S. B., Hale, T. M., Drabowicz, T., Yan, P., Wellman, B., Harper, M. - G., Quan - Haase, A., Dunn, H. S., Casilli, A. A., Tubaro, P., Carvath, R., … Khilnani, A. (202 0). Digital inequalities 2.0: Legacy inequalities in the information age. First Monday. https://doi.org/10.5210/fm.v25i7.10842 Särndal, C. - Erik., Swensson, Bengt., & Wretman, J. H. (2003). Model assisted survey sampling. Springer - Verlag. Schonlau, M., & C ouper, M. P. (2017). Options for conducting web surveys. Statistical Science, 32(2), 279 292. https://doi.org/10.1214/16 - STS597 Valliant, R., & Dever, J. A. (2011). Estimating Propensity Adjustments for Volunteer Web Surveys. Sociological Methods & Researc h, 40(1), 105 137. https://doi.org/10.1177/0049124110392533 Wu, C. (2022). Survey Methodology Statistical inference with non - probability survey samples How to obtain more information. Statistics Canada, Catalogue No. 12 - 001 - X, Vol. 48, No. 2. www.statcan.g c.ca Yang, S., & Kim, J. K. (2020). Statistical data integration in survey sampling: a review. Japanese Journal of Statistics and Data Science, 3(2), 625 650. https://doi.org/10.1007/s42081 - 020 - 00093 - w Yang, S., Kim, J. K., & Song, R. (2020). Doubly Robust Inference when Combining Probability and Non - Probability Samples with High Dimensional Data. Journal of the Royal Statistical Society Series B: Statistical Methodology, 82(2), 445 465. https://doi.org/10.1111/rssb.12354 Yeager, D. S., Krosnick, J. A., Cha ng, L., Javitz, H. S., Levendusky, M. S., Simpser, A., & Wang, R. (2011). Comparing the Accuracy of RDD Telephone Surveys and Internet Surveys Conducted with Probability and Non - Probability Samples. Public Opinion Quarterly, 75(4), 709 747. https://doi.org / 10.1093/poq/nfr020