Preprint / Versión 1

Evaluaciones educativas estandarizadas: desde los objetivos a los resultados

Autores/as

DOI:

https://doi.org/10.62059/LatArXiv.preprints.232

Palabras clave:

Evaluación educativa, Evaluación a gran escala, Evaluación estandarizada

Resumen

El artículo analiza el proceso de creación y análisis de las evaluaciones educativas estandarizadas (EEE) como herramientas esenciales para medir logros en los sistemas educativos. Estas evaluaciones son fundamentales para generar información confiable que apoye la toma de decisiones educativas y las políticas públicas. El  objetivo del artículo es presentar un panorama actualizado sobre la evaluación educativa estandarizada (EEE). La metodología se basa en una revisión teórica de tipo bibliográfico consultando bases de datos de Science Direct y ERIC. Se aplicaron criterios de inclusión para considerar investigaciones relevantes sobre contextos educativos globales y regionales y criterios de exclusión temporales. Se analiza el proceso de creación de pruebas, la generación de ítems, los paradigmas de análisis, la evolución metodológica en la medición, las formas de interpretar los resultados y los desafíos futuros. Se ejemplifica con casos cercanos al lector. Las EEE son herramientas clave para evaluar la calidad de la educación. Mejorar su alcance, precisión y difusión es relevante para maximizar su impacto en la toma de decisiones basada en evidencias.

Referencias

Agencia de Calidad de la Educación (2014). Informe Técnico SIMCE 2012. Agencia de Calidad de la Educación.

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education (Eds.) (2014). Standards for educational and psychological testing. American Educational Research Association.

Backhoff, E. (2018). Evaluación estandarizada de logro educativo: contribuciones y retos. Revista Digital Universitaria, 19(6), 1-15. http://doi.org/10.22201/codeic.16076079e.2018.v19n6.a3

Beck, K. (2020). Ensuring content validity of psychological and educational tests--the role of experts. Frontline Learning Research, 8(6), 1-37. https://doi.org/10.14786/flr.v8i6.517

Brennan, R. L. (2001). Some problems, pitfalls, and paradoxes in educational measurement. Educational Measurement: Issues and Practice, 20(4), 6-18. https://doi.org/10.1111/j.1745-3992.2001.tb00071.x

Bond, T. G. y Fox, C. M. (2013). Applying the Rasch model: Fundamental measurement in the human sciences. Psychology Press.

Carlson, J. E., y von Davier, M. (2013). Item Response Theory. ETS Research Report Series, 2013(2), i-69. https://doi.org/10.1002/j.2333-8504.2013.tb02335.x

Correa-Rojas, J. (2021). Coeficiente de Correlación Intraclase: Aplicaciones para estimar la estabilidad temporal de un instrumento de medida. Ciencias Psicológicas, 15(2), 1-12. https://doi.org/10.22235/cp.v15i2.2318

Crocker, L. y Algina, J. (2008). Introduction to classical and modern test theory. CENGAGE Learning.

de Ayala, R. J. (2009). The theory and practice of item response theory. Guilford Press.

de La Torre, J. y Minchen, N. (2014). Cognitively diagnostic assessments and the cognitive diagnosis model framework. Psicología Educativa, 20(2), 89-97. https://doi.org/10.1016/j.pse.2014.11.003

Dumas, D., Dong, Y. y McNeish, D. (2022). How fair is my test: A ratio statistic to help represent consequential validity. European Journal of Psychological Assessment, 0(0),1-25. https://doi.org/10.1027/1015-5759/a000724

Cuellar, E., Partchev, I., Zwitser, R., Bechger, T. (2021). Making sense out of measurement non-invariance: how to explore differences among educational systems in international large-scale assessments . Educational Assessment, Evaluation and Accountability, 33, 9-25. https://doi.org/10.1007/s11092-021-09355-x

Engelhardt, L., y Goldhammer, F. (2019). Validating test score interpretations using time information. Frontiers in Psychology, 10, 1131. https://doi.org/10.3389/fpsyg.2019.01131

Emery, C., Rodríguez, P., Figueroa, V. (2018). Diseño y validación de instrumentos para la evaluación de oportunidades de aprendizaje. Comunicación presentada en el Congreso Latinoamericano de Medición y Evaluación Educacional, Montevideo, Uruguay.

Falcão, F., Pereira, D. M., Gonçalves, N., De Champlain, A., Costa, P. y Pêgo, J. M. (2023). A suggestive approach for assessing item quality, usability and validity of Automatic Item Generation. Advances in Health Sciences Education, 28(5), 1441-1465.

Fernández, T. y Midaglia, C. (2005). El uso de los informes generados por los sistemas de evaluación de aprendizaje en la educación primaria. Los casos de México y Uruguay. En S. Cueto (Ed.), Uso e impacto de la información educativa en América Latina, PREAL.

Fernández Alonso, R. y Muñiz Fernández, J. (2011). Diseño de cuadernillos para la evaluación de las competencias básicas. Aula abierta, 39 (2), 3-34.

Ferrando, P. J., Lorenzo Seva, U., Hernández Dorado, A. y Muñiz, J. (2022). Decalogue for the factor analysis of test items. Psicothema, 34(1), 7-17. https://doi.org/10.7334/psicothema2021.456

García, P. E., Abad, F. J., Olea, J. y Aguado, D. (2013). A new IRT-based standard setting method: Application to eCat-Listening. Psicothema, 25(2), 238-244. https://doi.org/10.7334/psicothema2012.252

García, P. E., Olea, J., & De la Torre, J. (2014). Application of cognitive diagnosis models to competency-based situational judgment tests. Psicothema, 372-377. https://doi.org/10.7334/psicothema2013.322

Gierl, M. J. y Haladyna, T. M. (Eds.). (2013). Automatic item generation: Theory and practice. Routledge.

Götz, F. M., Maertens, R., Loomba, S., y van der Linden, S. (2023). Let the algorithm speak: How to use neural networks for automatic item generation in psychological scale development. Psychological Methods. https://doi.org/10.1037/met0000540

Guo, H., Rios, J. A., Haberman, S., Liu, O. L., Wang, J. y Paek, I. (2016). A new procedure for detection of students’ rapid guessing responses using response time. Applied Measurement in Education, 29(3), 173–183.

Haladyna, T. M. y Rodriguez, M. C. (2013). Developing and validating test items. Routledge.

Hambleton, R.K., y Zenisky, A.L. (2011). Translating and adapting tests for cross-cultural assessments. En D. Matsumoto y F.J.R. van de Vijver (Eds.). Cross-cultural research methods in psychology, (pp. 46-70). Cambridge University Press.

Heyneman, S. y Lee, B. (2014). The impact of international studies of academic achievement on policy and research. En L. Rutkowski, M. von Davier y D. Rutkowski (Eds.), Handbook of international large-scale assessment. Background, Technical Issues and Methods of Data Analysis (pp.37-72). CRC Press.

Hidalgo-Montesinos, M. D., & French, B. F. (2016). Una introducción didáctica a la Teoría de Respuesta al Ítem para comprender la construcción de escalas. Revista de Psicología Clínica con Niños y Adolescentes, 3(2), 13-21.

ICFES(2011). Informe técnico de las pruebas Saber 5to y 9no 2009.

INEE (2019). Manual técnico del Plan Nacional para la Evaluación de los Aprendizajes PLANEA 2015. Educación media superior. México.

INEE (2004). Hacia un nuevo paradigma para la Evaluación Educativa. La perspectiva del INEE. México.

INEEd (2020). Aristas 2018. Informe de resultados de tercero de educación media.

INEEd (2021). Aristas 2020. Primer informe de resultados de tercero y sexto de educación primaria. www.ineed.edu.uy/images/Aristas/Publicaciones/Aristas2020/Aristas-2020-Primer-informe-de-resultados-de-tercero-y-sexto-de-educacion-primaria.pdf

INEEd (2018a). Aristas. Marco general de la evaluación. Montevideo.

INEEd (2017). Aristas. Marco de lectura en tercero y sexto de primaria.

INEEd (2018b), Aristas. Marco de oportunidades de aprendizaje en tercero de educación media.

INEEd (2018c). Marco de Oportunidades de Aprendizaje en tercero y sexto de educación primaria.

INEEd (2018d). Aristas. Marco de las oportunidades de aprendizaje en tercero de educación media.

INEEd (2018e) Aristas. Marco de contexto familiar y entorno escolar en tercero y sexto de educación primaria.

INEP (2005). Avaliação da Educação Básica: em busca da qualidade e equidades no Brasil. Brasilia.

INEP (2014) Saeb 2023: detalhamento da população e resultados : nota técnica Nº 18/2023/CGMEB/DAEB.

Jackson Stenner, A., Smith III, M., Burdick, D.S. (2022). Toward a Theory of Construct Definition. En W. P. Fisher y P. J. Massengill (Eds.), Explanatory Models, Unit Standards, and Personalized Learning in Educational Measurement, (pp.43-55), Springer.

Joint Committee on Standards for Educational Evaluation (2010). The Program Evaluation Standards. Sage.

Jornet Meliá, J. M. (2017). Evaluación estandarizada. Revista Iberoamericana de Evaluación Educativa (RIEE), 10 (1), 5-8. https://revistas.uam.es/riee/issue/view/671/373

Lee, S., & Winke, P. (2018). Young learners' response processes when taking computerized tasks for speaking assessment. Language Testing, 35(2), 239-269. https://doi.org/10.1177/0265532217704009

Linacre, J. M. (2012). Winsteps Rasch Measurement Computer Program User's Guide. Winsteps.com.

Luzardo, M., y Rodríguez, P. (2015). A nonparametric estimator of a monotone item characteristic curve. En L. A. van der Ark, D. Bolt, W. C. Wang, A. Douglas, and S. M. Chow (Eds.), Quantitative Psychology (pp. 99–108), Springer. doi: 10.1007/978-3-319-19977-1_8

Luzardo, M. (2019). Item Selection Algorithms in Computerized Adaptive Test Comparison Using Items Modeled with Nonparametric Isotonic Model. En M. Wiberg, S. Culpepper, R. Janssen, J. González, D. Molenaar (Eds.), Quantitative Psychology (pp. 95-105). Springer International Publishing. https://doi.org/10.1007/978-3-030-01310-3_6

Mahias Finger, P., & Polloni Erazo, M. P. (2019). Cuadernillo técnico de evaluación educativa Desarrollo de instrumentos de evaluación: pruebas. Centro de Medición MIDE UC. Instituto Nacional para la Evaluación de la Educación.

Marsman, M. (2014). Plausible values in statistical inference. Tesis Doctoral. University of Twente. 10.3990/1.9789036537445

Martin, M.O., Mullis, I.V.S, y Foy, P. (2015) Assessment Design for PIRLS, PIRLS Literacy, and ePIRLS in 2016. En Mullis, I. V. S., & Martin, M. O. (Eds.). PIRLS 2016 Assessment Framework (2nd ed.). Retrieved from Boston College, TIMSS & PIRLS International Study Center. https://timssandpirls.bc.edu/pirls2016/framework.html

Martínez Rizo, F. (2011) La evaluación del profesorado. Documento presentado en las VII Jornadas de Cooperación Educativa Iberoamericanas sobre Evaluación. México.

Masters, G.N. (2016). Partial Credit Models. En van der Linden, W.J. (Ed.) Handbook of modern item response theory . Volume One: Models. CRC Press.

MINEDU (2024). Reporte técnico de la Evaluación Nacional de Logros de Aprendizajes de Estudiantes 2023 (ENLA). Perú.

Muñiz, J. (2003). Teoría clásica de los tests. Pirámide.

Muñiz, J. (2018). Introducción a la Psicometría: Teoría Clásica y TRI. Madrid: Pirámide.

Muñiz, J., Elosua, P., & Hambleton, R. K. (2013). Directrices para la traducción y adaptación de los tests: segunda edición. Psicothema, 25(2), 151-157. https://doi.org/10.7334/psicothema2013.24

National Assessment of Educational Progress (NAEP)(2023). Technical Documentation: Student Test Form and Booklet ​Block Design. https://nces.ed.gov/nationsreportcard/tdw/instruments/cog_blockdesign.aspx

NAGB (National Assessment Governing Board) (2003) Background Information Framework for the National Assessment of Educational Progress, Washington, D.C.

NAGB (National Assessment Governing Board), (2022). Mathematics Assessment Framework for the 2022 to 2024 National Assessment of Educational Progress. https://www.nagb.gov/content/dam/nagb/en/documents/publications/frameworks/mathematics/2022-24-nagb-math-framework-508.pdf

Olea, J., y Ponsoda, V. (2013). Tests adaptativos informatizados. Editorial UNED.

Olson, M. (1973) Evaluating Performance in the Public Sector. En: Moss, M. (ed.) The Measurement of Economic and Social Performance. USA. National Bureau of Economic Research.

Popham, W. J. (1999). Where Large Scale Educational Assessment Is Heading and Why It Shouldn't. Educational Measurement: Issues and Practice, 18(3), 13-17. https://doi.org/10.1111/j.1745-3992.1999.tb00268.x

Ramsay, J. O. (1991). Kernel smoothing approaches to nonparametric item characteristic curve estimation. Psychometrika, 56(4), 611–630. https://doi.org/10.1007/BF02294487

Raykov, T. (2007). Reliability if deleted, not 'alpha if deleted': Evaluation of scale reliability following component deletion. British Journal of Mathematical and Statistical Psychology, 60(2), 201-216. https://doi.org/10.1348/000711006X115954

Reckase, M. D. (2009). Multidimensional Item Response Theory. Springer.

Reckase, M. D. (2016). Multidimensional logistic models. En W. J. van der Linden (Ed.), Handbook of Item Response Theory: Models (pp. 189-210). CRC Press.

Reynolds, K. A. & Moncaleano, S. (2021). Digital module 26: Content alignment in standards-based educational assessment. Educational Measurement: Issues & Practice, 40(3), 127-128. https://doi.org/10.1111/emip.12405

Rijmen, F., Jeon, M., von Davier, M., & Rabe-Hesketh, S. (2013). A general psychometric approach for educational survey assessments: Flexible statistical models and efficient estimation methods. En L. Rutkowski, M. von Davier, & D. Rutkowski (Eds.), Handbook of international large-scale assessment data analysis (pp. 45-62). Chapman & Hall.

Rodríguez, P. y Luzardo, M. (2019). A Modification of the IRT-Based Standard Setting Method. En M. Wiberg, S. Culpepper, R. Janssen, J. González y D. Molenaar (Eds.), Quantitative Psychology (pp. 65-74), Springer Nature. https://doi.org/10.1007/978-3-030-01310-3_6

Rodríguez Morales, P. (2017). Creación, Desarrollo y Resultados de la Aplicación de Pruebas de Evaluación basadas en Estándares para Diagnosticar Competencias en Matemática y Lectura al Ingreso a la Universidad. Revista Iberoamericana de Evaluación Educativa, 10(1),89-107. https://doi.org/10.15366/riee2017.10.1.005

Rodríguez, P., Pérez, G., Luzardo, M. (2017). Desarrollo y aplicación del primer test adaptativo informatizado (TAI) de Matemática para orientar trayectorias en la Universidad. En N. Peré (Comp.) La Universidad Se Investiga (pp.1041-1048). Jornadas de Investigación en Educación Superior. Montevideo: CSE-ANEP.

Rodríguez Morales, P. y Luzardo Verde, M. (2020). Cómo asegurar evaluaciones válidas y detectar falseamiento en pruebas a distancia síncronas. Revista Digital de Investigación en Docencia Universitaria, 14(2), e1240. https://doi.org/10.19083/ ridu.2020.1240

Russell, M. (2011). Personalizing assessment. In T. Gray & H. Silver-Pacuilla (Eds), Breakthrough teaching and learning (pp. 111–126). New York, NY: Springer.

Rutkowski, D., Rutkowski, L. y von Davier, M. (2014). A brief introduction to modern international large scale assessment. En L. Rutkowski, M. von Davier y D. Rutkowski (Eds.), Handbook of international large-scale assessment. Background, Technical Issues and Methods of Data Analysis (pp.3-10). CRC Press.

Samejima, F. (2016). Graded Response Models. En van der Linden, W.J. (Ed.) Handbook of modern item response theory . Volume One: Models. CRC Press.

Sanz, S., Luzardo, M., García, C., y Abad, F. J. (2020). Detecting cheating methods on unproctored Internet tests. Psicothema. Vol. 32, No. 4, 549-558. doi: 10.7334/psicothema2020.86

Sijstma, K. y Molenaar, I. W. (2016). Mokken models. En van der Linden, W.J. (Ed.) Handbook of modern item response theory . Volume One: Models. CRC Press.

SIMCE (Sistema de Medición de la Calidad de la Educación) (2010) Resultados Nacionales SIMCE 2009. Santiago de Chile.

Sireci, S., y Benítez, I. (2023). Evidence for test validation: a guide for practitioners. Psicothema, 35(3), 217-226. https://dx.doi.org/10.7334/psicothema2022.477

Soca, J.M. (2018) Prólogo. Tendencias de Investigación e Innovación en Evaluación Educativa, CONACyT – INEE.

Soland, J. (2018a). Are achievement gap estimates biased by differential student test effort? Putting an important policy metric to the test. Teachers College Record, 120(12).

Soland, J. (2018b). The achievement gap or the engagement gap? Investigating the sensitivity of gaps estimates to test motivation. Applied Measurement in Education, 31(4), 312–323. https://doi.org/10.1080/08957347.2018.1484357

Soland, J., & Kuhfeld, M. (2019). Do students rapidly guess repeatedly over time? A longitudinal analysis of student test disengagement, background, and attitudes. Educational Assessment, 24(4), 327–342. https://doi.org/10.1080/10627197.2019.1664153

Soland, J., Jensen, N., Keys, T. D., Bi, S. Z., & Wolk, E. (2019). Are test and academic disengagement related? Implications for measurement and practice. Educational Assessment, 24(2), 1–16. https://doi.org/10.1080/10627197.2019.1575087

Swaminathan, H., & Rogers, H. J. (2016). Normal-ogive multidimensional models. En W. J. van der Linden (Ed.), Handbook of Item Response Theory: Models (pp. 167–188). CRC Press.

Teig, N. y Steinmann, I. (2023). Leveraging large-scale assessments for effective and equitable school practices: the case of the nordic countries. Large-scale Assessments in Education, 11-21. https://doi.org/10.1186/s40536-023-00172-w

Thissen, D. y Cai, L. (2016). Nominal Categories Models. En van der Linden, W.J. (Ed.) Handbook of modern item response theory . Volume One: Models. CRC Press.

UNESCO-OREALC. (2016). Reporte Técnico. Tercer Estudio Regional Comparativo y Explicativo, TERCE.

van der Linden, W. J., y Glas, C. A. (Eds.). (2000). Computerized adaptive testing: Theory and practice. Kluwer Academic.

van der Linden, W. J. (Ed.). (2018). Handbook of item response theory. Volume One: Models. CRC Press.

van der Linden, W. J. (2016).Unidimensional Logistic Response Models. En van der Linden, W.J. (Ed.) Handbook of modern item response theory. Volume One: Models, (pp. 19-30). CRC Press.

von Davier, M. (2016). Rasch Models. En W. J. Van der Linden (Ed.) Handbook of item response theory. Volume One: Models, pp.31-45. CRC Press.

Xu, X., y Douglas, J. (2006). Computerized adaptive testing under nonparametric IRT models. Psychometrika, 71, 121-137. https://doi.org/10.1007/s11336-005-1464-6

Wagemaker, H. (2014). International large-scale assessments: from research to policy. En L. Rutkowski, M. von Davier y D. Rutkowski (Eds.), Handbook of international large-scale assessment. Background, Technical Issues and Methods of Data Analysis (pp.11-36). CRC Press.

Wise, S. L., y Ma, L. (2012). Setting response time thresholds for a CAT item pool: The normative threshold method. En Annual Meeting of the National Council on Measurement in Education, Vancouver, Canada. https:// nwea. org/ content/ uploads/ 2012/ 04/ Setting- Response- Time- Thresholds- for-a- CAT- Item- Pool. pdf.

Wry, E., y Mullis, I. V. S. (2023). Developing the PIRLS 2021 achievement instruments. In M. von Davier, I. V. S. Mullis, B. Fishbein, & P. Foy (Eds.), Methods and Procedures: PIRLS 2021 Technical Report (pp. 1.1-1.24). Boston College, TIMSS & PIRLS International Study Center. https://doi.org/10.6017/lse.tpisc.tr2101.kb7549

Descargas

##plugins.themes.default.displayStats.noStats##

Descargas

PrePrint online

2024-11-25

Declaración de datos

  • Los datos de investigación están incluidos en el propio manuscrito