miércoles, 19 de enero de 2022

Validez de las herramientas de medición

Anteriormente hemos visto que cualquier herramienta de medición debe ser fiable para poder llevar a cabo una determinada investigación. No hay que olvidar que una medida fiable [reliable measurement en inglés] no es sinónimo de una alta calidad de la misma. Para ello, dicha herramienta debe presentar una adecuada validez. Podemos definir validez [validity en inglés] como el grado en el que un instrumento mide realmente lo que debe medir. 

Si tomamos por ejemplo un matraz de Erlenmeyer, como el que vemos en la siguiente imagen, este podrá medir adecuadamente los mililitros (ml) del líquido que le metamos. Por lo tanto, el matraz presenta una excelente validez para medir precisamente el volumen de los líquidos equivalentes a la milésima parte de un litro. Seguramente si usásemos un baso de una cocina corriente sin escala de ml en el laboratorio, la medida "no sería válida" (de hecho usaríamos estas palabras literales) y, por lo tanto, diremos que el vaso de beber agua no es un instrumento válido para medir el volumen de un líquido. Como ya se ha indicado en entradas anteriores, el concepto de validez no es tan intuitivo en otro tipo de instrumentos de medida como las encuestas.



Sin embargo, la validez no es una propiedad intrínseca del test, instrumento o herramienta de medida, sino más bien de la propia interpretación de lo que ese instrumento está midiendo (Cook y Beckman, 2006). Los resultados de un instrumento serán válidos cuando las interpretaciones son justificables en el seno (o contexto) de lo que la herramienta va a medir (Kimberlin y Winterstein, 2008). Entonces, las conclusiones que se van a extraer de los resultados del instrumento de medida deben estar basadas en lo que la evidencia teórica del momento pueda sostener en la interpretación final del resultado. De esta forma, no es de extrañar que las interpretaciones divergentes se deban también que tener en cuenta (Messick, 1989).

Validar un instrumento de medida nos es otra mas a que establecer un nexo profundo y estable de los resultados obtenidos (con el instrumento) y el estado del arte de la teoría que sustenta su uso [theory-based assumptions en inglés]. En consecuencia, se debe partir siempre de la premisa que el constructor objeto de análisis nunca será perfectamente reflejado por un test "perfecto" en el que el objetivo es establecer ocrrelancioens entre los ítems tan altas como sean posibles (Cook y Beckman, 2006).

La validez es a su vez un constructo complejo o multifacético. De manera general existen tres enfoques principales para inspeccionar la validez de los instrumentos que se van a usar en las investigaciones: la validez de contenido, la validez de constructo y la validez de criterio.



Validez de contenido - Content validity

La validez de contenido describe el alcance en el que los items de una escalas representan "fielmente" el constructo que el instrumento quiere medir para que, precisamente, las medidas sean relevantes (Almanasreh et al., 2019).

Normalmente para evaluar la validez de contenido se emplean paneles de expertos en la materia que indican qué cuestiones son relevantes para un determinado constructo. Además, una vez elaborado los ítems candidatos que formarán el instrumento de medida, serán evaluados por una puntuación numérica por dicho panel de expertos para así obtener el Índice de Validez de Contenido [Content Validity Index (CVI) en inglés].

La validez de contenido se suele tener en cuenta incluso antes de haber creado el instrumento de medida. Esto hace que de manera externa al grupo de creación del instrumento sea muy complicada su evaluación.



Validez de constructo - Construct validity

Este tipo de validez fue introducido por primera vez por Cronbach y Meehl en 1955. Se define como el grado de concordancia entre los resultados de la medida y la teoría establecida que la sustenta. De este modo, la validez de constructo "obliga" a tener en cuenta que el instrumento mida todas las facetas (conocidas) del concepto objeto de estudio (esto es: el constructo) de una manera adecuada.

Gracias a la validez de constructo, mejoramos la visión de la validez ante cualquier instrumento. Ahora ya no solo tenemos que observar si el instrumento en cuestión mide exactamente lo que debe medir, sino que además debe estar en armonía con la red nomológica con otros constructos teóricamente relacionados.

Para evaluar la validez de constructo se realizan análisis estadísticos de correlaciones con varias medidas. El patrón de correlación resultante ofrece información sobre el grado de conformidad entre la medida global y las variables predictivas teóricas (Westen y Rosenthal, 2003). A su vez, la validez de constructo se compone de dos grandes bloques: la validez convergente y la validez discriminante.
  • Validez convergente [Convergent validity en inglés]. Tipo de validez que se da cuando los distintos instrumentos de medida que dicen medir el mismo constructo correlacionan alto con cada uno de ellos. En otras palabras, es la prueba que confirma que los constructos que se esperen que estén relacionados, realmente lo estén.

  • Validez discriminante [Discriminant validity en inglés]. Tipo de validez que se se da cuando los distintos instrumentos de medida que dicen medir constructor distintos no correlacionan entre sí. Es decir, se trata de la prueba que confirma que los constructos que no deberían tener ninguna relación, realmente no la presenten.



Validez de criterio - Criterion validity

Por último, la validez de criterio mide la relación entre una variable externa, un índice o un indicador del concepto que se está midiendo con el propio instrumento de medida (Guirao-Goris et al., 2016). Dicho de otro modo, para que un instrumento adquiera una adecuada validez de criterio, debe tener un alto grado de confirmada con criterios prácticos, relevantes y externos. 

Dentro de esta validez se asume, por tanto, que el instrumento no puede considerarse como algo aislado, sino más bien como algo que está en relación con otras variables significativas.



Fuentes bibliográficas

  • Cook, D. A., & Beckman, T. J. (2006). Current concepts in validity and reliability for psychometric instruments: theory and application. The American Journal of Medicine, 119(2), 7-16. https://doi.org/10.1016/j.amjmed.2005.10.036
  • Guirao-Goris, S. J. A., Ferrer Ferrándiz, E., y Montejano Lozoya, R. (2017). Validez de criterio y de constructo del diagnóstico de enfermería" estilo de vida sedentario" en personas mayores de 50 años. Revista Española de Salud Pública, 90, 1-9.
  • Kimberlin, C. L., & Winterstein, A. G. (2008). Validity and reliability of measurement instruments used in research. American Journal of Health-System Pharmacy, 65(23), 2276-2284. https://doi.org/10.2146/ajhp070364
  • Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (pp. 13 -103). America Council on Education & Macmillan



Jacob Sierra Díaz

lunes, 17 de enero de 2022

Consistencia interna de las herramientas de medición

Una de las técnicas más populares en la evaluación estadística de la fiabilidad de un instrumento o herramienta de investigación es la consistencia interna [internal consistency en inglés]. Se trata de una estimación del grado en el que los ítems de una escala miden el mismo concepto de una manera adecuada (Drost, 2011)

Por ejemplo, una regla milimetrada que acabamos de comparar en una papelería presentará, como norma general, una alta consistencia interna. Tal y como podemos observar en la siguiente imagen, si comparamos el primer centímetro de la regla con el siguiente centímetro no nos extrañaremos ver que son exactamente iguales. Si comparamos todos los centímetros de la regla, veremos que son iguales. Por lo tanto, podemos concluir que nuestra reglar presenta una excelente consistencia interna ya que los ítems de la escala (los centímetros) miden exactamente lo mismo.





Pero la consistencia interna no es tan obvia en escalas o herramientas para observar determinados constructos humanos o de cualquier otra rama del conocimiento que no sea pura. Para entender el concepto de consistencia interna en forma de cuestionarios supongamos que queremos averiguar si a las personas de la generación de 1986 les gusta tocar la guitarra. Para ello, creamos un cuestionario con varios ítems. Imaginemos que un participante tiene como hobbie tocar la guitarra y en el ítem 1 ha declarado estar "totalmente de acuerdo" en: me gusta tocar la guitarra, en el ítem 2 ha expresado estar "totalmente de acuerdo" en: se me pasa el tiempo volando cuando toco la guitarra y en el ítem 3 ha expresado estar "totalmente en desacuerdo" en: me parece una pérdida de tiempo tocar la guitarra. En este ejemplo podemos observar cómo todos los ítems están orientados a obtener una conclusión sólida sobre la afición de tocar la guitarra. Como los ítems producen resultados similares (y no contradictorios) podemos decir que seguramente* nuestro cuestionario presenta una buena consistencia interna. (*) Decimos "seguramente" porque no hemos empleado técnicas estadísticas, como las que veremos a continuación, para obtener esta conclusión.


Tradicionalmente, la consistencia interna se viene evaluando con la famosa alfa de Cronbach [Cronbach's alpha en inglés, α matemáticamente hablando] (Cronbach, 1951). El valor alfa (α) se obtiene por el método de división por mitades [split-half method en ingles]. Básicamente se divide los resultados de la medida obtenida por el instrumento objeto de análisis entre dos partes aleatorias. A continuación, se obtiene la correlación entre la suma de las puntuaciones de cada parte (aleatoriamente divida) y se obtiene una media de la fiabilidad entre la división de las partes. Pero para poder inferir la fiabilidad de todo el instrumento, se precisa estimar una corrección estadística (Revelle y Zinbarg, 2009).
  • La idea más importante del alfa (α) de Cronbach es la interpretación de su resultado. En términos generales, el alfa (α) es un valor que está principalmente entre el 0 y 1. Además, también pueden existir alfas negativos cuando algunos ítems de las escalas están negativamente correlacionados entre sí (Vaske et al., 2017).

  • Muchos manuales de Estadística prefieren no ofrecer una interpretación detallada del alfa (α) porque puede influir a los aprendices a realizar interpretaciones no adecuadas en términos de cómo de alto debe ser el valor para poder concluir que la herramienta puede catalogarse como fiable [reliable en inglés]. 
    • Como norma general, se acepta que valores de alfa (α) que oscilan entre 0,65 o 0,80 (dependiendo de la rama de conocimiento) hasta 0,90 pueden indicar una fiabilidad adecuada del instrumento que se ha evaluado.

    • En Ciencias Sociales se aceptan valores superiores a 0,70 como referencia para una adecuada fiabilidad del instrumento que se haya evaluado.

    • Un valor alfa mayor que 0,90 puede estar indicando redundancia de los ítems que componen la escala. Este hecho puede indicar que hay bastantes ítems que están midiendo exactamente el mismo factor o característica pero usando otro tipo de palabras o expresiones.

    • En caso de que una escala se componga de varios factores o componentes de un mismo constructor, estos deberán ser evaluado independientemente.


Fuentes bibliográficas

  • Drost, E. A. (2011). Validity and reliability in Social Sciences research. Education Research and Perspectives, 38, 105-123.





Jacob Sierra Díaz

sábado, 15 de enero de 2022

Fiabilidad de las herramientas de medición

El concepto de fiabilidad [reliability en inglés] es muy importante cuando se emplean instrumentos de medida en investigaciones rigurosas para poder obtener conclusiones precisas. Para explicar este importante término, vamos a tomar como ejemplo el uso de un cronómetro para medir una prueba de velocidad en atletismo. 

Imaginemos que esta prueba de velocidad se hace en un país del continente europeo y, a su vez, se está repitiendo en un país del continente africano. Para ello se están usando dos cronómetros del mismo modelo y características. Al finalizar las pruebas, cabría esperar que los dos instrumentos hayan obtenido el mismo resultado, siempre y cuando se hayan dado las mismas condiciones. Dicho de otro modo y observando la siguiente ilustración, si un corredor autómata y gran experto que siempre clava su tiempo en 14 segundos repitiese la misma prueba bajo las misma condiciones de temperatura, humedad, material de la pista, etc en los dos continentes; los cronómetros que se hayan usado deberían medir exactamente 14 segundos. Si por ejemplo, un cronómetro marcase un valor de 30 segundos en lugar de 14 segundos (que es lo que realmente ha tardado el corredor en acabar la prueba) no sería ni un instrumento ni una medida fiable [unreliable en inglés]. El cronómetro defectuoso tiene un gran error de medición [measurement error en inglés]. Entonces, como los cronómetros miden con precisión los segundos y mili segundos independientemente de los modelos a emplear, diremos que el cronómetro es una herramienta fiable para medir esta prueba.



La fiabilidad  [reliability en inglés] se puede definir como la consistencia de un instrumento de medida (Schuurman y Hamaker, 2019). Esta breve definición indica que un instrumento o herramienta, como el caso del cronómetro, es fiable cuando tiene un mínimo o nulo error en la medición. Volviendo al ejemplo anterior, tal y como hemos visto, el cronómetro es fiable [reliable en inglés] porque medirá los segundos de manera adecuada y precisa en cualquier prueba llevada a cabo en cualquier parte del mundo.

Entonces, podemos decir que una medida es fiable cuando se obtiene el mismo resultado bajo las mismas condiciones de medición del constructo (Heale y Twycross, 2015). Siguiendo con ejemplo anterior, si usamos dos cronómetros para medir la prueba de un corredor, estos deberán de dar el mismo resultado (siempre y cuando se hayan accionado y parado a la vez).


El concepto de fiabilidad se entiende muy bien en instrumentos o medidas "objetivas" como son los cronómetros o la magnitud de segundo. Sin embargo, en investigación no siempre se usan herramientas en las que asumimos una fiabilidad "tan estable". La fiabilidad se vuelve más compleja con instrumentos como los cuestionarios o las escalas de medida psicológicas (entre otras ramas de estudio). Si bien nadie suele dudar de la fiabilidad de un cronómetro, las escalas humanas de investigación deben ser evaluadas en términos de fiabilidad. Por ejemplo, una escala de motivación puede ser o no fiable para medir el constructo de motivación autodeterminada en una población de estudiantes universitarios.

En la mayoría de investigaciones de carácter social o sanitario (entre otras ramas de conocimiento) se emplean instrumentos ad hoc. Normalmente suelen ser escalas compuestas por varios ítems que abordan algún aspecto importante del constructo objeto de estudio. Para este tipo de instrumentos se hace preciso evaluar el concepto de fiabilidad a través de la Estadística. Los valores estadísticos de las mediciones de nuestros instrumentos nos informan de hasta qué punto lo que estamos usando para medir el constructo está libre de errores de medición y puede ser replicado en otra parte del mundo. En términos generales, existen tres principales procedimientos para poder evaluar la fiabilidad de las mediciones asociadas a las herramientas de toma de datos:

  • Procedimiento o test de fiabilidad paralelo [parallel test reliability en inglés]. Para este procedimiento se emplean dos versiones del instrumento objeto de análisis de la fiabilidad que se presentan a los participantes varias veces.  Normalmente, las dos versiones del instrumento suelen cambiar la sintaxis de los ítems o incluso el orden de los mismos. Al acabar la recogida de datos con los dos instrumentos se comparan las medidas de ambas escalas y se evaluan las posibles diferencias.

  • Procedimiento de fiabilidad test-retest [test-retest reliability en inglés]. A diferencia del procedimiento anterior, usamos una única versión del instrumento que se proporciona a los participantes varias veces en momentos de tiempo distinto. Al acabar la recogida de datos, se comparan las medidas del instrumento en función del momento en el que se haya respondido y se evalúa las posibles diferencias. 

  • Procedimiento de división por mitades [split-half reliability en inglés]. Para este procedimiento se dividen al azar las mediciones o los elementos del instrumento (por ejemplo los factores de una escala) en dos grandes grupos. A continuación, se analiza la correlación entre los dos grupos. Este procedimiento asume que la herramienta que debe medir el constructo deseado se haga consistentemente en todos los ítems que forma la herramienta (Cho, 2016).


Fuentes bibliográficas

  • Schuurman, N. K., & Hamaker, E. L. (2019). Measurement error and person-specific reliability in multilevel autoregressive modeling. Psychological Methods, 24, 70-91. https://doi.org/10.1037/met0000188




Jacob Sierra Díaz

martes, 11 de enero de 2022

Pasos de Cooper para elaborar un meta-análisis

En determinadas ocasiones, cuando nos enfrentamos a desafíos nuevos, nos surge una duda muy habitual: ¿por dónde empezar? La elaboración de un meta-análisis no es una excepción. Por este motivo, ya en el año 1984, Harris Cooper propuso cinco "sencillos" pasos para orientar a los investigadores a elaborar revisiones y síntesis cuantitativas de una manera rigurosa y sistemática sin que faltase ningún elemento importante. 


Fuente bibliográfica

  • Cooper, H. (1984). The integrative research review: a systematic approach. Sage.