Skip to content

Comprensión e interpretación de datos

Picture1

Dos médicos de California utilizaron recientemente los datos que recolectaron en sus centros privados de atención de urgencia para extrapolar las tasas de enfermedad y mortalidad de COVID-19 para el estado. Varios medios de comunicación presentaron estos nuevos “hallazgos” como un hecho, simplemente porque no comprendieron los datos o cómo interpretarlos. Esto es problemático por varias razones, entre ellas, que ha sido demostrado que incluso cuando se corrige la información errónea posteriormente, esta no se olvida. De hecho, puede hacer que la certeza de la desinformación sea más fuerte. En otras palabras, el daño ya está hecho.

Understanding-and-Interpreting-Data_ES

Imagen: xkcd.com

Por eso, es fundamental poder comprender e interpretar los datos, especialmente en esta época en que la información es fácilmente accesible, fácilmente manipulable y fácilmente compartida. Hay muchos aspectos de los datos que se deben comprender para poder determinar si un estudio o conclusión se justifica. Aunque estos elementos no se mencionan expresamente en los NGSS, su esencia se puede encontrar en los estándares, específicamente en la Práctica de Ciencias e Ingeniería (SEP) por sus siglas en inglés, conocida como Análisis e interpretación de datos. La información que sigue explica por qué es importante cada aspecto de la comprensión e interpretación de datos, cómo pueden ser confusos (o simplemente ser erróneos) los datos que se usan si se ignoran estos aspectos, y qué podemos hacer para asegurarnos de que la información que recibimos se base en un análisis preciso de los datos.

Muestreo aleatorio

SEP de la escuela secundaria: Considerar las limitaciones del análisis de datos (p. ej., errores de medición, selección de muestras) al analizar e interpretar datos

Los dos médicos de California utilizaron datos de COVID-19 que recolectaron en sus instalaciones de atención urgente para hacer sus determinaciones sobra la población en general. Pero las personas que van a un centro de atención urgente tienen razones para creer que están enfermas. Por tanto, se trata de un grupo selecto, en lugar de una muestra representativa (también conocida como muestreo aleatorio) de la población.

En términos más sencillos, esto es lo mismo que preguntar a las personas que salen de una función de ópera si les gusta la ópera, o preguntar a las personas que entran al consultorio de un oculista si tienen problemas de vista —probablemente no estarían allí si no fuera el caso. Digamos que usted realizó cualquiera de estas encuestas y halló que 9 de 10 personas dijeron que “sí”. ¿Sería correcto concluir que el 90 % de los seres humanos gustan de la ópera o que usan anteojos? No, porque su conjunto de datos es un conjunto selecto. Lo único que se puede concluir es que el 90 % de las personas que asistieron a esta ópera determinada y en este lugar en particular, gustan de la ópera, y que el 90 % de las personas que fueron a esa óptica determinada y en este día en particular piensan que tienen dificultades con la vista.

Conjuntos de datos incompletos

SEP de la escuela intermedia: Considerar las limitaciones del análisis de datos
(p. ej., errores de medición), y/o tratar de mejorar la precisión y exactitud de los datos con mejores herramientas y métodos tecnológicos (p. ej., múltiples pruebas).

Los médicos de California utilizaron los datos que recolectaron recientemente para hacer estos cálculos y comparar los datos con los de la gripe en años anteriores. Pero COVID-19 es una pandemia en curso en la que llevamos solo unos meses, y los datos de la gripe que los médicos utilizaron para la comparación son de episodios de gripe pasados, datos de temporadas enteras. Pero la lógica nos dice que los datos recolectados en medio del transcurso de una pandemia no pueden usarse para mostrar que la pandemia “no es tan grave” como una gripe pasada basándose en los datos de gripe recolectados para toda una temporada de gripe.

Por el contrario, usando la misma lógica, se podría argumentar que la tasa de natalidad del 2020 es menor que la del 2019 porque han nacido menos bebés este año. Si bien es cierto que en lo que va del 2020 han nacido menos bebés, comparar los datos de medio año con los de un año entero para concluir que ha habido un descenso en la tasa de natalidad es claramente engañoso en el mejor de los casos.

Del mismo modo, usando la misma lógica, se podría declarar un ganador en una elección con el informe de resultados de solo el 62 % de los precintos, como lo hizo el Partido Demócrata de Iowa en febrero, algo que los usuarios de Twitter se apresuraron a señalar como problemático.

 

Understanding and Interpreting Data_2

Imagen: Capitol Hill Books, @chbooksdc

 

Correlación sin causalidad

SEP de la escuela primaria: Analizar e interpretar datos para dar sentido a los fenómenos, usando el razonamiento lógico, las matemáticas y/o la computación.

SEP de la escuela intermedia: Distinguir entre las relaciones causales y correlacionales en los datos.

En toda la Internet se pueden encontrar teorías sobre todo tipo de cosas, incluyendo que el 5G está de alguna manera vinculado a COVID-19. La razón por la que esta correlación se ha planteado erróneamente es simple (obviamente demasiado simple): hubo un aumento de la disponibilidad de 5G alrededor del momento en que empezamos a experimentar COVID-19. También ha habido un aumento en las películas del Doctor Dolittle, la cantidad de nevadas en Nueva Inglaterra, el número de horas de luz solar en el hemisferio norte y el número de niños llamados Kylo en los Estados Unidos y, sin embargo, estos fenómenos se libraron misericordiosamente de las acusaciones de causar la pandemia porque, como diría un científico, la correlación no indica causalidad. El hecho de que dos cosas compartan una tendencia no significa que uno pueda decidir que una de ellas fue la causa de la otra.

Sin considerar la causalidad, se pueden formular muchos argumentos ilógicos con solo mirar los conjuntos de datos. Por ejemplo, se podría argumentar que el crecimiento de las plantas determina cuánto lloverá, y no al contrario. O que el número de galochas vendidas es el resultado del número de paraguas vendidos, en lugar de que ambos casos sean determinados por el clima. O, como se ve en la gráfica que sigue, que el número de películas en las que se presenta Nicholas Cage determina la cantidad de personas que se ahogarán en las piscinas ese año, en lugar de que sean coincidencialmente similares, y que fuera de eso no tengan ninguna otra relación.

Understanding and Interpreting Data_3

Imagen: Tyler Vigen

El hecho de que dos conjuntos de datos parezcan estar correlacionados no significa que uno haya causado el otro, o que se relacionen en absoluto.

 

Sabiendo esto, ¿cómo deberíamos evaluar los datos?

Cuando se nos da nueva información, debemos hacernos una serie de preguntas.

¿Es esta una fuente de confianza?

Comprobar las credenciales de las personas que presentan la información y determinar la evidencia que tienen, si la evidencia fue evaluada por expertos y dónde fue publicada ayudaría a eliminar la información errónea antes de que sea transmitida a los demás.

¿Tienen sentido los datos?

Usted sabe más de lo que cree saber. Con frecuencia, nuestros instintos intentan alertarnos de que algo no está bien del todo y que deberíamos examinarlo más de cerca.

Si le dijeran, por ejemplo, que ir en bicicleta al trabajo dos veces por semana y compartir el carro dos veces por semana reduciría su huella de carbono en la misma cantidad, ¿le parecería que eso tiene sentido? ¿O sabría, por lógica, sin tener ningún dato real, que una persona en bicicleta no produce el mismo nivel de emisiones que produce un carro? Considere la información de manera crítica, siga la lógica y haga algunas investigaciones para confirmar las afirmaciones que se hacen.

¿Son comparables estos datos?

Los conjuntos de datos pueden estar relacionados, pero no ser comparables simplemente porque no se tratan de la misma manera o de una manera que tenga sentido para la hipótesis que se está probando. Para determinar si los conjuntos de datos pueden ser comparados, se deben hacer preguntas sobre cómo se recolectaron, analizaron y presentaron los datos al público.

Por ejemplo, digamos que un estudio está determinando cómo asignar fondos adicionales para el transporte público. El estudio dice que 100 000 personas usan el transporte público en la Ciudad X, mientras que solo 90 000 personas usan el transporte público en la Ciudad Y. Por lo tanto, la Ciudad X debería recibir todos los fondos. Pero, ¿cuáles son los tamaños de la población de estas ciudades? Si 100 000 personas son el 33 % de la población de la Ciudad X, pero 90 000 personas son el 90 % de la población de la Ciudad Y, ¿tiene sentido comparar el número de personas en lugar del porcentaje de la población? ¿Y qué hay de los periodos de tiempo? Si estos valores corresponden a los promedios diarios, y el promedio de la Ciudad X es para todo el año mientras que el promedio de la Ciudad Y es para un mes con muchos días festivos (como diciembre), ¿tiene sentido alguno comparar estas cifras?

Understanding and Interpreting Data es 6.png.001

Los mismos datos presentados de dos maneras distintas

 

¿Hay una causa evidente?

Recuerde, incluso después de responder a todas las preguntas anteriores, la correlación no determina la causalidad. Es importante examinar los conjuntos de datos de manera crítica y determinar si hay alguna razón lógica para pensar que uno haya sido la causa del otro.

Digamos que se le presenta una gráfica que muestra una alta correlación entre dos conjuntos de datos. ¿Puede determinar lógicamente si uno de los conjuntos de datos es la causa del otro? ¿Es posible, por ejemplo, que las arañas se enfaden por la capacidad de los niños de deletrear palabras largas? (No) ¿O que el miedo a las arañas venenosas haga que los niños se queden en casa a memorizar palabras? (Probablemente no) ¿O que ambos sean el resultado de otra causa, o incluso pura coincidencia? (Sí)

Understanding and Interpreting Data_7

Imagen: Tyler Vigen

 

La importancia de comprender los datos

Es solo formulando estas preguntas que podemos juzgar mejor la validez de las afirmaciones y decidir por nosotros mismos lo que los datos indican realmente. La investigación ha demostrado que incluso los científicos pueden llegar a conclusiones falsas en sus propios estudios, porque “las pruebas estadísticas se usan, se interpretan o se entienden mal”.

Es importante que las personas, incluidos los estudiantes, aprendan a comprender e interpretar los datos por sí mismos, porque las estadísticas pueden ser engañosas. Como dijo Mark Twain: “Los hechos son tercos, pero las estadísticas son más flexibles”.

 

Traducción: Victory Productions

About Morgan Turano

Morgan is the Senior Science Editor at Victory Productions. With over ten years of laboratory research and editorial experience, she has also taught kindergarten and college chemistry classes. She holds master’s degrees in chemistry and writing.

Leave a Comment





Scroll To Top