Análisis de datos

Si usted ojea cualquier revista o libro de texto, rápidamente notará que el texto está intercalado con gráficos y figuras. En algunas revistas, casi el 30% del espacio está ocupado por gráficos (Cleveland, 1984), tal vez sobrepasando el dicho de que “una foto vale mil palabras.” A pesar de que muchas revistas y periódicos también incluyen gráficos, la representación visual de los datos es fundamental en la ciencia y representa algo muy diferente de las fotografías e ilustraciones publicadas en revistas y periódicos. A pesar de que los datos numéricos están inicialmente recopilados en tablas o bases de datos, frecuentemente están representados en forma gráfica para ayudar a los científicos a visualizar e interpretar la variación, el patrón y las tendencias dentro de los datos.

Los datos se encuentran al centro de cualquier esfuerzo científico. Los científicos en diferentes campos recopilan datos de muchas diferentes maneras, desde la magnitud y lugar de los terremotos, a la longitud de los picos de los pinzones, a la concentración de dióxido de carbono en la atmósfera, entre otras. Durante siglos se han usado las representaciones visuales de los datos científicos – Copérnico dibujo esbozos esquemáticos de las órbitas planetarias alrededor del sol, por ejemplo – pero la representación visual de los datos numéricos en gráficos es un desarrollo más reciente. En 1786, William Playfair, un economista escocés, publicó El atlas comercial y político (The Commercial and Political Atlas), que contenía una variedad de estadísticas presentadas en gráficos. Entre éstas había una imagen en la Figura 1, con un gráfico que comparaba las exportaciones desde Inglaterra con las importaciones a Inglaterra, desde Dinamarca y Noruega entre 1708 a 1780 (Playfair, 1786).

Figura 1: El gráfico de William Playfair fue uno de los primeros ejemplos de la representación visual de los datos numéricos.
 enlarge image
Figura 1: El gráfico de William Playfair fue uno de los primeros ejemplos de la representación visual de los datos numéricos.

El gráfico de Playfair presentaba un poderoso mensaje de manera muy sucinta. Dicho gráfico muestra el tiempo en el eje horizontal (x) y el dinero en libras esterlinas en el eje vertical (y). La línea amarilla muestra el valor monetario de las importaciones de Inglaterra desde Dinamarca y Noruega; la línea roja muestra el valor monetario de las exportaciones a Dinamarca y Noruega desde Inglaterra. A pesar de que una tabla de datos numéricos mostraría la misma información, no sería inmediatamente aparente que algo importante ocurrió alrededor de 1753: Inglaterra empezó a exportar más de lo que importaba, poniendo la “balanza a favor de Inglaterra.” Esta simple visualización de un gran conjunto de datos numéricos hacía más fácil su rápida comprensión.

Los gráficos y las figuras se convirtieron en componentes habituales de la ciencia y de la comunicación científica, y el uso de los gráficos ha aumentado considerablemente en las revistas académicas en los últimos años, casi doblando su promedio de 35 gráficos por revista a más de 60 entre los años 1985 y 1994 Zacks et al., 2002). Este aumento ha sido atribuido a varias causas, incluidos los programas de computación que permiten la fácil producción de gráficos, al igual que la producción de grandes y complejos conjuntos de datos que requieren visualización para ser interpretados.

Interpretando los gráficos

La mayoría de los gráficos publicados en revistas científicas relacionan dos variables. Casi el 85% de los gráficos publicados en la revista Science, de hecho, muestra la relación entre dos variables, una en el eje x y otra en el eje y (Cleveland, 1984). A pesar de que existen muchos tipos de gráficos, saber cómo interpretar un gráfico de dos variables puede ayudarle a cualquiera a descifrar no sólo la inmensa mayoría de gráficos en la literatura científica, sino también ofrece un punto de partida para examinar gráficos más complejos. Como un ejemplo, imagínese tratando de identificar una tendencia cualquiera a largo plazo, en la tabla del datos que registra las concentraciones de dióxido de carbón, tomadas durante varios años en Mauna Loa.

Tabla 1: Esta pequeña porción de una tabla de datos contienen concentraciones de dióxido de carbono atmosférico medido en Mauna Loa – dar clic en ella para ver la tabla completa. Descargar los datos de la CDIAC (Centro de Análisis de Información de Dióxido de Carbono).
 enlarge image
Tabla 1: Esta pequeña porción de una tabla de datos contienen concentraciones de dióxido de carbono atmosférico medido en Mauna Loa – dar clic en ella para ver la tabla completa. Descargar los datos de la CDIAC (Centro de Análisis de Información de Dióxido de Carbono).

Las variables son sencillas – el tiempo en meses está en la fila superior de la tabla, los años, en la columna a la izquierda y la concentración de dióxido de carbón (CO2), dentro de los cuadrados individuales de la tabla. Sin embargo, es un desafió para la mayoría de la gente entender esta cantidad de información numérica. Tendría que mirar cuidadosamente la tabla completa para ver una tendencia. Pero si tomamos estos mismos datos y los ponemos en un gráfico, se vería así (Fig. 2):

Figura 2: Los datos trazados de la Tabla 1, el CO2 atmosférico medido en Mauna Loa (Keeling & Whorf, 2005).
 enlarge image
Figura 2: Los datos trazados de la Tabla 1, el CO2 atmosférico medido en Mauna Loa (Keeling & Whorf, 2005).

El eje x muestra una variable en el tiempo en unidades de años y el eje y muestra la gama de la variable de las concentraciones de partes de unidades de CO2 por millón (ppm). Los puntos son medidas individuales de concentraciones – los números mostrados en la Tabla 1. Por consiguiente, el gráfico nos muestra el cambio en las concentraciones del COatmosférico en el tiempo. La línea conecta las medidas consecutivas, haciendo que sea más fácil ver las tendencias a corto y largo plazo dentro de los datos. En el gráfico, es fácil ver que la concentración de COatmosférico aumentó regularmente con el tiempo, desde unas ppm de 315 en 1958 a su nivel actual de aproximadamente 375 ppm. Dentro de esa tendencia a largo plazo, también es fácil ver que hay ciclos anuales, de corto plazo, de aproximadamente 5 ppm. En el gráfico, los científicos pueden derivar información adicional de los datos numéricos, por ejemplo, cuán rápido se eleva la concentración de CO2. Este índice se puede determinar calculando la cuesta de la tendencia a largo plazo en los datos numéricos y ver este índice en el gráfico lo hace aparentemente fácil. Mientras que un observador agudo podía haber logrado ver en la tabla el aumento de las concentraciones de CO2 en el transcurso de las cinco décadas, sería muy difícil hasta para un científico entrenado, notar el ciclo anual del CO2 atmosférico en los datos numéricos – una característica elegantemente demostrada en el zigzag de la línea.

Poner los datos en una forma visual es un paso en el análisis e interpretación de los datos y los gráficos bien diseñados ayudan a los científicos a interpretar sus datos. La interpretación consiste en explicar por qué hay una elevación en el largo plazo en las concentraciones de COatmosférico además de la fluctuación anual, lo cual va más allá del gráfico en sí y pone los datos en su contexto. Al ver el ciclo regular y repetitivo de alrededor de 5 ppm, los científicos se han dado cuenta que la fluctuación puede estar relacionada con los cambios naturales en el planeta debidos a la actividad temporal de las plantas. La representación visual de estos datos también ayuda a los científicos a darse cuenta que el aumento de las concentraciones de CO2 en las cinco décadas mostradas, ocurren paralelamente con la revolución industrial y, por consiguiente, están relacionadas casi con seguridad al creciente número de actividades humanas que emiten CO2 (IPCC, 2007).

Es importante notar que ninguna de estas tendencias (el aumento a largo plazo o el ciclo anual) ni la interpretación pueden ser vistas con una sola medida o punto de referencia de los datos. Esta es una de las razones por la que casi nunca se escucha a los científicos usar el singular de la palabra dato. Imagine que hay un solo punto en el gráfico. Usted puede dibujar una línea que lo atraviesa en cualquier dirección. La práctica rigurosa científica requiere múltiples puntos de referencia para que la interpretación sea clara, y un gráfico puede ser crítico no solamente al mostrar los datos en sí, sino demostrando sobre cuántos datos el científico está basando su interpretación.

Acabamos de seguir un corto y lógico proceso para extraer mucha información de este gráfico. A pesar de que una infinita variedad de datos puede aparecer en forma gráfica, este mismo procedimiento puede aplicarse cuando se lee cualquier gráfico:

  1. Describa el gráfico: ¿Qué dice el título? ¿Qué variable está representada en el eje x? ¿Qué hay en el eje y? ¿Cuáles son las unidades de medición? ¿Qué significan los símbolos y colores?
  2. Describa los datos: ¿Cuál es la gama numérica de los datos? ¿Qué tipo de patrones puede ver en la distribución de los datos cuando se los traza?
  3. Interprete los datos: ¿Cómo se relacionan los patrones que ve en el gráfico con otras cosas que sabe?

Se hace las mismas preguntas si observa un gráfico con dos variables o algo más complejo. Debido a que la creación de gráficos es una forma de analizar datos, es importante examinar los gráficos de los científicos, tanto como su interpretación escrita.

La estimación del error y la incertidumbre en los datos visuales

Los gráficos y otras representaciones visuales de la información científica comúnmente contienen otro elemento clave del análisis de datos científicos – una medida de incertidumbre o error dentro de las medidas. Por ejemplo, el gráfico en la Figura 3 presenta medidas promedio de emisiones de mercurio de la tierra en diferentes horas en el curso de un mismo día. Las barras de errores en cada barra vertical proveen la desviación natural estándar de cada medida, y están incluidas para demostrar que los cambios en la emisión en el tiempo son mayores que la inherente variabilidad dentro de cada medida (para más información, vea nuestro módulo Data: Statistics)

Figura 3: Las barras de errores en esta demostración gráfica de los datos demuestran que el cambio en el valor de la medida (barras rojas) con el tiempo, es mayor a la variabilidad inherente en los datos (las barras de errores en negro). Adaptado de Carpi et al. (2007).
Figura 3: Las barras de errores en esta demostración gráfica de los datos demuestran que el cambio en el valor de la medida (barras rojas) con el tiempo, es mayor a la variabilidad inherente en los datos (las barras de errores en negro). Adaptado de Carpi et al. (2007).

La demostración gráfica de los datos también puede ser usada no solamente para demostrar errores, sino para cuantificar errores e incertidumbre en un sistema. Por ejemplo, la Figura 4 muestra una cromatografía de un derrame de petróleo. Los picos en la cromatografía (la línea azul) proveen información sobre los químicos identificados en el derrame, y el tamaño de los picos puede proveer un estimado de la relativa concentración de ese químico específico en el derrame. Sin embargo, antes de que se pueda extraer esta información del gráfico, hay que calcular el error y la incertidumbre instrumental (la línea roja) y substraerlos de las áreas pico. Como puede ver en la Figura 4, la variabilidad instrumental disminuye a medida que se va de izquierda a derecha en el gráfico y por consiguiente, en este caso, la demostración gráfica del error es decisiva para el análisis acertado de los datos. (*)

Figura 4: La demostración gráfica de los datos puede ser usada para estimar el error y la incertidumbre en el sistema (línea roja), al igual que presentar esta incertidumbre.
©Commonwealth of Australia 2006
Figura 4: La demostración gráfica de los datos puede ser usada para estimar el error y la incertidumbre en el sistema (línea roja), al igual que presentar esta incertidumbre.
(*) Fuente: Visionlearning