Introduccion

PROPÓSITO: El alumno comprenderá la manera en que se establece una relación entre dos variables, a partir de tablas, diagramas, regresiones y correlaciones, para describir la naturaleza e intensidad lineal de esa relación.

Tiempo 10 horas. 

Introducción:

Estudio de variables bidimensionales

A una de las variables se la llama variable independiente y se representa por X. A la otra se la denomina variable dependiente y su símbolo es Y. (también se usan las minúsculas: x e y).

Los datos deben de ir siempre apareados. Para cada individuo se dan su X y su Y. ("Cada oveja con su pareja"). El nº de individuos se representa por N.

 

Ejemplos de variables bidimensionales: talla y peso, edad y tensión arterial, frecuencia cardiaca y frecuencia respiratoria, sexo y hábito de fumar, sexo y peso al nacer, velocidad de un vehículo y distancia de frenada...

Cuando las variables son cuantitativas, se pueden presentar:

a)   Cada variable por separado (con sus tablas, gráficos e índices)

b) Conjuntamente (objeto de este tema) mediante:

a.   La tabulación y representación gráfica de los datos

b.   El cálculo de dos índices: 

i.-  Coeficiente de correlación y Coeficiente de Determinación.

ii.-  Ecuación de Regresión.

 Tabulación

De los datos originales se hace una tabla, vertical u horizontal, con una columna (o fila) para X y otra para Y. Es opcional añadir otra para el número de orden del individuo. Los datos se ordenan en función del orden de los individuos o de los valores de X o de los valores de Y o no se ordenan en absoluto.

  Gráficos

  Datos originales, aislados:

Es el diagrama de puntos, también llamado de dispersión o de nube de puntos. Los valores de cada individuo llevados a un eje de coordenadas originan un punto.

  Índices estadísticos

  Los típicos de estas distribuciones, aparte de los de cada variable por separado, son el coeficiente de correlación y la ecuación de regresión. Son los llamados índices o parámetros de asociación.

  Correlación significa relación mutua y expresa el grado de asociación existente entre las variables, el cuanto de la relación. Su parámetro es el coeficiente de correlación. Su símbolo es r, que puede acompañarse, si la claridad lo exige, de un subíndice con la notación de las variables (por ejemplo rxy). Se puede calcular la correlación entre dos variables o más (correlación múltiple).

  La regresión es la forma, el cómo de esa asociación. Expresa la relación entre las dos variables, X e Y, mediante la ecuación de regresión y su representación gráfica la línea de regresión.

Mediante ella conocida una variable es posible predecir la otra. Por consenso X es la variable independiente e Y la dependiente. De esta forma

Y = f(X).

  Coeficiente de correlación

  Mide la intensidad de la asociación entre las variables. Es un número abstracto, independiente de la unidad de medida de las variables. Puede adoptar cualquier valor entre -1 y 1.

  Aparte de su valor descriptivo sirve para ver la significación estadística de la relación. Aquí veremos sólo la correlación entre dos variables. Su coeficiente de correlación se llama de Pearson, aunque cuando se dice simplemente coeficiente de correlación, se sobreentiende que es éste. El coeficiente, de Spearman, se usa cuando no puede utilizarse el de Pearson.

Si se observa una correlación aparentemente alta entre X e Y puede tratarse de dos situaciones:

  Una variación de X provoca otra en Y. Por ejemplo, el aumento de la temperatura corporal produce un aumento de la frecuencia cardiaca.

  X e Y varían a la par por efecto de una tercera o más variables. La correlación existente es pura coincidencia. Son las llamadas correlaciones espurias. Son las más frecuentes. De forma automática correlación o causalidad. Se requiere un estudio experimental con resultado significativo.

  Regresión

  La fórmula matemática que la expresa puede ser una ecuación de primer grado (regresión lineal: y = a + b*x) u otras ecuaciones más complejas (cuadrática: y = a*x² + b*x + c; exponencial: y = a*e^(b*x) ; potencia: y = a*x^(b) ; hiperbólica: y = a*(b/x) ; logarítmica: y = a + b*ln(x); etc...), que no trataremos, pues no son parte de este curso. Nos limitaremos a la regresión lineal, también llamada recta de regresión, pues su representación gráfica es una línea recta, que representa lo mejor posible a todos los puntos del diagrama de dispersión. Realmente se podrían trazar muchas rectas de regresión, pero sólo nos interesa la llamada "mejor línea de ajuste", que es la que corresponde a la ecuación y = a + b*x (ó y = b*x + a).

  En esta fórmula b es el coeficiente de regresión, también llamado pendiente, pues de él depende la inclinación de la recta y nos indica en cuanto se modifica y en media cuando x varía en una unidad.

a es el valor de y cuando x = 0 , por lo que también se la llama ordenada en el origen o intersección de y . Se ha comprobado que la mejor línea de ajuste es aquella en que la suma de los cuadrados de las diferencias entre cada punto original y la línea de regresión es la menor de todas las posibles. Por eso a este método se le llama "de los mínimos cuadrados".  

  Afortunadamente no hay que calcularlos, pues se ha desarrollado una fórmula mucho más manejable para encontrar la ecuación. En principio se considera a y variable dependiente y a x variable independiente, por lo que la regresión se dice que es de y sobre x. En este sentido b es realmente byx y así se entiende cuando no hay subíndice.

  Matemáticamente también se puede calcular la regresión de x sobre y. Si interesara este cálculo, lo que no es habitual, escribiríamos bxy para evitar confusiones.

 

Referencia: http://eduardobuesa.es/Tema07.pdf