Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. CONCEPTO Y APLICACIONES.
En cambio se dice que entre dos variables Xi e Yi existe una dependencia es-
tadística cuando se presupone que entre ambas hay algún tipo de relación y a determi-
nados valores de la variable Xi le corresponden indeterminados e indefinidos valores de
la variable Yi. Ejemplos de dependencia estadística son los siguientes:
la variable Xi es el ingreso y la variable Yi es el ahorro, en cuyo caso, si
bien se sabe por el imperio de las leyes económicas hay una relación directa entre el
ingreso y el ahorro, dos personas con iguales ingresos no ahorrarán lo mismo.
la variable Xi es el precio de un bien y la variable Yi es la demanda: entre
ambas variables sólo existe una dependencia estadística.
la variable Xi es el precio de auto y la variable Yi es la edad del compra-
dor: se supone que entre ambas variables sólo existe una dependencia estadística.
Cuando entre dos variables no existe dependencia estadística se dice que ellas son
estadísticamente independientes. Por ejemplo, no parece que exista dependencia es-
tadística alguna entre el precio del algodón en bruto y la producción de uva para el con-
sumo, por lo que estas dos variables serían estadísticamente independientes.
El análisis de regresión calcula una ecuación que produce valores de Y para va-
lores dados de X. Por ejemplo: para la concesionaria de autos, precio del auto y edad de
los compradores. La concesionaria que venda a personas de más edad probablemente
Estadística I 80
venderá autos más caros y los que tengan clientes jóvenes, autos más baratos. Esta rela-
ción es cierta solamente en promedios, pues ocasionalmente observaremos que hay autos
caros comprados por persona jóvenes y viceversa. El problema que se nos plantea es
establecer este tipo de relación en forma de ecuación, de tal manera que basados en la
edad de un cliente (X), podamos hallar una estimación del promedio del precio del auto
comprado (Y).
Para encontrar la ecuación que relaciones las variables, el primer paso es recoger
datos que muestren valores correspondientes a las variables bajo estudio. El próximo
paso es marcar los puntos sobre un sistema de coordenadas rectangulares.
A partir del diagrama de dispersión es posible, con frecuencia ver una curva sua-
ve que aproxima los datos, que se denomina curva de aproximación. El problema gene-
ral de hallar ecuaciones de curvas de aproximación que se ajusten a un conjunto de datos
se llama ajuste de curvas.
Observando ambos diagramas queda perfectamente claro que los puntos no si-
guen una disposición lineal y que, por eso mismo, un ajuste de ese tipo no sería apropia-
do. Con posterioridad se verá que existen algunas soluciones para aquellos casos de ajus-
tamiento en los cuales los diagramas de dispersión presentan una disposición no lineal.
Para cada una de las variables bajo análisis se obtiene n valores empíricos, es de-
cir, n datos provenientes de la realidad, que se ordenan en una tabla que tiene el siguien-
te formato:
Xi Yi
X1 Y1
X2 Y2
… …
Xn Yn
Con el diagrama de dispersión se puede tener una idea aproximada del tipo de re-
lación existente entre las variables. La naturaleza de la relación puede adoptar muchas
formas, que van desde funciones matemáticas sencillas hasta las muy complicadas. Es
Estadística I 82
posible representar una curva que se aproxime a los datos. Tal curva se llama curva de
aproximación.
En el gráfico se ve que los datos se aproximan bien a una línea recta, que es la re-
lación más simple, y se dice que entre las variables existe una relación lineal.
Por otro lado, además de describir linealmente la relación existente entre dos va-
riables, otro de los objetivos del ajustamiento es la estimación o el pronóstico, es decir
que una vez hallada la expresión de la función matemática de primer grado, ella puede
ser utilizada para estimar valores de la variable dependiente Yi para valores selec-
Estadística I 83
PRECIO
EDAD Precios de automóviles según la edad del
(en miles $)
Yi Xi 110 comprador
80,620 33 100
62,184 26 90
80
Precios (en miles $)
81,424 44
96,208 56 70
87,924 43 60
89,768 41 50
78,752 35 40
63,176 30 30
20
10
0
0 10 20 30 40 50 60
Edad
2. TIPOS DE AJUSTAMIENTO
El diagrama de dispersión nos puede dar una idea aproximada del tipo de relación
que existe entre las variables. La naturaleza de la relación puede adoptar muchas formas,
que van desde las funciones matemáticas más sencillas hasta las muy complicadas. La
relación más simple es una línea recta o relación lineal.
miento.
Relación curvilínea negativa: modelo del auto y precio de venta.
Relación curvilínea en forma de U: número de errores por hora de trabajo en el
taller de la concesionaria y cantidad de horas trabajadas.
No existe relación entre X e Y: número de errores por hora de trabajo en el ta-
ller de la concesionaria y edad de los compradores
Datos empíricos
Diagrama de
dispersión
Ajustamiento Ajustamiento
Lineal no Lineal
Ajustamiento Lineal
Métodos
Subjetivos Objetivos
Yi
R (Xi;Yi)
Q (X2;Y2) Y-Y1
Y2-Y1
P(X1;Y1)
S T
X2-X1
X-X1
Xi
RT QS
Y Y
i 1 i
X X1 X X 1 Y2 Y1 Y Y2 Y1 X X Y
Yi Y1 i i i 1 1
PT PS Y2 Y1 X 2 X 1 X 2 X1 X 2 X1
Yi m X i X 1
Y2 Y1
donde m es la pendiente y representa el cambio de Y dividido por el cambio
X 2 X1
de X.
PRECIO
EDAD Precios de automóviles según la edad del
(en miles $)
Yi Xi 110 comprador
80,620 33 100
62,184 26 90
80
Precios (en miles $)
81,424 44
96,208 56 70
87,924 43 60 Yi 1,1341X i 35,697
89,768 41 50
78,752 35 40
63,176 30 30
20
10
0
0 10 20 30 40 50 60
Edad
Y2 Y1
Yi X i X 1 Y1 96,208 62,184 X i 26 62,184 30,024 X i 26 62,184
X 2 X1 56 26 30
Yi 1,1341X i 35,697
4. SEMIPROMEDIOS
Para aplicar este método, se ordena, en primer lugar, el grupo de n pares de datos
(Xi;Yi) en forma creciente, tomando como referencia la variable Xi.
Estadística I 87
Xi Yi
X1 Y1
X Y2
n 2
j= ...
2 ...
X j Yj
Xk Yk
X Yk 1
n k 1
j=
2 ... ...
X n Yn
Luego se obtienen los promedios para los primeros j valores de ambas variables,
haciendo:
X X ... X Y Y ... Y
1 2 j 1 2 j
X ; Y1
1 j j
La ecuación de la línea recta que pasa por esos puntos se encuentra aplicando la
expresión
Y 2 Y1
Yi Y 1 X i X 1
X 2 X1
Y Y XY
i
1
2 Y 1
2 X1
X X 1 Y 71,180
i i
88,831 71,180
46 31
X 31 1,1765 X 31
i i
Yi 1,1765 X i 36,4725 71,180 Yi 34,7105 1,1765 X i
70 Y1 34,7105 11,1765X i
60
50
40
30
20
10
0
0 10 20 30 40 50 60
Edad
Estadística I 89
Como ya se indicó, Gauss postula que la mejor recta es aquélla que minimiza esos
desvíos al cuadrado. Si bien en el plano existen infinitas rectas, cada una con un par de
parámetros a1 y b1, de todas ellas sólo una cumple con la condición impuesta por
Gauss. Se trata de encontrarla, y eso equivale a encontrar sus parámetros a1 y b1. De
acuerdo con los procedimientos del Análisis Matemático, eso se consigue minimizando la
función , es decir haciendo
Estadística I 90
Y a b X
i 1 1 i
2
min.
Para eso, en primer lugar, debe calcularse la primera derivada de con respecto
al parámetro a1, e igualársela a cero.
Yi a 1 b1X i
2
2 Y a b X 1 2 Y a b X 0
a a i 1 1 i i 1 1 i
1 1
Yi a 1 b1 X i
2
2 Y a b X X 2 Y X a X b X 2 0
b b i 1 1 i i i i 1 i 1 i
1 1
Como (-2) es distinto de cero, debe ser Yi X i a1 X i b1 X i2 0 .A partir de esta
igualdad, se verifica que Yi X i a1 Xi b1 Xi2 0 , por lo que finalmente, median-
te un pasaje de términos, se obtiene la siguiente expresión
Yi X i a1 X i b1 X i2
que se denomina Segunda ecuación normal de Gauss.
Yi X i
Yi X i X i2 Y X2 X Y X
i i i i i
a
Xi n X X
1 2
n 2
i i
X i X i2
Estadística I 91
n Yi
Xi Yi X i n Y X X
i i i
Yi
b
1 n Xi n X 2 X
i
i
2
X i
X i2
Lo que quedaría por analizar es si el punto crítico obtenido corresponde a un
máximo o a un mínimo, para lo cual se debería obtener la segunda derivada y verificar su
signo. Sin embargo, en este caso eso no es necesario porque aquí ocurre algo similar a lo
visto en la tercera propiedad de la media aritmética. En su recorrido a través del dia-
grama de dispersión, la recta de ajustamiento se comporta como una medida de
tendencia central aunque de carácter dinámico (no de carácter estático, como sería el
caso de una media aritmética) ya que cumple con esa propiedad (equivalente a la segun-
da propiedad de la media aritmética) de que Y Yˆ 0 , cuya verificación es sencilla:
i i
aplicando sumatoria tenemos
Yi a 1 b1X i Yi na 1 b1 X i 0
para la primera ecuación normal de Gauss.
Xi Yi Xi2 Xi Yi
X1 Y1 X1 2 Xi Yi
X2 Y2 X2 2 X2 Y2
… … … …
Xn Yn Xn2 Xn Yn
2
X i Y i X i X Yi i
Estadística I 92
con la cual se obtienen todos los términos involucrados en el cálculo de los parámetros.
Retomando el ejemplo de la concesionaria:
Xi Yi Xi2 Xi Yi Yi X i2 X i Yi X i
33 80,620 1.089 2.660,460 a1
26 62,184 676 1.616,784
n X 2 X
i
i
2
44 81,424 1.936 3.582,656 640 .056 . 12 . 492 308 . 25.360,368 184.286,508
36,3932
56 96,208 3.136 5.387,648 8 . 12.492 3082 5.072
43 87,924 1.849 3.780,732
41 89,768 1.681 3.680,488 n Y X X Y
i i i i
35 78,752 1.225 2.756,320 b
30 63,176 900 1.895,280
1
n X X
i
2
i
2
308 640,056 12.492 25.360,368 8 . 25 . 360 ,368 308 . 640,056 5.745,690
1,1328
8 . 12.492 3082 5.072
70
60
50
40
30
20
10
0
0 10 20 30 40 50 60
Edad
Este método parte del supuesto siguiente: si en las ecuaciones normales de Gauss
se consiguiera que X i 0 , las fórmulas para calcular los parámetros podrían reducirse
significativamente. Para que se anule la sumatoria de la variable Xi, se la transforma con-
venientemente, haciendo xi X i X , con lo cual la xi X i X 0 por la se-
gunda propiedad de la media aritmética. De esa manera, si se efectuara el desarrollo teó-
rico para encontrar las fórmulas de los parámetros con las variables xi e Yi en lugar de
con las variables Xi e Yi, las ecuaciones normales que se obtendrían tendrían la siguiente
forma:
Estadística I 93
Utilizando los nuevos parámetros la recta de ajustamiento puede ser escrita del
siguiente modo: Yˆ a b x . Sin embargo, si bien el método abreviado intenta calcular
i 1 1 i
los parámetros mediante fórmulas más breves, al concluir el cálculo no se obtienen a1 y
b1 , los verdaderos parámetros. Para llegar a esos valores se parte de considerar que exis-
ten dos expresiones posibles para la recta de ajustamiento, es decir, por un lado,
Yi a1 b1 X i y por el otro, Yi a1 b1xi . Como además, se sabe que xi X i X , en la
segunda de esas expresiones se reemplaza xi, quedando
con lo cual se obtienen los verdaderos parámetros a1 y b1 a partir de los calculados a1 y
b1 .
En el gráfico puede verse que se han representado los n puntos empíricos y la re-
cta de ajustamiento, y que se han indicado dos ejes de abscisas que deben utilizarse alter-
nativamente, según se trabaje con las variables Xi o xi, con lo que claramente se descubre
la correspondencia entre los valores de ambas, de modo que el valor X en el eje Xi co-
rresponde al valor cero en el eje xi.
Como correr los ejes hacia uno u otro lado no modifica la pendiente de la recta,
fácilmente puede comprenderse que b1´ es igual a b1 (ambos valores son la tangente del
ángulo mientras que lo que sí se modifica con el corrimiento del eje Yi es la ordenada
al origen de la recta de ajustamiento, por lo que a1´ es diferente a a1 (en el gráfico se in-
dican las dos).
sen. a1 a1
Recordando que tg. b1 a1 a1 b1 X Y b1 X
cos. X
El caso inverso consiste en imaginar una alternativa que resulta sólo posible des-
de el punto de vista teórico: que en un problema de ajustamiento la variable inde-
pendiente sea Yi en lugar de Xi. Se reitera que esta posibilidad sólo puede presentarse
teóricamente porque en la vida real la solución de cualquier problema de ajustamiento se
encara definiendo siempre anticipadamente cuál es la variable independiente y a
ella normalmente se la simboliza con Xi. Sin embargo, una vez definida esta circunstan-
cia, puede pensarse que el conjunto particular de datos con el que se está trabajando
puede originar otro problema de ajustamiento, que llamaremos caso inverso, en el que
la variable independiente sea la simbolizada tradicionalmente con Yi. Gráficamente
esto da lugar a la aparición de una segunda recta de ajustamiento simbolizada co-
mo X a2 b2Yi la cual, en realidad, no es una segunda recta teóricamente hablan-
do, sino la misma recta Y observada desde un ángulo completamente diferente.
i
Por esa circunstancia puede resultar apropiado denominar “recta reflejo” a la recta de
ajustamiento X a2 b2Yi .
Yi X i a2 Yi b2 Yi2
en las cuales se observa una similitud con las ecuaciones normales para la ecuación Yi ,
pero con la variable Yi en lugar de Xi, y viceversa.
Finalmente, las fórmulas de los parámetros a2´ y b2´ del caso inverso, calculadas
mediante el método abreviado, son
Estadística I 96
a
Xi X b
yi X i
2 n 2
yi2
Intersección de las rectas de ajustamiento:
Yi na1 b1 X i y X i na2 b2 Yi
y se dividen ambas por n, resultando
Yi na1 b1 X i y X i na2 b2 Yi ,
n n n n n n
Y a1 b1 X y X a2 b2 Y
con lo cual se demuestra que el punto de coordenadas X ; Y satisface las dos ecua-
ciones correspondientes a las rectas de ajustamiento, por lo que ambas rectas pasan
por ese punto y por consiguiente, se cruzan en él.
Este punto por el que pasan las dos ecuaciones se llama centroide o centro de
gravedad de los datos.
PREGUNTAS TEORICAS
1º ¿Cuál de las siguientes es la condición básica que debe cumplirse en el criterio de los
mínimos cuadrados propuesto por Gauss?
a Y Y 0 i
2
b
Yi Yi minimo
2
Yi Y
c minimo