You are on page 1of 10

UNIVERSIDAD TECNOLÓGICA NACIONAL

FACULTAD REGIONAL LA RIOJA


Alumnos: de la Fuente Castro, Julieta

PROBABILIDAD Y Agustina
Scalet, Giuliano

Carrera: Ingeniería Civil

ESTADÍSTICA Profesores: Lic. Russo Federico


Ing. Russo Luis
Ing. Arias Marcelo
TRABAJO PRACTICO N°3
Año Lectivo: 2023
UNIVERSIDAD
de la Fuente Castro, Julieta Agustina TECNOLOGICA
Scalet, Giuliano NACIONAL-
FRLR

Diagrama de Cajas y bigotes o Box Plot

Un diagrama de cajas y bigotes es una manera conveniente de mostrar


visualmente grupos de datos numéricos a través de sus cuartiles.

Las líneas que se extienden paralelas a las cajas se conocen como «bigotes», y
se usan para indicar variabilidad fuera de los cuartiles superior e inferior. Los
valores atípicos se representan a veces como puntos individuales que están en
línea con los bigotes. Los diagramas de cajas y bigotes se pueden dibujar vertical
u horizontalmente.

Normalmente utilizado en estadísticas descriptivas, los gráficos de cajas y


bigotes son una excelente forma de examinar rápidamente uno o más
conjuntos de datos gráficamente. Aunque parezcan primitivos en comparación
con un Histograma o un Gráfico de Densidad, tienen la ventaja de ocupar menos
espacio, lo cual es útil cuando se comparan distribuciones entre muchos grupos
o conjuntos de datos.

Aquí están los tipos de observaciones que uno puede hacer al ver un diagrama
de cajas y bigotes:

✓ Cuáles son los valores clave, tales como: mínimo, mediana y máximo de
un conjunto de datos.
✓ Si hay valores atípicos y cuáles son sus valores.
✓ Si los datos son simétricos.
✓ Cuán estrechamente se agrupan los datos.
✓ Si los datos están sesgados y si es así, en qué dirección.
UNIVERSIDAD
de la Fuente Castro, Julieta Agustina TECNOLOGICA
Scalet, Giuliano NACIONAL-
FRLR

Los diagramas de cajas y bigotes se


conforman de la siguiente manera:

Ls= extremo superior (máximo)

Li= extremo inferior (mínimo)

Q1= cuartil inferior

Q2= mediana

Q3= cuartil superior

Para realizar el diagrama de cajas y bigotes se deben realizar los siguientes


pasos:

1- Se debe ordenar la serie simple de datos.


2- Se agrupan por clase.
3- Se determinan los cuartiles: Q1, Q2 y Q3.
𝐾∗𝑁
4
−𝑓𝑎(𝑖−1)
Siendo 𝑄𝑘 = 𝐿𝑖−1 + ∗ 𝑎𝑖
𝑓𝑎

K = número de cuartil (1,2 o 3)


N = número de elementos
L i-1 = límite inferior que contiene a [(k*N) /4]
f a (i -1) = frecuencia absoluta acumulada anterior al intervalo que contiene a
[(k*N) /4]
f a = frecuencia absoluta del intervalo que contiene a [(k*N) /4]
a i = amplitud del intervalo
UNIVERSIDAD
de la Fuente Castro, Julieta Agustina TECNOLOGICA
Scalet, Giuliano NACIONAL-
FRLR

4- Se realiza una recta donde se coloca una escala acorde con los datos
dados, y se ubican los valores obtenidos de los cuartiles.
5- Una vez que los valores están ubicados, entre los valores Q 1 y Q3, se
encierra la caja.
6- Dentro de la caja se ubica el valor de Q2.
7- Se determina el valor del rango intercuartílico (RIC).
RIC= Q3 - Q1
8- Se calculan los valores V1 y V2
V1 = Q1 ̶ 1,5 RIC
V2 = Q3 + 1,5 RIC
9- Se ubican los valores V1 y V2 en la recta. Estos valores son de referencia.
10- Se colocan en la recta el máximo y mínimo de la tabla de frecuencia.
11- Luego se compara con los valores V1 y V2, con el máximo y mínimo de la
tabla de frecuencia. Se observa si los datos (máximo y mínimo) de la tabla
se posicionan dentro del intervalo de V1 y V2 en caso de estarlo, se marca
el bigote o el límite correspondiente, ya sea superior o inferior. En caso
contrario, el valor que esté por fuera de V1 y V2 será un valor atípico.

Coeficiente 1,5 del rango intercuartílico en la Regla de Tukey

La regla de Tukey establece que un valor se considera atípico si está por debajo
del primer cuartil menos 1,5 veces el rango intercuartílico (RI) o por encima del
tercer cuartil más 1,5 veces el RI.

El coeficiente de 1,5 es utilizado como un factor multiplicativo para extender el


rango intercuartílico y definir los límites para detectar valores atípicos según la
UNIVERSIDAD
de la Fuente Castro, Julieta Agustina TECNOLOGICA
Scalet, Giuliano NACIONAL-
FRLR

regla de Tukey. El mismo se elige generalmente de forma arbitraria y puede


variar dependiendo del grado de restricción deseado para identificar valores
atípicos.

La convención comúnmente utilizada es emplear un factor de 1,5 para definir los


límites de detección de valores atípicos. Sin embargo, también se pueden utilizar
otros factores multiplicativos, como 2 o 3, si se desea ser más o menos estricto
en la identificación de valores atípicos. La elección del factor multiplicativo
dependerá de la naturaleza de los datos, el contexto del estudio y las
preferencias del analista de datos. No hay una regla estricta para determinar el
factor, pero la elección del mismo debe basarse en un equilibrio entre detectar
valores atípicos significativos y minimizar la identificación de valores que no sean
realmente atípicos.

Valores Atípicos

Los valores anómalos, también conocidos como valores atípicos, se identifican


utilizando el rango intercuartílico (RI) y un factor multiplicativo. Son
observaciones cuyos valores son muy diferentes a las otras observaciones del
mismo grupo de datos. Los datos atípicos son ocasionados por:

a) Errores de procedimiento.

b) Acontecimientos extraordinarios.

c) Valores extremos. Por ejemplo, una muestra de datos del número de cigarrillos
consumidos a diario contiene el valor 60 porque hay un fumador que fuma
sesenta cigarrillos al día.

d) Causas no conocidas.

Los datos atípicos distorsionan los resultados de los análisis, y por esta razón
hay que identificarlas y tratarlos de manera adecuada, generalmente
excluyéndolos del análisis.

El diagrama de caja y bigotes es útil para:


UNIVERSIDAD
de la Fuente Castro, Julieta Agustina TECNOLOGICA
Scalet, Giuliano NACIONAL-
FRLR

1. Visualización de medidas estadísticas: El diagrama de cajas y bigotes


muestra de manera efectiva medidas estadísticas importantes como la mediana,
los cuartiles y el rango intercuartílico. Estas medidas son útiles para resumir la
ubicación, la dispersión y la variabilidad de los datos y proporcionar una
comprensión rápida de las características principales del conjunto de datos.

2. Identificar valores atípicos: Los valores que caen más allá de los bigotes
se consideran posibles valores atípicos, lo que permite identificar observaciones
inusuales en el conjunto de datos.

3. Comparar distribuciones: Se pueden crear múltiples diagramas de caja y


bigotes en el mismo gráfico para comparar la distribución de diferentes grupos o
categorías.

4. Detectar asimetría o sesgo en la distribución: El aspecto y la longitud de


la caja y los bigotes pueden proporcionar indicios sobre la simetría o asimetría
de los datos.

En general, el diagrama de cajas y bigotes es una herramienta valiosa para


resumir, visualizar y analizar datos, proporcionando información esencial sobre
la distribución, la variabilidad y los valores atípicos. Su simplicidad y efectividad
lo convierten en una opción popular tanto en la exploración inicial de datos como
en el análisis estadístico más detallado.

Dentro de las medidas de dispersión las más conocidas son:

Rango

El rango es un valor numérico que indica la diferencia entre el valor máximo y el


mínimo de una población o muestra estadística. Su fórmula es:
UNIVERSIDAD
de la Fuente Castro, Julieta Agustina TECNOLOGICA
Scalet, Giuliano NACIONAL-
FRLR

Varianza

La varianza es una medida de dispersión que representa la variabilidad de una


serie de datos respecto a su media. Formalmente se calcula como la suma de
los residuos al cuadrado divididos entre el total de observaciones. Su fórmula es
la siguiente:

Desviación típica

La desviación típica es otra medida que ofrece información de la dispersión


respecto a la media. Su cálculo es exactamente el mismo que la varianza, pero
realizando la raíz cuadrada de su resultado. Es decir, la desviación típica es la
raíz cuadrada de la varianza.

Coeficiente de variación
UNIVERSIDAD
de la Fuente Castro, Julieta Agustina TECNOLOGICA
Scalet, Giuliano NACIONAL-
FRLR

Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la


media del conjunto y por lo general se expresa en porcentaje para su mejor
comprensión.

Preguntas para responder de clase:


¿Qué diferencia hay entre elevar al cuadrado y tomar el valor absoluto en
la varianza para datos no agrupados?

La diferencia entre elevar al cuadrado y tomar el valor absoluto en la varianza


para datos no agrupados está relacionada con la forma en que se trata la
dispersión de los datos y cómo se calcula la variabilidad.

La varianza es una medida de dispersión que indica qué tan dispersos están los
valores de un conjunto de datos con respecto a su media. Para calcular la
varianza, se utilizan las desviaciones individuales de cada valor con respecto a
la media.

Elevar al cuadrado: En el cálculo de la varianza, se suele elevar al cuadrado las


desviaciones individuales antes de promediarlas. Esto se hace para darle más
peso a los valores más alejados de la media y resaltar la dispersión en los datos.
Al elevar al cuadrado las desviaciones, los valores positivos y negativos se
convierten en positivos, asegurando que la varianza sea siempre un número
positivo.

Tomar el valor absoluto: Sin embargo, también es posible calcular la varianza


utilizando el valor absoluto de las desviaciones individuales en lugar de elevarlas
al cuadrado. Esto se conoce como la varianza absoluta. Al tomar el valor
absoluto, se considera únicamente la magnitud de las desviaciones, sin tener en
cuenta la dirección (positiva o negativa) en la que se alejan de la media. Esto
UNIVERSIDAD
de la Fuente Castro, Julieta Agustina TECNOLOGICA
Scalet, Giuliano NACIONAL-
FRLR

puede ser útil en algunos casos en los que no se desea resaltar la dispersión
extrema y se quiere obtener una medida de variabilidad más balanceada.

En resumen, elevar al cuadrado en el cálculo de la varianza enfatiza las


desviaciones extremas y puede producir valores más grandes debido a este
efecto. Tomar el valor absoluto, por otro lado, considera únicamente la magnitud
de las desviaciones y puede proporcionar una medida de variabilidad más
equilibrada. La elección entre estas dos opciones dependerá del contexto y del
énfasis que se quiera dar a la dispersión de los datos.

¿Por qué se eleva al cuadrado el desvió simple de la varianza?


El motivo por el cual se eleva al cuadrado el desvío simple al calcular la varianza
es principalmente matemático y estadístico. Aquí se presentan algunas razones
clave:

1. Eliminar valores negativos: Elevar al cuadrado asegura que las


desviaciones individuales sean siempre no negativas. Si no se elevara al
cuadrado, las desviaciones positivas y negativas se cancelarían entre sí
al calcular la media de las desviaciones, lo cual no representaría
adecuadamente la variabilidad de los datos.
2. Resaltar la dispersión: Elevar al cuadrado amplifica la magnitud de las
desviaciones más grandes. Esto significa que los valores más alejados de
la media tienen un mayor impacto en el cálculo de la varianza, lo que
permite resaltar la dispersión en los datos. Si no se elevara al cuadrado,
los valores extremos tendrían menos peso y la varianza no reflejaría
adecuadamente la variabilidad en los datos.
3. Propiedades matemáticas y estadísticas: Elevar al cuadrado simplifica los
cálculos matemáticos y permite el uso de propiedades estadísticas y
probabilísticas importantes. Por ejemplo, al elevar al cuadrado, se facilita
el cálculo de la varianza de la suma o diferencia de variables aleatorias
independientes, y también se puede utilizar en la derivación de resultados
teóricos más complejos.
4. Relación con la desviación estándar: La varianza es la medida de
dispersión más comúnmente utilizada en estadística. Al elevar al
UNIVERSIDAD
de la Fuente Castro, Julieta Agustina TECNOLOGICA
Scalet, Giuliano NACIONAL-
FRLR

cuadrado las desviaciones individuales, obtenemos la varianza, que tiene


la misma unidad de medida que los datos originales al cuadrado. Esto
tiene implicaciones prácticas al interpretar y comparar la variabilidad de
diferentes conjuntos de datos. La desviación estándar, que es la raíz
cuadrada de la varianza, tiene la misma unidad de medida que los datos
originales, lo que la hace más interpretable y ampliamente utilizada en
muchos contextos.

En resumen, elevar al cuadrado el desvío simple al calcular la varianza tiene


fundamentos matemáticos y estadísticos sólidos, permitiendo tratar
adecuadamente la variabilidad de los datos y facilitando los cálculos y análisis
estadísticos posteriores.

You might also like