Búsqueda de sitios web

Mostrar la regla 68-95-99.7 en Estadísticas usando Python


Las estadísticas nos proporcionan herramientas poderosas para analizar y comprender datos. Uno de los conceptos fundamentales en estadística es la regla 68-95-99.7, también conocida como regla empírica o regla de las tres sigma. Esta regla nos permite hacer inferencias importantes sobre la distribución de datos en función de su desviación estándar. En esta publicación de blog, exploraremos la regla 68-95-99.7 y demostraremos cómo aplicarla usando Python.

Descripción general de la regla 68-95-99.7

La regla 68-95-99.7 proporciona una manera de estimar el porcentaje de datos que se encuentran dentro de un cierto número de desviaciones estándar de la media en una distribución normal. De acuerdo con esta regla:

  • Aproximadamente el 68% de los datos se encuentran dentro de una desviación estándar de la media.

  • Aproximadamente el 95% de los datos se encuentran dentro de dos desviaciones estándar de la media.

  • Aproximadamente el 99,7% de los datos se encuentran dentro de tres desviaciones estándar de la media.

Estos porcentajes son válidos para un conjunto de datos que sigue una distribución normal, también conocida como curva de campana. Comprender esta regla nos permite evaluar rápidamente la dispersión de los datos e identificar valores atípicos u observaciones inusuales.

Implementación de la regla 68-95-99.7 en Python

Para demostrar la regla 68-95-99.7 en acción, usaremos Python y su popular biblioteca de análisis de datos, NumPy. NumPy proporciona operaciones numéricas eficientes y funciones estadísticas que nos ayudarán a calcular los valores necesarios. Comencemos importando las bibliotecas necesarias 

import numpy as np
import matplotlib.pyplot as plt

A continuación, generaremos un conjunto de datos aleatorio que siga una distribución normal utilizando la función numpy.random.normal(). Usaremos una media de 0 y una desviación estándar de 1 

np.random.seed(42)  # Set the random seed for reproducibility
data = np.random.normal(0, 1, 10000)

Ahora podemos calcular la media y la desviación estándar del conjunto de datos 

mean = np.mean(data)
std = np.std(data)

Para visualizar los datos y las áreas cubiertas por la regla 68-95-99.7, podemos crear un histograma usando la función matplotlib.pyplot.hist() 

plt.hist(data, bins=30, density=True, alpha=0.7)

# Plot the mean and standard deviations
plt.axvline(mean, color='r', linestyle='dashed', linewidth=1, label='Mean')
plt.axvline(mean - std, color='g', linestyle='dashed', linewidth=1, label='1 STD')
plt.axvline(mean + std, color='g', linestyle='dashed', linewidth=1)
plt.axvline(mean - 2*std, color='b', linestyle='dashed', linewidth=1, label='2 STD')
plt.axvline(mean + 2*std, color='b', linestyle='dashed', linewidth=1)
plt.axvline(mean - 3*std, color='m', linestyle='dashed', linewidth=1, label='3 STD')
plt.axvline(mean + 3*std, color='m', linestyle='dashed', linewidth=1)

plt.legend()
plt.xlabel('Value')
plt.ylabel('Density')
plt.title('Histogram of the Dataset')
plt.show()

El histograma resultante mostrará la distribución de los datos junto con la media y las desviaciones estándar marcadas con líneas discontinuas.

Para calcular los porcentajes cubiertos por cada rango podemos utilizar la función de distribución acumulativa (CDF) de la distribución normal. La función NumPy numpy.random.normal() genera datos a partir de una distribución normal, pero NumPy también proporciona numpy.random.normal() que calcula el CDF 

# Calculate the percentage within one standard deviation
pct_within_1_std = np.sum(np.logical_and(data >= mean - std, data 7lt;= mean + std)) / len(data)

# Calculate the percentage within two standard deviations
pct_within_2_std = np.sum(np.logical_and(data >= mean - 2*std, data <= mean + 2*std)) / len(data)

# Calculate the percentage within three standard deviations
pct_within_3_std = np.sum(np.logical_and(data >= mean - 3*std, data <= mean + 3*std)) / len(data)

print("Percentage within one standard deviation: {:.2%}".format(pct_within_1_std))
print("Percentage within two standard deviations: {:.2%}".format(pct_within_2_std))
print("Percentage within three standard deviations: {:.2%}".format(pct_within_3_std))

Cuando ejecute este código, verá los porcentajes de datos que se encuentran dentro de una, dos y tres desviaciones estándar de la media.

Percentage within one standard deviation: 68.27%
Percentage within two standard deviations: 95.61%
Percentage within three standard deviations: 99.70%

Estos resultados se alinean estrechamente con los porcentajes esperados según la regla 68-95-99,7.

Interpretación de la regla 68-95-99.7

Los porcentajes cubiertos por cada rango tienen interpretaciones específicas. Los datos que caen dentro de una desviación estándar de la media son relativamente comunes, mientras que los datos que caen más allá de tres desviaciones estándar se consideran raros. Comprender estas interpretaciones ayuda a hacer inferencias significativas sobre los datos.

Limitaciones de la regla 68-95-99.7

Si bien la regla 68-95-99.7 es una guía valiosa, es posible que no se aplique con precisión a conjuntos de datos que se desvían significativamente de una distribución normal. Es crucial considerar otras técnicas estadísticas y realizar análisis más profundos cuando se trata de dichos conjuntos de datos.

Valores atípicos y la regla 68-95-99.7

Los valores atípicos pueden afectar en gran medida la precisión de los porcentajes cubiertos por cada rango. Estos valores extremos pueden sesgar la distribución y afectar la validez de la regla. Es importante identificar y manejar adecuadamente los valores atípicos para garantizar un análisis estadístico preciso.

Ejemplos de la vida real

La regla 68-95-99.7 encuentra aplicación en varios campos. Por ejemplo, es relevante en los procesos de control de calidad para identificar productos defectuosos, en el análisis financiero para evaluar el riesgo y el retorno de las inversiones, en la investigación de atención médica para comprender las características de los pacientes y en muchos otros dominios donde comprender la distribución de datos es esencial.

A medida que profundices en las estadísticas, considera explorar otros conceptos que complementen la regla 68-95-99.7. La asimetría, la curtosis, los intervalos de confianza, las pruebas de hipótesis y el análisis de regresión son sólo algunos ejemplos de herramientas estadísticas que pueden mejorar aún más la comprensión y el análisis de los datos.

Conclusión

La regla 68-95-99.7 es un concepto poderoso en estadística que nos permite comprender la distribución de datos en función de su desviación estándar. Al aplicar esta regla, podemos estimar las proporciones de datos que se encuentran dentro de rangos específicos alrededor de la media. En este blog, utilizamos Python y la biblioteca NumPy para generar un conjunto de datos aleatorio, visualizarlo y calcular los porcentajes cubiertos por cada rango. Comprender esta regla nos permite hacer inferencias significativas sobre nuestros datos e identificar posibles valores atípicos u observaciones inusuales.