Practica Para Ciencia De Datos Y Python High Quality [repack] | Estadistica

: Un error donde la muestra no representa a todos. El Teorema del Límite Central (TLC)

Estas medidas indican el centro de la distribución de los datos.

# Normal normal_data = np.random.normal(loc=0, scale=1, size=1000)

Las pruebas de hipótesis permiten validar si un patrón observado en los datos es real o producto del azar. El Flujo de Trabajo Estadístico Hipótesis nula ( H0cap H sub 0 : no hay efecto) e Hipótesis alternativa ( H1cap H sub 1 : existe un efecto). Definir el nivel de significancia ( ): Usualmente : Un error donde la muestra no representa a todos

¿Cómo sabemos si un cambio en una web realmente funciona? Usamos pruebas de hipótesis. El Proceso Estadístico : El cambio no hace nada. Todo sigue igual. Hipótesis Alternativa ( H1cap H sub 1 ) : El cambio sí generó un efecto real.

La librería statsmodels proporciona un resumen estadístico mucho más rico y formal que scikit-learn .

En la práctica, rara vez tenemos acceso a toda la población; trabajamos con muestras. El Flujo de Trabajo Estadístico Hipótesis nula (

print(f"Slope: model.coef_[0]:.3f, Intercept: model.intercept_:.3f") print(f"R²: model.score(X, y):.3f")

El análisis de regresión permite entender la relación entre una variable dependiente (u objetivo) y una o más variables independientes (o predictores). A diferencia del enfoque puro de Machine Learning (enfocado solo en la precisión de la predicción), el enfoque estadístico busca la y significancia de los coeficientes. Correlación vs. Causalidad

variance = np.var(df['total_bill'], ddof=1) # sample variance std_dev = np.std(df['total_bill'], ddof=1) iqr = stats.iqr(df['total_bill']) mad = np.median(np.abs(df['total_bill'] - median_val)) # robust El Proceso Estadístico : El cambio no hace nada

# Is average tip ≠ $3.00? stats.ttest_1samp(df['tip'], 3.0) # p < 0.05 → reject null (mean is different)

# Tomamos una muestra aleatoria muestra = df['ingreso'].sample(n=100, random_state=42)