Análisis de datos} dek="Python domina la ciencia de datos por dos librerías: NumPy para números y Pandas para tablas. Aprende a explorar, filtrar, agrupar y transformar datos reales." />

Uno de los motivos por los que Python se convirtió en el lenguaje dominante en ciencia de datos e inteligencia artificial es su ecosistema científico. Dos librerías forman la base de casi todo: NumPy para operaciones numéricas ultrarrápidas y Pandas para trabajar con datos tabulares como si fueran hojas de cálculo programables.

NumPy y Pandas están disponibles en Pyodide. La primera ejecución puede tardar unos segundos mientras se cargan — es normal. Después todo va rápido. {/* ── NumPy ── */}

NumPy — el motor numérico

Las listas de Python son flexibles pero lentas para cálculos con millones de números. NumPy ofrece el ndarray: un array de tipo fijo almacenado en memoria contigua, con operaciones implementadas en C — entre 10 y 100 veces más rápido.

50]) # [67 89 56 78] — filtro booleano print(np.sort(datos)[-3:]) # [67 78 89] — top 3 `} /> media] print(f"Días sobre la media: {', '.join(calidos)}") `} hint="np.argmax() devuelve el índice del valor máximo — úsalo para encontrar el día más caluroso." /> {/* ── Pandas ── */}

Pandas — datos tabulares

Pandas añade dos estructuras sobre NumPy: Series (columna con índice) y DataFrame (tabla con filas y columnas etiquetadas). Es el equivalente a Excel pero programable, reproducible y capaz de manejar millones de filas.

1000]) # DataFrame — tabla completa df = pd.DataFrame({ "nombre": ["Ana", "Luis", "Sara", "Pedro"], "edad": [28, 34, 22, 41], "ciudad": ["Madrid", "Barcelona", "Madrid", "Sevilla"], "salario": [52000, 61000, 38000, 55000], }) print(df) print(df.dtypes) `} /> {/* ── Explorar ── */}

Explorar un DataFrame

{/* ── Seleccionar y filtrar ── */}

Seleccionar y filtrar datos

50)] print(escasos) # loc — por etiquetas; iloc — por posición print(df.loc[0, "producto"]) # "Teclado" print(df.iloc[2, 1]) # 29.99 print(df.iloc[:3, :2]) # primeras 3 filas, 2 columnas `} /> {/* ── Transformar ── */}

Transformar columnas

55000 else "junior") print(df.to_string(index=False)) `} hint="str.title(), pd.to_datetime() y apply() son las tres transformaciones más frecuentes en limpieza de datos." /> {/* ── Groupby ── */}

Agrupar y agregar con groupby

groupby es el equivalente a SQL GROUP BY: divide el DataFrame en grupos y aplica una función de agregación a cada uno.

{/* ── NaN ── */}

Datos faltantes

En datos reales siempre hay valores faltantes (NaN). Pandas los maneja con tres herramientas:

{/* ── CSV y JSON ── */}

Leer y exportar datos

Por defecto Pandas escribe el índice numérico como primera columna. Casi siempre no lo quieres — usa index=False. {/* ── Visualización ── */}

Visualización de datos

El análisis de datos suele terminar con un gráfico. Matplotlib es la librería base; Seaborn añade gráficos estadísticos con mejor aspecto por defecto:

{/* ── Quiz ── */} {/* ── Ejercicios ── */} 10} {'Media/día':>10} {'Ingresos':>12}") print("-" * 50) for nombre, ventas in productos.items(): total = ventas.sum() media = ventas.mean() ingresos = total * precios[nombre] print(f"{nombre:<15} {total:>10} {media:>10.1f} {ingresos:>11,.0f}€") # Día con más ventas totales totales_dia = teclados + monitores + auriculares mejor_dia = np.argmax(totales_dia) + 1 print(f"\\nMejor día: día {mejor_dia} ({totales_dia[mejor_dia-1]} uds vendidas)") `, hint: 'np.argmax() devuelve el índice del máximo. Suma +1 para convertirlo en número de día (índice 0 = día 1).' }} >

Calcula estadísticas de ventas por producto usando operaciones vectorizadas de NumPy.

Limpia un dataset con nombres mal formateados y valores faltantes usando las herramientas de Pandas.

8,.0f} €") # 2. Ingresos por categoría print("\\nIngresos por categoría:") por_cat = df.groupby("categoria")["ingresos"].sum().sort_values(ascending=False) for cat, total in por_cat.items(): print(f" {cat:<15}: {total:>8,.0f} €") # 3. Tabla cruzada mes × categoría print("\\nDesglose mes × categoría:") tabla = df.groupby(["fecha","categoria"])["ingresos"].sum().unstack(fill_value=0) print(tabla) `, hint: 'unstack() convierte el segundo nivel del índice en columnas, creando una tabla cruzada legible.' }} >

Agrupa ventas por mes y categoría con groupby para obtener un resumen ejecutivo.

= 7.5].sort_values("nota", ascending=False) for _, f in destacadas.iterrows(): print(f" {f['nota']} · {f['pelicula']} ({f['duracion']} min)") # 2. Ranking compuesto: 60% nota + 40% premios normalizados df["nota_norm"] = (df["nota"] - df["nota"].min()) / (df["nota"].max() - df["nota"].min()) df["premios_norm"] = df["premios"] / df["premios"].max() df["score"] = (df["nota_norm"] * 0.6 + df["premios_norm"] * 0.4).round(3) print("\\nRanking compuesto (nota + premios):") ranking = df.sort_values("score", ascending=False)[["pelicula","nota","premios","score"]] print(ranking.to_string(index=False)) `, hint: 'Normalizar a [0,1] con (x - min) / (max - min) permite combinar columnas con escalas distintas.' }} >

Filtra películas por nota y construye un ranking compuesto combinando nota y premios mediante normalización.

Construye un pipeline completo: genera un dataset, limpia los datos, filtra, agrupa y extrae insights de un escenario de e-commerce.

{/* ── Resumen ── */}

// resumen del módulo

NumPy — arrays tipados, operaciones vectorizadas, estadísticas rápidas.
Pandas Series/DataFrame — datos tabulares con índice y etiquetas.
head(), info(), describe() — primeros pasos en cualquier dataset.
Filtros booleanos — df[df["col"] > valor] para seleccionar filas.
apply() y str.title() — transformar columnas fila a fila o vectorialmente.
groupby() + agg() — estadísticas por grupo, equivalente a SQL GROUP BY.
isna(), fillna(), dropna() — tratar datos faltantes.
to_csv() / to_json() — exportar resultados con index=False.

Los datos raramente mienten — pero siempre necesitan ser limpiados, agrupados y preguntados de la forma correcta para revelar su historia.