Python y la web} dek="La web es el ecosistema más grande del mundo. En este módulo aprendes a hablar su idioma: HTTP, URLs, APIs REST y scraping básico — todo desde Python." />

Casi todo lo interesante en programación hoy pasa por la web: consumir datos de una API, automatizar formularios, descargar archivos, publicar resultados. Python tiene herramientas excelentes para todo esto, tanto en su librería estándar como en paquetes externos.

Este módulo te enseña a ser un cliente web desde Python: entender cómo funciona HTTP, construir y analizar URLs, hacer peticiones GET y POST, y procesar las respuestas en JSON o HTML.

Los bloques con ▶ Ejecutar corren en el navegador. Las peticiones HTTP reales (requests, urllib.request) necesitan tu Python local — te lo indicamos con una etiqueta ▸ local. {/* ── Sección 1: HTTP ── */}

Cómo funciona HTTP

HTTP (HyperText Transfer Protocol) es el protocolo que usan navegadores y programas para comunicarse con servidores. La conversación siempre sigue el mismo patrón: el cliente hace una petición, el servidor devuelve una respuesta.

{[ { method: 'GET', color: '#2E7D32', desc: 'Pedir un recurso. No modifica nada.' }, { method: 'POST', color: '#1565C0', desc: 'Enviar datos nuevos al servidor.' }, { method: 'PUT', color: '#E65100', desc: 'Reemplazar un recurso existente.' }, { method: 'DELETE', color: '#B71C1C', desc: 'Eliminar un recurso.' }, ].map(({ method, color, desc }) => (

{method}

{desc}

))}

Cada respuesta incluye un código de estado que indica si todo fue bien o qué salió mal:

{/* ── Sección 2: URLs ── */}

Anatomía de una URL

Antes de hacer peticiones hay que entender las URLs. Cada parte tiene un nombre y un propósito:

Python incluye urllib.parse para trabajar con URLs sin construirlas a mano concatenando strings (que es error propenso):

{/* ── Sección 3: urllib.request ── */}

Peticiones con urllib (librería estándar)

Para hacer peticiones HTTP sin instalar nada, Python incluye urllib.request. Funciona, pero su API es algo verbosa:

urlopen abre una conexión de red. Usar with garantiza que se cierra aunque haya un error — igual que con archivos. {/* ── Sección 4: requests ── */}

La librería requests

requests es el estándar de facto para HTTP en Python. Su API es más limpia y maneja automáticamente muchos detalles (redireccionamientos, cookies, codificación):

{`Las peticiones pueden fallar por muchas razones. Usa r.raise_for_status() para lanzar una excepción si el código es 4xx o 5xx:`} {/* ── Sección 5: APIs REST ── */}

Consumir una API REST

Una API REST es un servidor que responde peticiones HTTP devolviendo datos en JSON. Casi todos los servicios modernos tienen una: clima, redes sociales, mapas, pagos, IA...

El flujo siempre es el mismo:

Este ejercicio usa datos simulados — el mismo JSON que devolvería una API real de clima. Practica filtrando y procesando la respuesta:

{/* ── Sección 6: Scraping ── */}

Web scraping básico

Cuando un sitio no tiene API, puedes extraer datos directamente del HTML — a esto se llama scraping. Python incluye html.parser para parsear HTML sin instalar nada. Para webs más complejas existe la librería BeautifulSoup.

{`pip install beautifulsoup4\n\nCon BS4 el mismo ejemplo queda en tres líneas:`}

Con html.parser también puedes procesar HTML que ya tienes en un string — sin hacer ninguna petición de red:

Home Docs Contact GitHub """ parser = ExtractorLinks() parser.feed(html) print(f"Encontrados {len(parser.links)} enlaces:\\n") for href, titulo in parser.links: print(f" {titulo:20} → {href}") # Solo los links externos externos = [(h, t) for h, t in parser.links if h.startswith("http")] print(f"\\nLinks externos: {len(externos)}") `} hint="Prueba a extraer también el texto del enlace, no solo el href." /> {/* ── Quiz ── */} {/* ── Ejercicios ── */}

Analiza la URL de una tienda online y construye la siguiente página de resultados.

Filtra y agrupa usuarios de una API usando comprensiones y funciones de orden superior.

Escribe en tu Python local un script que haga una petición GET con headers personalizados, maneje errores con raise_for_status() y muestre el resultado formateado.

Muchas APIs devuelven los resultados en páginas. Implementa un bucle que recorra todas las páginas y acumule los resultados.

PaísCapitalPoblación (M) EspañaMadrid47.4 MéxicoCiudad de México128.9 ArgentinaBuenos Aires45.2 ColombiaBogotá51.9 """ parser = ExtractorTabla() parser.feed(html_tabla) cabeceras = parser.filas[0] datos = parser.filas[1:] print(f"Columnas: {cabeceras}") print() for fila in datos: fila_dict = dict(zip(cabeceras, fila)) print(f" {fila_dict['País']:12} → capital: {fila_dict['Capital']}") # País más poblado mas_poblado = max(datos, key=lambda f: float(f[2])) print(f"\\nMás poblado: {mas_poblado[0]} ({mas_poblado[2]}M hab.)") `, hint: 'zip(cabeceras, fila) es la forma más limpia de convertir una fila en diccionario.' }} >

Parsea una tabla HTML y extrae los datos en un formato estructurado que puedas procesar con Python.

{/* ── Resumen ── */}

// resumen del módulo

HTTP es el protocolo cliente-servidor. GET pide datos, POST los envía.
urllib.parse construye y descompone URLs sin concatenar strings.
urllib.request hace peticiones sin instalar nada extra.
requests es la librería más usada: API limpia, manejo automático de JSON y errores.
r.raise_for_status() lanza excepción en 4xx/5xx — úsalo siempre.
Scraping con html.parser cuando no hay API; BeautifulSoup para webs complejas.

La web es el mayor repositorio de datos del mundo. Saber hablar HTTP desde Python es saber cómo acceder a él.