Por qué escribí un libro de datos para FP (y no otro manual de Python)

Cada vez que alguien me pregunta a qué me dedico, la conversación termina en el mismo lugar: “¿Y no hay ya un libro de Python para datos?”. Sí, los hay. Docenas. Algunos son muy buenos. Y sin embargo, escribí otro. Esta es la historia de por qué.

El hueco que no era de Python

El problema nunca fue Python. Cualquiera puede instalar pandas y abrir un tutorial. El problema es lo que viene después: enseñar a usarlo con criterio en un aula donde el tiempo vale distinto.

En un grado universitario de cuatro años, puedes permitirte un semestre para explicar qué es una variable aleatoria antes de tocar un histograma. En Formación Profesional, el alumno tiene 128 horas repartidas en tres trimestres, un módulo con un nombre oficial que cumplir, y al otro lado una empresa esperando técnicos que abran un CSV el lunes. El manual al uso, con sus 300 páginas de teoría antes del primer read_csv, se queda corto en un sitio y sobra en el otro.

Probé los manuales que recomendaba el departamento, los que recomendaba la editorial grande, los que circulaban en foros. Eran buenos libros, pero oscilaban entre dos extremos: demasiado técnicos para quien empieza, o demasiado difusos, sin hilo conductor. No era el libro que mis alumnos necesitaban.

El 40/60 como constatación, no como eslogan

Cuando planifiqué Análisis de Datos con Python probé con una proporción cercana al 40 % de teoría y 60 % de práctica. No es una decisión estética: es lo que mejor resultado me dio para mantener a los alumnos centrados. Más teoría y se pierde el hilo entre conceptos; menos y los ejercicios se vuelven mecánica sin modelo mental.

En la práctica eso significa que cada unidad alterna un par de páginas de “por qué esto funciona así” con un notebook de tres a cinco horas de trabajo. El hilo conductor de principio a fin es Ames Housing, un dataset con más de 1.400 viviendas reales de Iowa: lo limpias, lo analizas, lo modelas. Es el mismo fichero que va enriqueciéndose a medida que ganas herramientas. Algunas unidades puntuales usan otros datasets abiertos —INE, EPA, Telco Churn— para practicar una técnica concreta, pero la espina dorsal del libro es Ames.

Esa proporción me costó descartar varios capítulos. El de combinatoria avanzada sobre árboles de decisión, por ejemplo. Era interesante. Era lo que un matemático pediría. No era lo que un técnico de grado medio necesita el día que se sienta delante de un modelo en su primer trabajo. Fuera.

Lo que es: una base para especializarte

Este libro es para quien quiere empezar con una especialización sólida en ciencia de datos, no para quien ya está dentro de una. Si tu objetivo es una carrera de investigación en machine learning, vas a necesitar bibliografía más densa; este libro te quedará corto. Pero si estás dando los primeros pasos —en FP, en un bootcamp, en transición desde otro campo:

Aquí encuentras el suelo firme sobre el que construir.

El libro está pensado para tres perfiles:

el alumno de FP que necesita aprobar un módulo, entender lo que hace y poder explicarlo en una entrevista de trabajo.
el profesor de FP que tiene 128 horas y un currículo oficial, y quiere un material que pueda defender ante un inspector sin tener que reinventar los ejercicios cada curso.
el profesional en transición que viene de otro campo (administrativo, técnico de mantenimiento, comercial con datos en Excel) y necesita pasar de “uso Excel” a “pienso en datos” sin pasar por un máster.

Funcional, en dos sentidos

La palabra funcional aparece varias veces en el libro, y a propósito juega con dos sentidos.

El primero es el de hacer: cada capítulo termina con un producto. Un notebook terminado, un mini-informe, un dashboard de Streamlit, un modelo de sklearn con sus métricas. No con un “ahora tú prueba a hacerlo” vago. Con un entregable concreto que el alumno puede enseñar, defender, o subir a un portfolio.

El segundo es el de programación funcional: desde la primera línea apenas verás bucles for. El libro adopta el estilo de los equipos de datos reales —operaciones vectorizadas, apply, agg, pipe, transform— porque es el código que reconocerás el primer día de trabajo. No es capricho estético. Es el lenguaje que comparten los profesionales del dato.

Esta es la diferencia entre un manual y un libro de oficio. El manual te enseña a usar la herramienta.

Los libros de oficio tienen una dignidad que los manuales a veces olvidan.

Una nota sobre el lenguaje

Vas a encontrar en el libro frases como “primero abre el terminal” o “esto fallará la primera vez, vuelve a leer el error”. No es un libro escrito desde arriba. Está escrito como te lo explicaría un compañero que ya ha roto esa pieza tres veces. Si en algún momento una explicación te parece demasiado directa, recuerda: el alumno al que le escribí esto no estaba aprendiendo a programar. Estaba aprendiendo a ganarse la vida con esto. Eso cambia la vara de medir.

Y si este planteamiento te resuena —libro pensado para un oficio, no para una carrera; ratio 40/60; datasets reales; entregable al final de cada capítulo— el libro completo está en Análisis de Datos con Python. Empieza por la UT1 — El Detective de Datos: el resto de unidades se pueden impartir en un curso escolar o trabajarse por libre, con prácticas resueltas para el profesorado y datasets abiertos descargables.

¿Te has encontrado alguna vez con un manual que no era para ti? ¿Qué le faltó?