De un PDF crudo de 1.402 páginas a un temario que se estudia.
Tomé un manual real, sin índice y digitalizado con OCR sucio, y lo convertí automáticamente en jerarquía Curso → Bloque → Tema, con resúmenes estructurados, flashcards y tests tipo examen. Cero captura manual.
Cómo funciona el pipeline
PyMuPDF extrae texto y layout de las 1.402 páginas. Una muestra pasa por Tesseract OCR para validar el camino foto/escaneo → texto.
El PDF no trae índice. Se detectan los encabezados por posición y tamaño de fuente y se infiere la jerarquía Curso → Bloque → Tema.
Por cada tema, el modelo limpia el título OCR y produce resumen estructurado, flashcards y preguntas tipo test con respuesta y explicación.
Modelo: gpt-4.1 · costo del corrido completo: ~US$3.41 · 330,8 s
Temario generado
Estructura inferida automáticamente. Entra a cualquier tema para ver su resumen y hacer el mini-test.