[ Foro de Python ]
Estoy desarrollando un sistema de análisis judicial en Python donde necesito procesar documentos PDF escaneados (muchos con baja calidad, de hace más de 20 años).
Objetivo: Extraer información estructurada para luego generar documentos en Word.
Datos clave que necesito extraer:
Radicado (identificador principal)
Víctimas
Delitos
Fechas
Lugares
Relación de hechos (texto narrativo)
Problema: Los PDFs no son texto digital, son escaneos con:
ruido
OCR imperfecto
variaciones de formato
texto corrido sin estructura clara
Actualmente estoy evaluando este pipeline:
OCR (Tesseract)
Limpieza de texto
Regex / reglas para extracción
Generación de documento Word (python-docx)
Dudas específicas:
¿Qué arquitectura recomiendan para hacer este proceso robusto?
¿Pipeline por etapas?
¿Uso de modelos NLP o solo reglas?
¿Cómo manejan ustedes la extracción cuando el texto viene inconsistente?
¿Primero segmentan bloques?
¿Trabajan por patrones o por contexto?
¿Qué librerías han funcionado mejor para PDFs escaneados en producción?
pdfplumber vs PyMuPDF vs OCR directo
¿Cómo evitar errores acumulativos cuando el OCR no es confiable?
¿Recomiendan almacenar resultados intermedios (JSON) antes de generar el Word?
Mi prioridad es:
precisión sobre velocidad
trazabilidad (saber de dónde salió cada dato)
evitar falsos positivos
Agradezco recomendaciones de arquitectura más que código puntual.