Guía Completa de Implementación - Guías IA

Esta guía te llevará a través de todo el proceso de implementación del proyecto de clasificación de neumonía, desde la definición del problema hasta la ejecución del código.

Resumen Ejecutivo

Este proyecto cubre los siguientes pasos:

Paso 1

Problema definido: Clasificación de neumonía en rayos X

Paso 2

Modelo diseñado: CNN de 3 capas convolucionales

Paso 3

Dataset identificado: Kaggle Chest X-Ray

Paso 4

Código implementado: TensorFlow/Keras

Paso 1: Definición del Problema

Problema Biomédico

Detección automática de neumonía en radiografías de tórax usando Deep Learning

Justificación

Impacto Clínico

La neumonía causa el 15% de muertes en niños menores de 5 años
Es una de las principales causas de mortalidad infantil a nivel mundial

Desafío del Diagnóstico

El diagnóstico requiere radiólogos expertos no siempre disponibles
Puede haber variabilidad entre observadores
Tiempo de espera para interpretación en zonas rurales

Solución con IA

IA puede ofrecer screening rápido y consistente
Disponible 24/7 sin fatiga
Apoyo a decisión médica en áreas con recursos limitados

Archivos Relacionados

PLANTEAMIENTO.md - Descripción completa del problema

Paso 2: Diseño del Modelo

Arquitectura CNN Seleccionada

La arquitectura implementada consta de 3 bloques convolucionales seguidos de capas densas:

INPUT (224×224×3)
    ↓
Conv2D (32 filtros, 3×3, ReLU)
    ↓
MaxPooling (2×2)
    ↓
Conv2D (64 filtros, 3×3, ReLU)
    ↓
MaxPooling (2×2)
    ↓
Conv2D (128 filtros, 3×3, ReLU)
    ↓
MaxPooling (2×2)
    ↓
Flatten
    ↓
Dense (128, ReLU)
    ↓
Dropout (0.5)
    ↓
Dense (2, Softmax)
    ↓
[NORMAL, PNEUMONIA]

Justificación de CNN

Información Espacial

Mantiene información espacial 2D de las imágenes

Extracción Automática

Extrae características automáticamente sin ingeniería manual

Probada en Medicina

Arquitectura probada exitosamente en imagenología médica

Eficiencia

Menos parámetros que MLP tradicionales

Hiperparámetros

Componente	Valor	Descripción
Optimizador	Adam	Learning rate = 0.001
Loss	Categorical Crossentropy	Para clasificación binaria
Regularización	Dropout 0.5 + Data Augmentation	Prevención de overfitting
Métricas	Accuracy, Precision, Recall, F1	Evaluación completa

Ver el Modelo

Puedes visualizar un resumen del modelo ejecutando:

pipenv run python src/model.py

Archivos Relacionados

DISEÑO_MODELO.md - Justificación completa del diseño
src/model.py - Implementación del modelo en src/model.py:1

Paso 3: Dataset

Dataset Seleccionado

Chest X-Ray Images (Pneumonia) - Kaggle

Este dataset contiene radiografías de tórax de pacientes pediátricos organizadas en categorías NORMAL y PNEUMONIA.

Estadísticas del Dataset

5,863 imágenes
~1.15 GB

Cómo Obtener el Dataset

Ir a Kaggle

Visita: https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia

Descargar el archivo

Descarga el archivo archive.zip (requiere cuenta de Kaggle)

Extraer en el proyecto

Extrae el contenido en la carpeta data/chest_xray/ del proyectoEstructura esperada:

data/chest_xray/
├── train/
│   ├── NORMAL/
│   └── PNEUMONIA/
└── test/
    ├── NORMAL/
    └── PNEUMONIA/

Verificar la instalación

Ejecuta el script de verificación:

pipenv run python verificar_dataset.py

Deberías ver:

✓ Dataset encontrado
✓ Train: 5,216 imágenes
✓ Test: 624 imágenes

Archivos Relacionados

INSTRUCCIONES_DATASET.md - Guía completa de descarga
verificar_dataset.py - Script de verificación
src/data_loader.py - Cargador de datos con augmentation en src/data_loader.py:1

Paso 4: Implementación

Scripts Implementados

El proyecto incluye 4 scripts principales en la carpeta src/:

model.py
data_loader.py
train.py
evaluate.py

Arquitectura CNNDefine la arquitectura de la red neuronal convolucional con 3 bloques convolucionales.

pipenv run python src/model.py

Output: Muestra un resumen del modelo con el número de parámetros

EntrenamientoEntrena el modelo con early stopping y callbacks.

pipenv run python src/train.py

Genera:

models/best_model.keras - Mejor modelo según validación
models/final_model.keras - Modelo al final del entrenamiento
results/training_history.png - Gráficas de pérdida y accuracy

Tiempo estimado: 15-30 min en CPU, 5-10 min en GPU

EvaluaciónEvalúa el modelo en el conjunto de test con métricas completas.

pipenv run python src/evaluate.py

Genera:

results/confusion_matrix.png - Matriz de confusión
results/roc_curve.png - Curva ROC con AUC
results/predictions.png - Ejemplos de predicciones

Ejecución Completa del Proyecto

Instalar dependencias

Las librerías ya están configuradas en el Pipfile:

pipenv install

Esto instalará:

TensorFlow/Keras
NumPy
Matplotlib
scikit-learn
Pillow

Descargar dataset

Sigue las instrucciones del Paso 3 para descargar y verificar el dataset.

Entrenar el modelo

pipenv run python src/train.py

El entrenamiento ejecutará:

20 épocas (puede detenerse antes con early stopping)
Batch size: 32
Validación: 20% del conjunto de entrenamiento

El proceso se detendrá automáticamente si no hay mejora en 5 épocas consecutivas.

Evaluar el modelo

pipenv run python src/evaluate.py

Esto generará todas las métricas y visualizaciones en la carpeta results/.

Revisar resultados

Los resultados estarán disponibles en results/:

training_history.png - Evolución del entrenamiento
confusion_matrix.png - Matriz de confusión
roc_curve.png - Curva ROC y AUC
predictions.png - Ejemplos visuales de predicciones

Resultados Esperados

Métricas Objetivo

Accuracy

> 85%Precisión general del modelo

Precision

> 80%De las predicciones de neumonía, cuántas son correctas

Recall

> 90%De todos los casos de neumonía, cuántos detecta el modelo

F1-Score

> 85%Media armónica entre precision y recall

AUC-ROC

Objetivo: > 0.90El área bajo la curva ROC mide la capacidad del modelo para discriminar entre clases.

Interpretación Clínica

Alta Recall (>90%): Minimiza falsos negativos - es crucial no perder casos de neumonía
Buena Precision (>80%): Evita alarmas falsas que generan procedimientos innecesarios
Balance: El modelo funciona como herramienta útil de screening, no como diagnóstico definitivo

Este modelo está diseñado para apoyo a la decisión médica, no para reemplazar el diagnóstico de un profesional de la salud.

Solución de Problemas

Dataset no encontrado

Error:

FileNotFoundError: data/chest_xray/

Solución:

Verifica que descargaste el dataset de Kaggle
Extrae el archivo en la carpeta data/
Ejecuta pipenv run python verificar_dataset.py

Memoria insuficiente

Error:

ResourceExhaustedError: OOM when allocating tensor

Solución:

Reduce el batch_size en src/train.py de 32 a 16 u 8
Busca la línea: batch_size=32 y cámbiala a batch_size=16

TensorFlow muy lento

Situación: El entrenamiento toma más de 1 horaSolución:

Es normal en CPU
Para acelerar:
- Usa una GPU si está disponible
- Reduce el número de épocas
- Reduce el tamaño del dataset de entrenamiento

Dependencias faltantes

Error: Módulos no encontradosSolución:

pipenv install tensorflow keras numpy matplotlib scikit-learn pillow

Próximos Pasos

Después de completar los pasos 1-4, puedes:

Paso 5: Informe Técnico (6 páginas máx)

Estructura sugerida:

Abstract - Resumen del proyecto
Introducción - Problema y motivación
Metodología - Arquitectura CNN y dataset
Resultados - Métricas y gráficas
Discusión - Interpretación y limitaciones
Conclusiones - Logros y trabajo futuro

Paso 6: Presentación (7 minutos)

Diapositivas sugeridas:

Título y equipo
Problema biomédico
Dataset y preprocesamiento
Arquitectura CNN
Resultados (métricas + gráficas)
Demostración (predicciones)
Conclusiones

Recursos Adicionales

Tutoriales

Papers Relacionados

CheXNet (Rajpurkar et al., 2017)
Dataset original (Kermany et al., 2018)

Mejoras Posibles

Transfer Learning (VGG16, ResNet)
Grad-CAM para visualización de activaciones
Clasificación multiclase (viral vs bacteriana)
Ensembles de modelos

Checklist Final

Antes de la entrega, verifica:

Dataset descargado y verificado
Modelo entrenado exitosamente
Accuracy >80% en test
Todas las gráficas generadas en results/
Código documentado
README.md actualizado
Informe técnico completo (Paso 5)
Presentación lista (Paso 6)

Introducción

Fundamentos del Proyecto

Guías de Implementación

Presentación y Exposición

Recursos Técnicos

​Resumen Ejecutivo

Paso 1

Paso 2

Paso 3

Paso 4

​Paso 1: Definición del Problema

​Problema Biomédico

​Justificación

​Archivos Relacionados

​Paso 2: Diseño del Modelo

​Arquitectura CNN Seleccionada

​Justificación de CNN

Información Espacial

Extracción Automática

Probada en Medicina

Eficiencia

​Hiperparámetros

​Ver el Modelo

​Archivos Relacionados

​Paso 3: Dataset

​Dataset Seleccionado

​Estadísticas del Dataset

​Cómo Obtener el Dataset

​Archivos Relacionados

​Paso 4: Implementación

​Scripts Implementados

​Ejecución Completa del Proyecto

​Resultados Esperados

​Métricas Objetivo

Accuracy

Precision

Recall

F1-Score

​AUC-ROC

​Interpretación Clínica

​Solución de Problemas

​Próximos Pasos

​Paso 5: Informe Técnico (6 páginas máx)

​Paso 6: Presentación (7 minutos)

​Recursos Adicionales

​Tutoriales

​Papers Relacionados

​Mejoras Posibles

​Checklist Final

Build docs developers (and LLMs) love

Resumen Ejecutivo

Paso 1: Definición del Problema

Problema Biomédico

Justificación

Archivos Relacionados

Paso 2: Diseño del Modelo

Arquitectura CNN Seleccionada

Justificación de CNN

Hiperparámetros

Ver el Modelo

Archivos Relacionados

Paso 3: Dataset

Dataset Seleccionado

Estadísticas del Dataset

Cómo Obtener el Dataset

Archivos Relacionados

Paso 4: Implementación

Scripts Implementados

Ejecución Completa del Proyecto

Resultados Esperados

Métricas Objetivo

AUC-ROC

Interpretación Clínica

Solución de Problemas

Próximos Pasos

Paso 5: Informe Técnico (6 páginas máx)

Paso 6: Presentación (7 minutos)

Recursos Adicionales

Tutoriales

Papers Relacionados

Mejoras Posibles

Checklist Final