Preguntas Frecuentes de la Presentación
Estas son las preguntas más comunes que recibirás durante o después de la presentación, con respuestas preparadas basadas en el proyecto.Sobre el Rendimiento del Modelo
¿Por qué solo 80% y no 95%?
¿Por qué solo 80% y no 95%?
“El 95% era en validación (datos que el modelo veía durante entrenamiento). El 80% es en test (datos completamente nuevos). Esto es normal y demuestra que el modelo generaliza bien.”Explicación extendida si preguntan más:
- Validación: Datos usados para ajustar hiperparámetros durante el entrenamiento
- Test: Datos completamente nuevos, nunca vistos por el modelo
- La diferencia refleja la capacidad de generalización
- Una caída de 15 puntos es aceptable en Deep Learning
- Lo importante es que el 80% en test es un resultado sólido para datos nuevos
- Demuestra que NO hay overfitting severo
- El modelo funciona con datos reales del mundo
- 80% sigue siendo útil para screening inicial
¿Qué significa el 96% de sensibilidad?
¿Qué significa el 96% de sensibilidad?
“Lo más importante: el modelo tiene 96% de sensibilidad, es decir, detecta casi todos los casos de neumonía. En medicina es mejor tener falsos positivos que perder un caso real.”Desglose de sensibilidad:
- De cada 100 casos de neumonía, detecta 96
- Solo 3-4 casos pasan desapercibidos
- Minimiza falsos negativos (el error más peligroso)
- Falso negativo = paciente enfermo sin detectar → PELIGROSO
- Falso positivo = verificación adicional → Molesto pero seguro
- Para screening, priorizar sensibilidad es la estrategia correcta
¿Cómo se compara con otros modelos?
¿Cómo se compara con otros modelos?
- AUC-ROC de 0.93 es “Excelente” (escala: >0.90 = excelente)
- Accuracy del 80% en test es sólido para clasificación médica binaria
- La alta sensibilidad (96%) es el punto fuerte
- No buscamos reemplazar a radiólogos (98%+ accuracy)
- Buscamos una herramienta de screening inicial
- Para ese propósito, estos números son apropiados
Sobre la Arquitectura y Diseño
¿Por qué CNN y no otra red neuronal?
¿Por qué CNN y no otra red neuronal?
“Las CNN están diseñadas para imágenes. Detectan patrones espaciales mejor que redes tradicionales. Son el estándar en imagenología médica.”Ventajas de las CNN:
- Invarianza espacial: Detecta patrones sin importar dónde aparezcan en la imagen
- Jerarquía de características: Primera capa detecta bordes, segunda texturas, tercera patrones complejos
- Menos parámetros: Comparado con redes fully connected para imágenes
- Probadas en medicina: ResNet, VGG, Inception usadas en imagenología
- Redes fully connected: Demasiados parámetros, pierden información espacial
- RNN: Diseñadas para secuencias, no para imágenes 2D
- Transformers: Requieren más datos y recursos de los que teníamos
¿Cómo manejan el overfitting?
¿Cómo manejan el overfitting?
“Usamos dropout, data augmentation y early stopping. Por eso hay diferencia entre validación (95%) y test (80%), pero sigue siendo un buen resultado.”Técnicas específicas implementadas:
- Dropout (50%):
- Desactiva aleatoriamente 50% de neuronas durante entrenamiento
- Previene co-adaptación de neuronas
- Actúa como ensemble de redes
- Data Augmentation:
- Rotaciones, flips, zoom
- Aumenta variedad de datos
- Mejora generalización
- Early Stopping:
- Monitorea validation loss
- Detiene entrenamiento cuando empieza overfitting
- Restaura mejores pesos
- Test accuracy (80%) no está muy lejos de validation (95%)
- Si hubiera overfitting severo, test sería mucho peor (<60%)
¿Por qué 224×224 y no otra resolución?
¿Por qué 224×224 y no otra resolución?
- Suficiente detalle para patrones de neumonía
- Estándar en ImageNet y transfer learning
- Entrenable en GPUs comunes
- Tiempo de inferencia rápido
- Resolución más alta (512×512): Más detalle, pero 5× más lento
- Resolución más baja (128×128): Más rápido, pero pierde detalles importantes
Sobre Aplicación Práctica
¿Se puede usar en hospitales reales?
¿Se puede usar en hospitales reales?
“Es una herramienta de apoyo para screening inicial, no reemplaza el diagnóstico médico. Requiere validación clínica adicional.”Uso apropiado:
- ✅ Screening en centros de atención primaria
- ✅ Priorización de casos urgentes
- ✅ Apoyo en zonas con pocos radiólogos
- ✅ Segunda opinión automática
- ❌ Diagnóstico definitivo sin revisión médica
- ❌ Reemplazar completamente a radiólogos
- ❌ Decisiones de tratamiento sin confirmación
- Validación clínica con médicos reales
- Pruebas en hospitales piloto
- Aprobación regulatoria (FDA, EMA, etc.)
- Integración con sistemas PACS
¿Puede distinguir neumonía viral de bacteriana?
¿Puede distinguir neumonía viral de bacteriana?
¿Qué pasa si la imagen tiene mala calidad?
¿Qué pasa si la imagen tiene mala calidad?
- Variaciones normales en contraste
- Diferentes ángulos estándar
- Ruido típico de rayos X
- Imágenes muy borrosas
- Ángulos no estándares (lateral en lugar de frontal)
- Artefactos severos
- Resolución muy baja
- Preprocesamiento más robusto
- Detección de calidad de imagen
- Entrenamiento con más variedad de calidades
¿Cuánto tarda una predicción?
¿Cuánto tarda una predicción?
- ~0.1-0.5 segundos por imagen en GPU
- ~1-2 segundos por imagen en CPU moderna
- Un radiólogo tarda 1-5 minutos analizando un caso
- El sistema puede procesar cientos de imágenes en minutos
- Útil para priorizar colas de trabajo
Sobre el Dataset y Datos
¿De dónde vienen las imágenes?
¿De dónde vienen las imágenes?
- 5,863 imágenes de rayos X de tórax
- 2 clases: NORMAL y PNEUMONIA
- Imágenes pediátricas (niños de 1-5 años)
- Fuente: Guangzhou Women and Children’s Medical Center
- Datos reales de hospital
- Etiquetado por expertos médicos
- Público y reproducible
- Ampliamente usado en investigación
- Solo pacientes pediátricos
- Un solo hospital (sesgo geográfico posible)
- Desbalance de clases (más casos de neumonía que normales)
¿Cómo aseguran que el dataset es confiable?
¿Cómo aseguran que el dataset es confiable?
- Etiquetado por 2 médicos expertos
- Verificado por un tercer experto en casos dudosos
- Publicado en journal médico peer-reviewed
- Usado en múltiples estudios académicos
- Análisis exploratorio de datos
- Verificación de distribuciones
- Revisión manual de muestras
- Test set completamente separado
¿Hay desbalance de clases?
¿Hay desbalance de clases?
- Evaluamos métricas más allá de accuracy (AUC-ROC, sensibilidad, especificidad)
- El test set mantiene la proporción natural
- Usamos data augmentation para balancear
Preguntas Técnicas Avanzadas
¿Qué función de activación usan?
¿Qué función de activación usan?
- Capas convolucionales: ReLU (Rectified Linear Unit)
- Capa de salida: Sigmoid (para clasificación binaria)
- Entrena más rápido que sigmoid/tanh
- No sufre vanishing gradient
- Induce sparsity (algunas neuronas = 0)
- Estándar en CNNs modernas
- Output entre 0 y 1 (probabilidad)
- Interpretable: >0.5 = PNEUMONIA, <0.5 = NORMAL
¿Qué optimizer y learning rate usaron?
¿Qué optimizer y learning rate usaron?
- Optimizer: Adam
- Learning rate: 0.001 (típicamente)
- Loss: Binary Crossentropy
- Combina ventajas de RMSprop y Momentum
- Adapta learning rate por parámetro
- Funciona bien out-of-the-box
- Menos sensible a hiperparámetros
¿Intentaron transfer learning?
¿Intentaron transfer learning?
- “Sí, podríamos usar modelos pre-entrenados como ResNet o VGG”
- “Para este proyecto, entrenamos desde cero para entender el proceso completo”
- Menos datos necesarios
- Entrena más rápido
- Potencialmente mejor accuracy
- Aprendizaje educativo completo
- Control total sobre arquitectura
- Dataset es suficientemente grande (5,863 imágenes)
Consejos para Responder Preguntas
Estrategia General
- Sé honesto: “Buena pregunta, no exploré ese aspecto específicamente”
- Ofrece hipótesis: “Probablemente porque X, pero habría que verificarlo”
- Redirige: “Lo que sí puedo decir es…”
- Respira antes de responder
- Es OK pedir que repitan la pregunta
- Puedes tomarte un momento para pensar
- Vuelve a los números que memorizaste (80%, 93%, 96%)
- Apunta a las gráficas si las tienes disponibles
- Cita el documento fuente si es necesario