TA2 - Modelo Baseline y Regresión Logística¶
Resumen de la Tarea¶
El TA2 consistió en implementar un modelo baseline y una regresión logística para predecir la supervivencia en el Titanic. El objetivo principal fue comparar el rendimiento de un modelo simple (baseline) con un modelo de machine learning más sofisticado, aplicando técnicas de feature engineering y preprocesamiento de datos.
Metodología¶
Preprocesamiento de datos¶
- Imputación de valores faltantes en
Age,FareyEmbarked - Manejo estratégico de missing values según el tipo de variable
Feature Engineering¶
- Creación de
FamilySize(SibSp + Parch + 1) - Variable
IsAlonepara identificar pasajeros solitarios - Extracción de títulos del nombre (
Title) - Agrupación de títulos raros bajo categoría "Rare"
Modelado¶
- Baseline: DummyClassifier que predice siempre la clase más común
- Regresión Logística: Modelo supervisado con regularización
- División train/test (80/20) con estratificación
Evaluación¶
- Métricas de accuracy, precision, recall y F1-score
- Matriz de confusión para análisis de errores
Dataset Procesado¶
- Features utilizadas:
Pclass,Sex,Age,Fare,Embarked,FamilySize,IsAlone,Title,SibSp,Parch - Encoding: Variables categóricas convertidas con
pd.get_dummies() - Tamaño final: 891 registros con features procesadas
Resultados del Modelo¶
Métricas de Rendimiento¶
- Baseline Accuracy: 61.45%
- Regresión Logística Accuracy: 81.56%
Matriz de Confusión (Regresión Logística)¶
Predicho
Actual No (0) Sí (1)
No (0) 98 12
Sí (1) 21 48
Reporte de Clasificación¶
precision recall f1-score support
No (0) 0.82 0.89 0.86 110
Sí (1) 0.80 0.70 0.74 69
accuracy 0.82 179
Análisis de Resultados¶
Matriz de confusión: ¿En qué casos se equivoca más el modelo?¶
El modelo se equivoca más cuando predice que una persona NO sobrevivió, pero sí lo hizo (21 casos vs 12 casos). Específicamente:
- Falsos Negativos (FN): 21 casos - Predice "No sobrevive" pero sí sobrevivió
- Falsos Positivos (FP): 12 casos - Predice "Sobrevive" pero no sobrevivió
Esto indica que el modelo es más conservador y tiende a subestimar las probabilidades de supervivencia.
Clases atendidas: ¿El modelo acierta más con los que sobrevivieron o con los que no sobrevivieron?¶
El modelo acierta más con los que NO sobrevivieron:
- Clase "No sobrevivió" (0): Recall = 89% (98 de 110 casos correctos)
- Clase "Sobrevivió" (1): Recall = 70% (48 de 69 casos correctos)
El modelo tiene mejor capacidad para identificar a las personas que no sobrevivieron, posiblemente porque esta clase está mejor representada en los datos de entrenamiento.
Comparación con baseline: ¿La Regresión Logística obtiene más aciertos?¶
Si, la Regresión Logística supera ampliamente al baseline:
- Baseline (siempre clase más común): 61.45% accuracy
- Regresión Logística: 81.56% accuracy
- Mejora: +20.11 puntos porcentuales
Esto demuestra que las features engineered y el modelo de ML aportan valor predictivo real.
Errores más importantes: ¿Cuál de los dos tipos de error es más grave?¶
Para el problema del Titanic, los Falsos Negativos (FN) son más graves:
- FN (21 casos): Predecir que alguien NO sobrevivirá cuando SÍ lo hará
- FP (12 casos): Predecir que alguien sobrevivirá cuando NO lo hará
En un contexto de emergencia, es más crítico no identificar a alguien que podría salvarse (FN) que generar una falsa esperanza (FP). Los FN representan oportunidades perdidas de rescate.
Observaciones generales: Patrones interesantes sobre supervivencia¶
-
Desequilibrio de clases: El modelo maneja mejor la clase mayoritaria (No sobrevivió)
-
Feature Engineering efectivo: Las nuevas variables (
FamilySize,IsAlone,Title) contribuyeron significativamente al rendimiento -
Precision vs Recall trade-off:
- Alta precision para "No sobrevivió" (82%)
-
Menor recall para "Sobrevivió" (70%)
-
Patrón socioeconómico: El modelo captura bien las diferencias de clase y género identificadas en el TA1
Conclusiones¶
- El feature engineering es muy importante: Las nuevas variables mejoraron significativamente el rendimiento
- La regresión logística supera al baseline: +20% de accuracy
- El modelo tiene sesgo conservador: Tiende a predecir más muertes que supervivencias