TA2 - Modelo Baseline y Regresión Logística¶

Resumen de la Tarea¶

El TA2 consistió en implementar un modelo baseline y una regresión logística para predecir la supervivencia en el Titanic. El objetivo principal fue comparar el rendimiento de un modelo simple (baseline) con un modelo de machine learning más sofisticado, aplicando técnicas de feature engineering y preprocesamiento de datos.

Metodología¶

Preprocesamiento de datos¶

Imputación de valores faltantes en Age, Fare y Embarked
Manejo estratégico de missing values según el tipo de variable

Feature Engineering¶

Creación de FamilySize (SibSp + Parch + 1)
Variable IsAlone para identificar pasajeros solitarios
Extracción de títulos del nombre (Title)
Agrupación de títulos raros bajo categoría "Rare"

Modelado¶

Baseline: DummyClassifier que predice siempre la clase más común
Regresión Logística: Modelo supervisado con regularización
División train/test (80/20) con estratificación

Evaluación¶

Métricas de accuracy, precision, recall y F1-score
Matriz de confusión para análisis de errores

Dataset Procesado¶

Features utilizadas: Pclass, Sex, Age, Fare, Embarked, FamilySize, IsAlone, Title, SibSp, Parch
Encoding: Variables categóricas convertidas con pd.get_dummies()
Tamaño final: 891 registros con features procesadas

Resultados del Modelo¶

Métricas de Rendimiento¶

Baseline Accuracy: 61.45%
Regresión Logística Accuracy: 81.56%

Matriz de Confusión (Regresión Logística)¶

           Predicho
Actual    No (0)  Sí (1)
No (0)      98     12
Sí (1)      21     48

Reporte de Clasificación¶

              precision    recall  f1-score   support
No (0)           0.82      0.89      0.86       110
Sí (1)           0.80      0.70      0.74        69
accuracy                            0.82       179

Análisis de Resultados¶

Matriz de confusión: ¿En qué casos se equivoca más el modelo?¶

El modelo se equivoca más cuando predice que una persona NO sobrevivió, pero sí lo hizo (21 casos vs 12 casos). Específicamente:

Falsos Negativos (FN): 21 casos - Predice "No sobrevive" pero sí sobrevivió
Falsos Positivos (FP): 12 casos - Predice "Sobrevive" pero no sobrevivió

Esto indica que el modelo es más conservador y tiende a subestimar las probabilidades de supervivencia.

Clases atendidas: ¿El modelo acierta más con los que sobrevivieron o con los que no sobrevivieron?¶

El modelo acierta más con los que NO sobrevivieron:

Clase "No sobrevivió" (0): Recall = 89% (98 de 110 casos correctos)
Clase "Sobrevivió" (1): Recall = 70% (48 de 69 casos correctos)

El modelo tiene mejor capacidad para identificar a las personas que no sobrevivieron, posiblemente porque esta clase está mejor representada en los datos de entrenamiento.

Comparación con baseline: ¿La Regresión Logística obtiene más aciertos?¶

Si, la Regresión Logística supera ampliamente al baseline:

Baseline (siempre clase más común): 61.45% accuracy
Regresión Logística: 81.56% accuracy
Mejora: +20.11 puntos porcentuales

Esto demuestra que las features engineered y el modelo de ML aportan valor predictivo real.

Errores más importantes: ¿Cuál de los dos tipos de error es más grave?¶

Para el problema del Titanic, los Falsos Negativos (FN) son más graves:

FN (21 casos): Predecir que alguien NO sobrevivirá cuando SÍ lo hará
FP (12 casos): Predecir que alguien sobrevivirá cuando NO lo hará

En un contexto de emergencia, es más crítico no identificar a alguien que podría salvarse (FN) que generar una falsa esperanza (FP). Los FN representan oportunidades perdidas de rescate.

Observaciones generales: Patrones interesantes sobre supervivencia¶

Desequilibrio de clases: El modelo maneja mejor la clase mayoritaria (No sobrevivió)
Feature Engineering efectivo: Las nuevas variables (FamilySize, IsAlone, Title) contribuyeron significativamente al rendimiento
Precision vs Recall trade-off:
Alta precision para "No sobrevivió" (82%)
Menor recall para "Sobrevivió" (70%)
Patrón socioeconómico: El modelo captura bien las diferencias de clase y género identificadas en el TA1

Conclusiones¶

El feature engineering es muy importante: Las nuevas variables mejoraron significativamente el rendimiento
La regresión logística supera al baseline: +20% de accuracy
El modelo tiene sesgo conservador: Tiende a predecir más muertes que supervivencias