Este es también un momento muy valioso para familiarizarte con los datos y su estructura, aprender a reconocer los fallos y anticiparte a ellos.
Qué cubre esta fase
Los problemas que puedes encontrar son prácticamente inabarcables, pero los más comunes se agrupan en dos grandes bloques:- Importación: errores introducidos al trasladar los datos a la hoja de cálculo (separadores incorrectos, codificación de caracteres, tipos de dato mal interpretados).
- Problemas de los datos: anomalías presentes en los propios datos, como valores ausentes, duplicados o inconsistencias de formato.
Flujo de trabajo
En Datosfera Lab dedicamos las sesiones 3 a 5 a este proceso:Seminario de introducción a la herramienta
Presentación a modo de seminario de la herramienta escogida (Google Sheets, LibreOffice Calc o Excel) y los principales procesos de importación y limpieza. Se trabaja en conjunto sobre un dataset de prueba descargado de Kaggle para practicar antes de tocar los datos del proyecto.
Importación y limpieza del dataset del proyecto
El equipo importa su propio dataset y aplica las técnicas aprendidas, con supervisión continua para garantizar el correcto desarrollo del proceso y la participación activa de todas las personas.
Siguientes pasos
Importación de datos
Aprende a importar correctamente archivos de texto a tu hoja de cálculo y evita los errores más frecuentes.
Problemas con los datos
Identifica y resuelve los problemas de calidad más habituales: valores ausentes, duplicados, inconsistencias y más.