Datos estructurados y no estructurados
Los datos estructurados son rápidamente reconocibles porque muestran una organización clara y fácilmente interpretable. Por ejemplo, volviendo a la película Moneyball, una tabla de jugadores de béisbol en la que cada fila representa un jugador y cada columna un atributo — velocidad, fuerza de lanzamiento, promedio de bateo — es un ejemplo canónico de datos estructurados. Los datos no estructurados, por su parte, combinan diferentes formatos y contenidos sin seguir una estructura tan evidente. Un vídeo, por ejemplo, tiene varios componentes (imágenes y sonido) cuya representación interna es mucho más compleja que la de una tabla. El caso estándar en la ciencia de datos parte de datos estructurados, y generalmente se trabaja con datos organizados en modelo de tabla. Esto es claramente visible en las hojas de cálculo de programas como Microsoft Excel o Google Sheets, desde las cuales además es posible llevar a cabo muchos de los procesos básicos de la ciencia de datos, inclusive la visualización mediante gráficos.Formatos de archivo
Aunque se trabaje con datos estructurados en tablas, estos pueden estar almacenados en diferentes formatos de archivo. La elección del formato tiene implicaciones importantes en cuanto a compatibilidad, accesibilidad y apertura.- TXT
- CSV
- TSV
- XLSX
El archivo de texto plano (
.txt) es el formato abierto más básico para datos estructurados. En él, los datos se organizan en forma de tabla: cada caso o individuo (por ejemplo, un jugador de béisbol) ocupa una línea de texto, y cada atributo o variable se separa mediante un carácter específico denominado delimitador.Los delimitadores más habituales son la coma (,), el punto y coma (;) y la tabulación (→). Dependiendo del delimitador elegido, el archivo de texto puede transformarse en un CSV o en un TSV.Ventaja: universalmente legible por cualquier programa o sistema operativo.Tabla comparativa
| Formato | Tipo | Delimitador | Compatible con |
|---|---|---|---|
.txt | Abierto | Variable (configurable) | Cualquier editor de texto |
.csv | Abierto | Coma , | Excel, Sheets, LibreOffice, Python, R… |
.tsv | Abierto | Tabulación → | Excel, Sheets, LibreOffice, Python, R… |
.xlsx | Propietario | — | Excel, Google Sheets (parcial), LibreOffice |