Skip to main content
Si múltiples son las operaciones que entran dentro de la ciencia de datos, también lo son los propios datos. Una distinción básica es la que se puede hacer entre datos estructurados y datos no estructurados.

Datos estructurados y no estructurados

Los datos estructurados son rápidamente reconocibles porque muestran una organización clara y fácilmente interpretable. Por ejemplo, volviendo a la película Moneyball, una tabla de jugadores de béisbol en la que cada fila representa un jugador y cada columna un atributo — velocidad, fuerza de lanzamiento, promedio de bateo — es un ejemplo canónico de datos estructurados. Los datos no estructurados, por su parte, combinan diferentes formatos y contenidos sin seguir una estructura tan evidente. Un vídeo, por ejemplo, tiene varios componentes (imágenes y sonido) cuya representación interna es mucho más compleja que la de una tabla. El caso estándar en la ciencia de datos parte de datos estructurados, y generalmente se trabaja con datos organizados en modelo de tabla. Esto es claramente visible en las hojas de cálculo de programas como Microsoft Excel o Google Sheets, desde las cuales además es posible llevar a cabo muchos de los procesos básicos de la ciencia de datos, inclusive la visualización mediante gráficos.

Formatos de archivo

Aunque se trabaje con datos estructurados en tablas, estos pueden estar almacenados en diferentes formatos de archivo. La elección del formato tiene implicaciones importantes en cuanto a compatibilidad, accesibilidad y apertura.
El archivo de texto plano (.txt) es el formato abierto más básico para datos estructurados. En él, los datos se organizan en forma de tabla: cada caso o individuo (por ejemplo, un jugador de béisbol) ocupa una línea de texto, y cada atributo o variable se separa mediante un carácter específico denominado delimitador.Los delimitadores más habituales son la coma (,), el punto y coma (;) y la tabulación (). Dependiendo del delimitador elegido, el archivo de texto puede transformarse en un CSV o en un TSV.Ventaja: universalmente legible por cualquier programa o sistema operativo.

Tabla comparativa

FormatoTipoDelimitadorCompatible con
.txtAbiertoVariable (configurable)Cualquier editor de texto
.csvAbiertoComa ,Excel, Sheets, LibreOffice, Python, R…
.tsvAbiertoTabulación Excel, Sheets, LibreOffice, Python, R…
.xlsxPropietarioExcel, Google Sheets (parcial), LibreOffice
Siempre que sea posible, guarda y comparte tus datos en un formato abierto como CSV o TSV. De este modo, cualquier persona — independientemente de si usa Microsoft Excel, Google Sheets, Numbers u otra herramienta — podrá acceder a los datos sin ninguna limitación. Los formatos abiertos son un pilar fundamental de los datos abiertos y la ciencia de datos colaborativa.

Build docs developers (and LLMs) love