Los datos están literalmente en todas partes. Hay más de 40 zettabytes de datos en el mundo, lo que equivale a 40 billones de gigabytes de datos. Los datos son el combustible de todas las industrias, desde la atención médica hasta el transporte. 

Sin embargo, tenemos que saber cómo administrar, proteger y limpiar esa gran cantidad de datos para poder usarlos al máximo. 

Datos

¿Cómo se pueden aprovechar al máximo los datos? El primer paso, cuando se trata de manejar datos, es conocer su tipo y propiedades. 

Según su valor, los datos pueden ser datos cualitativos (categóricos) y datos cuantitativos (numéricos) 

Analizamos cada uno de ellos. 

Datos cualitativos (categóricos) 

Describen un objeto o un grupo de elementos Se conocen como datos categóricos porque, como su nombre indica, pueden etiquetar un grupo de elementos o puntos de datos en una categoría específica. Ejemplos pueden ser los colores, plantas y lugares 

Los datos cualitativos se clasifican luego en otros 2 subtipos: “ordinal” y “nominal”. 

Datos ordinales 

Los datos ordinales siguen un orden o rango específico, como en las calificaciones de las pruebas, el estado económico o el rango militar. 

Datos nominales 

Sin embargo, los datos nominales no siguen un orden específico como los datos ordinales. Considere el género, la ciudad, el estado laboral, los colores, etc. 

Datos cuantitativos (numéricos) 

Por otro lado, los datos cuantitativos se ocupan de valores numéricos sobre los que podemos aplicar operaciones matemáticas: altura, frutas en una canasta, niños en una escuela. 

Aunque parecen similares, hay algo más que debe tener en cuenta: los datos cuantitativos pueden ser continuos o discretos. 

La diferencia es que podemos dividir los datos continuos en unidades más pequeñas y aun así tienen sentido. Sin embargo, esto no es posible con datos discretos, ya que dividirlos en unidades más pequeñas nos dará valores poco razonables. 

Por ejemplo, el peso es continuo porque podemos medirlo en kilogramos, gramos y miligramos y aun así tenemos un valor de peso válido. Pero, ¿podemos aplicar el mismo concepto a un valor discreto, como los niños en una escuela? Eso sería más que irrazonable, ya que no es posible dividir a un niño por la mitad o en unidades más pequeñas, 

Tipos de datos según la sensibilidad 

La confidencialidad de los datos es un asunto controvertido con muchos cabos sueltos aún por atar. Sin embargo, las repercusiones de descuidarlos son tan graves que si alguien usa sus datos personales sin su permiso, puede enfrentar una demanda colectiva. Por lo tanto, poder clasificar los datos según su sensibilidad es un aspecto fundamental para trabajar como profesional de datos. Entonces, cubramos brevemente los 4 niveles de sensibilidad: 

Sensibilidad de datos baja 

Los datos de baja sensibilidad o públicos son el tipo de datos a los que casi cualquier persona puede acceder y compartir sin dañar a las personas o instituciones. Los ejemplos incluyen contenido de sitios web públicos, como blogs y materiales descargables, información de directorio e información de la empresa. 

Sensibilidad de datos media 

Los datos de este nivel son solo para uso interno. Se pueden producir daños leves al divulgar datos de confidencialidad media, como datos de donantes, correos electrónicos y registros de personal. 

Alta sensibilidad de datos 

Se trata de datos confidenciales y su divulgación por cualquier motivo puede causar graves perjuicios tanto a personas como a instituciones. Los datos de alta sensibilidad comprenden contraseñas, números de seguro social, datos financieros, etc. 

Las razones por las que comprender los tipos de datos es crucial. 

Conocer el formato y el tamaño exacto de los datos ayuda a ahorrar tiempo y espacio. 

  • Reduce la probabilidad de errores en las etapas de limpieza y análisis. 
  • Asegura que las funciones que escribirá más tarde le darán los resultados deseados. 
  • Y ayuda a la instrumentación, que es el proceso de rastrear datos y enviarlos a otros sistemas.  
  • Para instrumentar los datos correctamente y crear un plan de seguimiento efectivo, debe determinar todos los tipos de datos de antemano.