Tipos de variables y escalas de medición
Cuando tenemos un conjunto de datos, analizamos características de un conjunto de individuos. A estas características las llamamos variables. Podríamos decir que el nombre variable tiene sentido porque estas características pueden variar de un individuo a otro. Si los valores son iguales para todos los individuos, diríamos que es una constante.
Cuando hablamos de individuos, no necesariamente nos referimos a personas. Estos individuos o elementos de nuestro conjunto de datos pueden ser personas, animales, objetos, transacciones o cualquier cosa.
Tipos de variables
Existen dos tipos de variables:
- Cuantitativas: Aquellas con las que tiene sentido hacer operaciones aritméticas como sumar o multiplicar.
- Cualitativas: Las que no son cuantitativas. Usualmente sirven para categorizar a los individuos (sexo, color, especie, marca) o para identificar (nombre, número de identificación).
Se suele pensar que las variables cuantitativas son números y las cualitativas son texto. Sin embargo, no siempre es así. Por ejemplo, un número de un documento de identificación emitido por el estado es una variable cualitativa que sirve para identificar y con la que no tiene ningún sentido realizar operaciones aritméticas.
Pregunta
Pregunta
Si obtenemos datos de un conjunto de personas, clasifica las siguientes variables según su tipo:
- Nombre
- Edad
- Fecha de nacimiento
- Estatura
- Peso
- Color de cabello
- Lugar de nacimiento
- Número de pasaporte
- Estrato socioeconómico
Tipos de datos en Python
En Python tenemos una variedad de tipos de datos que sirven en para almacenar los valores de las variables. El tipo de dato que utilicemos para almacenar una variable afectará la forma en la que podamos utilizarlo. Particularmente trabajaremos usualmente con los tipos de datos de la librería pandas
.
float64
: Almacena números con decimales. Por regla general, las variables almacenadas de esta manera serán cuantitativasint64
: Almacena números enteros. Puede servir para representar variables cuantitativas como el conteo de ocurrencias de algún suceso (visitas a una página web, cantidad de hijos, población de un país) o cualitativas como un número de identificación. En este último caso, la variable también podría almacenarse comostring
o texto, pero los enteros tienen la ventaja de ocupar menos memoria.bool
: Es un tipo de datos que sólo puede tomar dos valores:True
(verdadero) oFalse
(falso). En otros lenguajes de programación se le conoce también comoboolean
.datetime64
: Es uno de los tipos de datos que utiliza python para almacenar fechas. Las fechas son variables bastante complejas, y un tema que necesita más de un artículo. Con la experiencia vas a aprender a trabajar con este tipo de datos. Por ahora, lo que te puedo adelantar es que la libreríadatetime
es la forma más fácil de hacerlo.timedelta64
: Con este tipo de datos,pandas
almacena períodos de tiempo, o diferencias entre fechas.object
: Almacena texto o cualquier otro tipo de objeto de python que no esté previsto en los tipos de datos depandas
. Usualmente será el tipo de datos con el que almacenemos variables cualitativas.
Pregunta
Si obtenemos datos de un conjunto de personas ¿qué tipo de dato deberíamos utilizar para cada una de estas variables?
- Nombre
- Edad
- Fecha de nacimiento
- Estatura
- Peso
- Color de cabello
- Lugar de nacimiento
- Número de pasaporte
- Estrato socioeconómico
En este script, vamos a leer un archivo desde internet, si es que no lo tenemos almacenado en una carpeta de datos previamente. En caso de tenerlo almacenado, lo leeremos directamente desde allí para que sea más rápido.
import pandas as pd
import os
cache_path = "data/iris.csv"
if os.path.isfile(cache_path):
iris = pd.read_csv(cache_path)
else:
iris = pd.read_csv("https://raw.githubusercontent.com/toneloy/data/master/iris.csv")
iris.to_csv(cache_path, index=False)
print(iris.dtypes)
## sepal_length float64
## sepal_width float64
## petal_length float64
## petal_width float64
## species object
## dtype: object
El nombre float64
viene de floating point. Tiene que ver con detalles técnicos que van más allá del alcance de este artículo, pero que no está mal que investigues por tu cuenta.
Escalas de medición
Otra categorización que podemos hacer de las variables es la escala en la que las medimos. Existen cuatro escalas, organizadas de la que brinda menos información a la que brinda más información:
Variables cualitativas:
- Nominal: Ocurre cuando sólo podemos decir que dos valores son distintos. Usualmente son categorías o identificadores.
- Ordinal: Ocurre cuando podemos decir que un valor es mayor o menor que otro. Dicho de otra manera, podemos ordenar o establecer relaciones de orden entre los valores de la variable. Sin embargo, no podemos cuantificar la diferencia entre un valor y otro.
Variables cuantitativas:
- Intervalo: Es una escala que se utiliza para variables cuantitativas que tienen lo que se conoce como un cero por convención, o un cero que existe porque se convino que ese valor sea cero pero NO implica ausencia de la variable. Esto hace que tenga sentido calcular la diferencia o intervalo entre dos valores distintos, pero no la razón entre valores. Por ejemplo, la fecha es una variable medida en escala de intervalo, puesto que tiene sentido calcular la diferencia entre valores, pero no tiene sentido decir, por ejemplo, que una fecha es dos veces más que otra, ya que el cero es una fecha que se estableció por convención y no se puede interpretar como ausencia.
- Razón: Utilizamos esta escala cuando la variable cuantitativa tiene un cero absoluto, o cuando el cero significa efectivamente ausencia. Esto implica que sí tiene sentico calcular razones entre valores. Por ejemplo, si medimos el número de habitantes de un país, si el valor es cero, esto implicaría ausencia de habitantes, y tiene todo el sentido del mundo decir que un país tiene el doble de habitantes que otro.
Pregunta
Si obtenemos datos de un conjunto de personas ¿cuál escala de medición deberíamos utilizar para cada una de estas variables?
- Nombre
- Edad
- Fecha de nacimiento
- Estatura
- Peso
- Color de cabello
- Lugar de nacimiento
- Número de pasaporte
- Estrato socioeconómico