Tipos de variables y escalas de medición

Cuando tenemos un conjunto de datos, analizamos características de un conjunto de individuos. A estas características las llamamos variables. Podríamos decir que el nombre variable tiene sentido porque estas características pueden variar de un individuo a otro. Si los valores son iguales para todos los individuos, diríamos que es una constante.

Cuando hablamos de individuos, no necesariamente nos referimos a personas. Estos individuos o elementos de nuestro conjunto de datos pueden ser personas, animales, objetos, transacciones o cualquier cosa.

Tipos de variables

Existen dos tipos de variables:

  • Cuantitativas: Aquellas con las que tiene sentido hacer operaciones aritméticas como sumar o multiplicar.
  • Cualitativas: Las que no son cuantitativas. Usualmente sirven para categorizar a los individuos (sexo, color, especie, marca) o para identificar (nombre, número de identificación).

Se suele pensar que las variables cuantitativas son números y las cualitativas son texto. Sin embargo, no siempre es así. Por ejemplo, un número de un documento de identificación emitido por el estado es una variable cualitativa que sirve para identificar y con la que no tiene ningún sentido realizar operaciones aritméticas.

Pregunta

Supón que en un conjunto de datos tenemos la fecha de nacimiento de los individuos ¿Esta es una variable cualitativa o cuantitativa?


Mostrar respuesta


Pregunta

Si obtenemos datos de un conjunto de personas, clasifica las siguientes variables según su tipo:

  • Nombre
  • Edad
  • Fecha de nacimiento
  • Estatura
  • Peso
  • Color de cabello
  • Lugar de nacimiento
  • Número de pasaporte
  • Estrato socioeconómico


Mostrar respuesta

Tipos de datos en R

En R tenemos una variedad de tipos de datos que sirven en para almacenar los valores de las variables. El tipo de dato que utilicemos para almacenar una variable afectará la forma en la que podamos utilizarlo.

  • numeric: Almacena números con decimales. Por regla general, las variables almacenadas de esta manera serán cuantitativas
  • integer: Almacena números enteros. Puede servir para representar variables cuantitativas como el conteo de ocurrencias de algún suceso (visitas a una página web, cantidad de hijos, población de un país) o cualitativas como un número de identificación. En este último caso, la variable también podría almacenarse como character o texto, pero los enteros tienen la ventaja de ocupar menos memoria.
  • character: Almacena texto. Usualmente será el tipo de datos con el que almacenemos variables cualitativas.
  • factor: Es un tipo de datos que sirve para almacenar categorías. Una diferencia con el tipo de datos character es que aunque los datos se muestran como texto, R internamente los almacena como enteros para ser más eficiente. Una desventaja es que tiene un límite de valores distintos que puede tener.
  • logical: Es un tipo de datos que sólo puede tomar dos valores: TRUE (verdadero) o FALSE (falso). En otros lenguajes de programación se le conoce también como boolean.
  • Date: Es uno de los tipos de datos que utiliza R para almacenar fechas. Las fechas son variables bastante complejas, y un tema que necesita más de un artículo. Con la experiencia vas a aprender a trabajar con este tipo de datos. Por ahora, lo que te puedo adelantar es que el paquete lubridate es la forma más fácil de hacerlo.

Pregunta

Si obtenemos datos de un conjunto de personas ¿qué tipo de dato deberíamos utilizar para cada una de estas variables?

  • Nombre
  • Edad
  • Fecha de nacimiento
  • Estatura
  • Peso
  • Color de cabello
  • Lugar de nacimiento
  • Número de pasaporte
  • Estrato socioeconómico


Mostrar respuesta

library(dplyr)
library(janitor)

iris <- as_tibble(iris) %>% clean_names()
iris
## # A tibble: 150 x 5
##    sepal_length sepal_width petal_length petal_width species
##           <dbl>       <dbl>        <dbl>       <dbl> <fct>  
##  1          5.1         3.5          1.4         0.2 setosa 
##  2          4.9         3            1.4         0.2 setosa 
##  3          4.7         3.2          1.3         0.2 setosa 
##  4          4.6         3.1          1.5         0.2 setosa 
##  5          5           3.6          1.4         0.2 setosa 
##  6          5.4         3.9          1.7         0.4 setosa 
##  7          4.6         3.4          1.4         0.3 setosa 
##  8          5           3.4          1.5         0.2 setosa 
##  9          4.4         2.9          1.4         0.2 setosa 
## 10          4.9         3.1          1.5         0.1 setosa 
## # … with 140 more rows

Debajo del nombre de cada columna tenemos el tipo de dato abreviado. Las correspondencias más importantes son:

Abreviación Tipo de dato
dbl numeric
int integer
chr character
fctr factor
date Date
lgl logical

La abreviación dbl viene de double-precision floating-point. Tiene que ver con detalles técnicos que van más allá del alcance de este artículo, pero que no está mal que investigues por tu cuenta.

Escalas de medición

Otra categorización que podemos hacer de las variables es la escala en la que las medimos. Existen cuatro escalas, organizadas de la que brinda menos información a la que brinda más información:

Variables cualitativas:

  1. Nominal: Ocurre cuando sólo podemos decir que dos valores son distintos. Usualmente son categorías o identificadores.
  2. Ordinal: Ocurre cuando podemos decir que un valor es mayor o menor que otro. Dicho de otra manera, podemos ordenar o establecer relaciones de orden entre los valores de la variable. Sin embargo, no podemos cuantificar la diferencia entre un valor y otro.

Variables cuantitativas:

  1. Intervalo: Es una escala que se utiliza para variables cuantitativas que tienen lo que se conoce como un cero por convención, o un cero que existe porque se convino que ese valor sea cero pero NO implica ausencia de la variable. Esto hace que tenga sentido calcular la diferencia o intervalo entre dos valores distintos, pero no la razón entre valores. Por ejemplo, la fecha es una variable medida en escala de intervalo, puesto que tiene sentido calcular la diferencia entre valores, pero no tiene sentido decir, por ejemplo, que una fecha es dos veces más que otra, ya que el cero es una fecha que se estableció por convención y no se puede interpretar como ausencia.
  2. Razón: Utilizamos esta escala cuando la variable cuantitativa tiene un cero absoluto, o cuando el cero significa efectivamente ausencia. Esto implica que sí tiene sentico calcular razones entre valores. Por ejemplo, si medimos el número de habitantes de un país, si el valor es cero, esto implicaría ausencia de habitantes, y tiene todo el sentido del mundo decir que un país tiene el doble de habitantes que otro.

Pregunta

Si obtenemos datos de un conjunto de personas ¿cuál escala de medición deberíamos utilizar para cada una de estas variables?

  • Nombre
  • Edad
  • Fecha de nacimiento
  • Estatura
  • Peso
  • Color de cabello
  • Lugar de nacimiento
  • Número de pasaporte
  • Estrato socioeconómico


Mostrar respuesta