Qué son los datos categóricos

Explora datos categóricos: tipos, gráficos populares y ejemplos prácticos con gráficos barras y de torta.

ESTADÍSTICA DESCRIPTIVAESTADISTICACIENCIA DE DATOSANALÍTICA

Camilo García Rey

1/31/20244 min read

grafico de barras y grafico de torta
grafico de barras y grafico de torta

Los datos categóricos son un tipo de datos que representan categorías o etiquetas, en lugar de valores numéricos. Estos datos se utilizan comúnmente para clasificar y organizar la información en grupos o clases discretas, es decir en conjuntos separados y distintos en los que se organiza la información y su medición se realiza comúnmente en términos de proporciones, porcentajes o frecuencias dentro de cada categoría.

Por ejemplo, si consideramos preferencia del color de los ojos como una variable categórica, los grupos o clases discretas podrían ser "marrón", "azul", "verde" y "negro". Cada uno de estos colores representa una categoría separada y distinta. Y las respuestas dadas caerían en una categoría específica, y al analizar los resultados, podríamos expresar las preferencias en términos de porcentajes relativos a cada color.

  1. Qué son los datos categóricos

  2. Cuáles son los tipos de datos categóricos

  3. Gráficos más usados para visualizar datos categóricos

  4. Ejemplo de uso de Diagrama de barras y Gráfico de torta en python

  5. Cómo elegir el mejor gráfico entre un Diagrama de barras y Gráfico de torta

Cuáles son los tipos de datos categóricos

Hay dos tipos principales de datos categóricos: nominales y ordinales.

Los datos nominales representan categorías sin un orden inherente. Por ejemplo, el color de un automóvil (rojo, azul, verde) o el tipo de animal (perro, gato, pájaro) son datos nominales. No hay un orden específico entre las categorías; son simplemente etiquetas descriptivas.

Los datos ordinales también representan categorías, pero hay un orden entre ellas. Aunque la distancia entre las categorías no es necesariamente uniforme, se establece un orden. Por ejemplo, en una encuesta de satisfacción del cliente, las respuestas podrían ser "insatisfecho", "neutral", "satisfecho" y "muy satisfecho". Existe un orden de insatisfacción a satisfacción, pero la distancia entre las categorías no es cuantificable de manera precisa.

Gráficos más usados para visualizar datos categóricos

Existen varios tipos de gráficos que son comúnmente utilizados para visualizar variables categóricas. La elección del tipo de gráfico depende del objetivo específico de la representación visual y de la naturaleza de los datos. Sin embargo dentro de los más comúnmente utilizados encontramos el Gráfico de barras o en inglés Bar Chart y el Gráfico de pastel o gráfico de sectores o circular y en inglés Pie Chart.

El Gráfico de barras es uno de los gráficos más comunes para variables categóricas. Cada categoría se representa con una barra, y la altura de la barra indica la frecuencia o proporción de esa categoría. Puede ser horizontal o vertical. En términos simples la frecuencia o proporción de cada categoría de la variable es visualizada mediante una barra.

El Gráfico de pastel muestra las proporciones de las categorías en un círculo, dividiéndolo en segmentos que representan cada categoría. Es útil cuando se quiere visualizar la proporción relativa de cada categoría en relación con el todo. En términos sencillos la frecuencia o proporción para cada categoría es visualizada en un pie chart como una tajada del pastel.

Ejemplo de uso de Diagrama de barras y Gráfico de torta en python

Imaginemos que tienes datos de una campaña de marketing digital B2B que ha generado leads para tu empresa que ofrece alguna herramienta de productividad tecnológica. Y queremos visualizar la distribución de estos leads por industria y también mostrar la cantidad total de leads generados. Sector Leads Tecnología = 30, Finanzas = 20, Salud = 15, Manufactura = 35

grafico de barra y grafico de torta de leads por industria en python
grafico de barra y grafico de torta de leads por industria en python
grafico de barras leads por sector
grafico de barras leads por sector
grafico de torta leads por sector
grafico de torta leads por sector

El este primer gráfico se muestra la distribución de leads por industria utilizando un gráfico de barras. Cada barra representa una industria, y la altura de la barra indica la cantidad de leads generados durante la campaña por cada industria o sector.

Mientras que el segundo gráfico de pastel muestra la proporción de leads generados por cada industria en el total. Cada sector del pastel representa una industria y su tamaño relativo indica la proporción de leads generados en esa industria.

Cuando utilizamos el Gráfico de barras podemos comparar visualmente el número de leads generados en cada industria e identificar rápidamente cuál industria ha generado más o menos leads en comparación con las demás, además si las barras tienen algún orden podremos determinar si existe alguna tendencia.

Por otro lado con el Gráfico de Pastel podemos ver rápidamente la proporción de leads que cada industria contribuye al total. El Gráfico de Pastel muestra los porcentajes relativos de cada categoría, lo que puede ser útil para entender la distribución proporcional de los leads entre las industrias.

Cómo elegir el mejor gráfico entre un Diagrama de barras y Gráfico de torta

Depende de tu objetivo. Sí tu objetivo principal es comparar directamente la cantidad de leads generados en cada industria, es decir comparar cantidades absolutas, el gráfico de barras es más claro. La altura de las barras proporciona una representación directa de las cantidades. Y si estás más interesado en la proporción de leads que cada industria contribuye al total y no necesitas analizar cantidades absolutas de manera tan detallada, es decir quieres analizar proporciones y distribución relativa, el gráfico de pastel podría ser más claro y efectivo. No obstante, debemos tener en cuenta que si tenemos más de 7 categorías este gráfico podría llegar a ser un poco confuso de entender.