Gestión y control de calidad

¿Cómo hacer un diagrama de Pareto utilizando Excel o Python?

El diagrama de Pareto es una variación del histograma tradicional, puesto que en el Pareto se ordenan los datos por su frecuencia de mayor a menor. El principio de Pareto, también conocido como la regla 80 – 20, enunció en su momento que «el 20% de la población, poseía el 80% de la riqueza».

Su uso se aplica con relativo éxito en muchos ámbitos, soportando metodologías de priorización, por ejemplo. El diagrama de Pareto hace parte de lo que se denominan técnicas gráficas de calidad, como lo son las siete herramientas básicasutilizadas para la solución de problemas referentes a la calidad, mencionadas por primera vez por Kaoru Ishikawa.

El objetivo de este artículo consiste en el desarrollo de un par de metodologías de elaboración de diagramas de Pareto, haciendo uso de dos herramientas: la tradicional hoja de cálculo de Excel, y el popularizado lenguaje de programación Python.

Diagrama de Pareto en Excel (2016)

Supongamos que un proceso que produce refrigeradores desea establecer controles sobre los defectos que aparecen en las unidades que salen como producto terminado en la línea de producción. Para ello se hace necesario determinar cuáles son los defectos más frecuentes. En primer lugar se clasificaron todos los defectos posibles:

  • Motor no detiene
  • No enfría
  • Burlete def.
  • Pintura def.
  • Rayas
  • No funciona
  • Puerta no cierra
  • Gavetas def.
  • Motor no arranca
  • Mala nivelación
  • Puerta def.
  • Otros

Después de inspeccionar 88 refrigeradores defectuosos, se obtuvo la siguiente tabla de frecuencias:

Tipo de defectoFrecuencia
Burlete defectuoso9
Pintura defectuosa5
Gavetas defectuosas1
Mala nivelación1
Motor no arranca1
Motor no se detiene36
No enfría27
No funciona2
Otros0
Puerta defectuosa0
Puerta no cierra2
Rayas4
Total88

Ordenamos los datos de mayor  a menor y anexamos una columna de frecuencia relativa (porcentual) y otra de frecuencia relativa acumulada (porcentual). Para obtener las frecuencias relativas utilizamos la siguientes fórmulas:

Frecuencia relativa

Veamos por ejemplo la frecuencia relativa del defecto «motor no se detiene«:

Podemos calcular la frecuencia relativa porcentual de la siguiente manera:

Veamos cómo hacerlo en Excel:

Tabla de frecuencias Excel

Recuerde que previamente debe ordenar las frecuencias de mayor a menor. Utilizando esta formulación, obtenemos el siguiente resultado:

Aquí podemos observar como la causa 1: motor no se detiene se ha presentado con una frecuencia de 36 defectos (de un total de 88 defectos totales), lo que representa un 40,91% del total de defectos. También podemos, con base en nuestra data de estudio, que las causas 1, 2 y 3, representan más del 80% de los defectos totales (81,82% exactamente). Si consideramos que estas son 3 causas de 12 causas totales, esto se aproxima a la regla empírica de Pareto (3/12 = 0,25). En este caso, el 81,82% de los defectos se debe al 25% de las causas.

Veamos ahora cómo graficar el Diagrama de Pareto tradicional:

Seleccionamos los datos de las columnas ‘Tipo de defecto’, ‘Frecuencia’ y ‘Frecuencia relativa acumulada’. A continuación damos clic en el Menú “Insertar”; seleccionamos «Gráficos recomendados”; luego en “Pareto”.

Excel Pareto

Excel Pareto

    A diferencia de otras versiones, desde Microsoft Excel 2016 podemos acceder a este tipo de representación gráfica con suma facilidad:

    Diagrama de Pareto Excel

    Descargar la plantilla de Excel: Diagrama de Pareto

    Diagrama de Pareto en Python

    Quienes prefieran utilizar algún lenguaje de programación, ya sea porque el diagrama que requieren acompañará un desarrollo o un modelo más robusto, integrará datos desde fuentes externas, o simplemente así lo prefieren; pueden utilizar Python para graficar su Pareto son suma facilidad. Explicaremos el código paso a paso, sin embargo, al finalizar, dejaremos el código completo para su disposición.

    Importar las librerías

    En este caso, requerimos del uso de dos librerías

    • Pandas: Un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que el trabajo con datos «relacionales» o «etiquetados» sea fácil e intuitivo.
    • Matplotlib: Es una biblioteca completa para crear visualizaciones estáticas, animadas e interactivas en Python.
    import pandas as pd
    import matplotlib.pyplot as plt

    Crear la data de entrada y ordenarla

    df = pd.DataFrame({'frecuencia': [9, 5, 1, 1, 1, 36, 27, 2, 0, 0, 2, 4]})
    df.index = ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12']
    df = df.sort_values(by='frecuencia',ascending=False)

    En la variable df quedará contenida la data de entrada en un Dataframe. Inicialmente agregaremos las frecuencias de acuerdo a nuestro ejemplo.

    Posteriormente, por medio de df.index nombraremos las causas de acuerdo al orden de las frecuencias ya asignadas. Preferimos en este caso numerarlas en lugar de colocar el nombre de cada defecto. Por ejemplo:

    Burlete defectuoso = Causa 1 (Frecuencia 9)

    Pintura defectuosa = Causa 2 (Frecuencia 5)

    La siguiente línea de código utiliza el método .sort_values para ordenar las frecuencias contenidas en df de forma descendente. El resultado parcial de df será:

    python_pareto

    Calcular la frecuencia relativa porcentual acumulada

    frecuencia_relativa = df["frecuencia"].cumsum()
    total_defectos = df["frecuencia"].sum()
    df["relativa_acum_porcentual"] = frecuencia_relativa/total_defectos*100
    

    La frecuencia relativa se calcula con la función .cumsumPor eso seleccionamos dentro del DataFrame df la columna frecuencia. El número total de defectos se calcula con la función .sum sobre la columna frecuencia.

    Para calcular la frecuencia relativa porcentual, dividimos la columna frecuencia relativa entre el total de defectos y se multiplica por 100. Tal como se puede observar en la última línea del código. El resultado parcial de df será:

     

    Graficar el diagrama de Pareto

    El último paso corresponde a graficar:

    fig, ax = plt.subplots()
    ax.bar(df.index, df["frecuencia"], color="C0")
    ax2 = ax.twinx()
    ax2.plot(df.index, df["cumpercentage"], color="C1", marker="o", ms=5)
    
    
    plt.show() 

    El resultado será:

    Pareto_Python


    ¿Cómo ejecutar el modelo?

    Alternativa 1, ejecución en nuestro equipo:

    Lo primero que debemos considerar, en el caso de que queramos ejecutar este código en nuestro equipo, es que es preciso contar con la instalación de Python.

    Ahora, lo recomendable es trabajar con algún editor de código práctico (IDE), por ejemplo: Sublime Text, o Spyder (Una herramienta más completa y por ende más robusta y pesada).

    Alternativa 2, ejecución en un entorno virtual (Recomendado):

    Podemos utilizar del mismo modo, un entorno virtual. En este caso recomendamos el uso de Colaboratory de Google, un entorno que cuenta con todas las herramientas necesarias para nuestros desarrollos. No tendremos que instalar nada en nuestro equipo, y aprovecharemos la potencia de las máquinas de Google.

    Puedes ver y ejecutar el cuaderno de este módulo en nuestro Colaboratory: Diagrama de Pareto en Python.

    Código completo:

    import pandas as pd
    import matplotlib.pyplot as plt
    
    df = pd.DataFrame({'frecuencia': [9, 5, 1, 1, 1, 36, 27, 2, 0, 0, 2, 4]})
    df.index = ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12']
    df = df.sort_values(by='frecuencia',ascending=False)
    frecuencia_relativa = df["frecuencia"].cumsum()
    total_defectos = df["frecuencia"].sum()
    df["cumpercentage"] = frecuencia_relativa/total_defectos*100
    
    
    fig, ax = plt.subplots()
    ax.bar(df.index, df["frecuencia"], color="C0")
    ax2 = ax.twinx()
    ax2.plot(df.index, df["cumpercentage"], color="C1", marker="o", ms=5)
    
    
    plt.show()

     

    Bryan Salazar López

    Ingeniero Industrial y Magíster en Logística Integral especializado en productividad y modelamiento de procesos bajo dimensiones de sostenibilidad, industria 4.0, transformación digital y modelos de optimización. Docente universitario de pregrado y posgrado con experiencia en la enseñanza de estos temas. Fundador de Ingenieriaindustrialonline.com, un sitio en donde se recogen las aportaciones de investigaciones, artículos y referencias relevantes para la industria.

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

    Botón volver arriba