Visión Computarizada

Aplicación de IA

La Inteligencia Artificial es una rama de la informática y la tecnología que se enfoca en crear sistemas que puedan realizar tareas que normalmente requieren inteligencia humana, como el reconocimiento de patrones, la toma de decisiones y la resolución de problemas. En otras palabras, la Inteligencia Artificial es la capacidad de una máquina para «pensar» y aprender como lo hace un ser humano, aunque usando algoritmos y reglas programadas en vez de la complejidad del cerebro humano.

Si lo vemos desde el punto de vista de replicar acciones humanas, una calculadora sería potencialmente una forma de Inteligencia Artificial; si lo vemos desde la perspectiva del aprendizaje desde las formas humanas: a través del entrenamiento, esta definición agruparía modelos y sistemas mucho más complejos.

En la siguiente gráfica podemos ver el crecimiento en el desempeño de reconocimiento de distintos datos de entrada no estructurados, y cómo los mejores modelos comienzan a superar el desempeño de los humanos en el reconocimiento de patrones naturales, como por ejemplo, las imágenes.

El anterior es un repaso conceptual de la categoría tecnológica a la cual pertenece la tendencia tecnológica que analizaremos a continuación: Visión computarizada (reconocimiento de imágenes mediante IA).

¿Qué es la visión computarizada (reconocimiento de imágenes)?

La tendencia de Visión Computarizada utiliza dispositivos de entrada de imágenes, como cámaras para capturar fotos o videos y aplica algoritmos de inteligencia artificial (IA) para analizar los datos extraídos de estas imágenes digitales. Los sistemas más básicos de IA visual están entrenados para diferenciar objetos entre sí, mientras que las versiones más avanzadas pueden rastrear objetos a través de puntos de vista, asociar imágenes con otros contextos en distintos formatos y aprender por sí mismos.

Un ejemplo de reconocimiento de imágenes mediante Visión Computarizada e integración con un modelo de análisis optimizado para el diálogo (GPT-4):

Input: Qué puedo preparar con estos ingredietntes? |

Output |

¡Hay muchas opciones para lo que puedes hacer con estos ingredientes! Algunas posibilidades incluyen:

– Panqueques o gofres
– Crepes
– Tostada francesa
– Tortilla o frittata
– Quiche
– Natillas o budín
– Torta o cupcakes
– Muffins o pan- Galletas o bizcochos

Estos son solo algunos ejemplos, ¡pero las posibilidades son infinitas!

Como se puede apreciar, se trata de tareas de reconocimiento, clasificación y análisis, para dar como resultado una respuesta a una instrucción de texto específica que trasciende el reconocimiento, ya que requiere de asociación con el contexto de la solicitud. Además, se aprecia cierto nivel de empatía en la respuesta (en este caso específico).

La Visión Computarizada se ha desarrollado junto con el avance del aprendizaje automático profundo, aprovechando la calidad creciente y la disminución del costo de los dispositivos que captan imágenes, y la capacidad creciente y los costos de modelos de lenguaje robustos. En 2020, el mercado de visión artificial a nivel mundial valía 9400 millones de dólares y, a medida que la IA, los sistemas de visión y el procesamiento informático mejoran continuamente, se anticipa que este mercado se cuadriplicará con creces hasta los 41400 millones de dólares estadounidenses en 2030.

Vivimos tiempos disruptivos, el avance desde los primeros modelos de reconocimiento de imágenes hasta los modelos más avanzados es asombroso. La integración con modelos de lenguaje natural no es una visión a futuro, desde el lanzamiento de GPT-4 en marzo de 2023, es una realidad. Las posibilidades de aplicación aun se están explorando por estos días. De acuerdo a la infografía de capacidades de reconocimiento, los modelos actuales pueden realizar una clasificación con un desempeño superior al de los seres humanos; probemos:

Clic en una de las imágenes de ejemplo, carguen la imagen en el modelo, luego clic en «Caption It!»

¿Qué tal les pareció? Si aprecian bien, podemos dar instrucciones específicas al modelo anterior, de manera que no solo le pedimos un reconocimiento de la imagen, sino también inferencias e información de acuerdo a una instrucción de texto expresada en lenguaje natural.

Aplicaciones en Logística: ¿Puede la Visión Computarizada remover restricciones logísticas?

Inventarios, procesamiento de órdenes y envíos

Muchas tareas que se desarrollan desde el CEDI hasta las góndolas en puntos minoristas involucran a humanos para evaluar o confirmar visualmente los elementos de un producto, caja o estiba a medida que pasa por las instalaciones. Muchas de esas tareas de reconocimiento y clasificación visual se pueden delegar gradualmente a sistemas de IA habilitados para visión por computadora. Y no hablamos del tradicional OCR (Reconocimiento Óptico de Caracteres), hablamos de sistemas robustos que tengan la capacidad de reconocer imágenes en diversos formatos y analizarlas en distintos contextos, en interacción con instrucciones no estructuradas (por ejemplo, lenguaje natural).

Un caso de uso práctico que proponen los especialistas de DHL es dimensionar un envío o medir su área o volumen (también determinar el tamaño de la flota). Esto puede ser difícil cuando los envíos son grandes o tienen formas extrañas, o se encuentran en cintas transportadoras que se mueven rápidamente. Empresas como Metrilus, con sede en Alemania, han desarrollado recientemente soluciones de bajo costo que automatizan este proceso de dimensionamiento, capturando medidas en milisegundos y enviando estos datos al sistema de gestión de almacenes (algoritmos de optimización). La medición precisa y la detección de volumen permiten seleccionar el empaque que mejor se ajuste para evitar el envío aéreo, lo que reduce el desperdicio y mantiene la sostenibilidad a la vanguardia de la logística.

Otro caso de uso es la identificación de objetos para recoger y empacar. Actualmente, la mayoría de los pedidos se recogen a mano, y aquellos que utilizan visión por computadora en soluciones robóticas tienden a identificar un producto por su código de barras o código QR. Pero los avances en la visión artificial han permitido que los robots identifiquen decenas de miles de productos con gran precisión, independientemente de la presencia de códigos de identificación.

Con este nivel de IA visual, los proveedores de logística pueden optimizar los procesos, reduciendo los costos, apoyando la gestión del flujo y aumentando el rendimiento del sistema.

También podemos mencionar las aplicaciones de esta tecnología en góndola, desde las prestaciones para disminuir agotados, hasta el soporte de accesibilidad para usuarios con limitaciones físicas. Imáginese la integración de la visión computarizada con un sistema de reabastecimiento automatizado, que active no solo la solicitud de pedido hacia el proveedor, sino la solicitud de reabastecimiento interno de la góndola.

La Visión Computarizada puede procesar la detección de uno o varios objetos y clasificar una serie de elementos a partir de una sola imagen

Probemos con la siguiente imagen procesada por un modelo sencillo.

Descarguen la imagen y utilicenla en el siguiente modelo: Descargar imagen

Caso de estudio

Desafíos de esta tecnología

Los empleados pueden resistirse a las soluciones de visión por computadora, bajo la idea de estar siendo constantemente vigilados ya que pueden considerar que sus datos personales están en riesgo.
De acuerdo a especialistas de DHL: Mientras que aproximadamente el 90% de las cámaras de protocolo de Internet (IP) pueden ser fácilmente integradas y configuradas en nuevas plataformas de software, la tecnología de cámaras más antiguas debe ser actualizada para escalar soluciones de visión por computadora.
A menos que se consideren y fortalezcan las medidas de ciberseguridad, existe un riesgo de hackeo y manipulación malintencionada de datos, lo que resulta en análisis sesgados y un rendimiento de IA alterado.
El cumplimi ento del Reglamento General de Protección de Datos y otras leyes de privacidad y protección de datos, debe ser considerado y puede limitar la escalabilidad de una solución de visión por computadora en diferentes regiones.

Perspectivas 2023

La tendencia de la Visión Computarizada tiene campos de aplicación en prácticamente todos los procesos logísticos y a lo largo de una cadena de suministro. La tecnología puede ser de gran ayuda para la gestión del flujo y por ende en las organizaciones logísticas en la optimización de operaciones, el control de los activos, la mejora de la salud y seguridad de los trabajadores, y la reducción de costos. La integración con modelos de lenguaje robustos serán el paso siguiente a nivel logístico.

A medida que los proyectos piloto de hoy superen sus pruebas, se prevé una implementación rápida en los próximos años, ya que se trata de una tecnología de alto impacto en la logística.

*Recomiendo revisar el concepto de: Cadena de Suministros Digital.

Recuerde:

«Una nueva tecnología traerá beneficios para la empresa, si y solo si, tiene la capacidad potencial de remover restricciones activas del sistema» Eliyahu Goldratt

De manera que en el ejercicio de desarrollo de la Ruta Tecnológica, considere cuáles son las restricciones del sistema logístico (convencionales y transaccionales); cuáles son las reglas de operación actuales que están condicionadas por las restricciones; cómo la Visión Computarizada puede remover las restricciones del sistema; cuáles serían las nuevas reglas de operación con esta nueva tecnología y cómo se puede mejorar.

Bryan Salazar López

Ingeniero Industrial y Magíster en Logística Integral especializado en productividad y modelamiento de procesos bajo dimensiones de sostenibilidad, industria 4.0, transformación digital y modelos de optimización. Docente universitario de pregrado y posgrado con experiencia en la enseñanza de estos temas. Fundador de Ingenieriaindustrialonline.com, un sitio en donde se recogen las aportaciones de investigaciones, artículos y referencias relevantes para la industria.

Publicado por

Bryan Salazar López

Etiquetas: Inteligencia artificialInteligencia Artificial InteractivaInternet de las CosasIoTLogística 4.0OCRVisión Computarizada

Inteligencia Artificial Interactiva

En el Tiempo que me Queda: Una Perspectiva Ejecutiva sobre el Flujo, el Tiempo y el Retorno de Inversión

Propuesta: Ponga en Spotify la compañía de "Time" o "Money" de Pink Floyd. ¿Por qué hacemos…

hace % días

Teoría de restricciones (TOC)

Armonía organizacional: El resultado de una estrategia y ejecución saludables

En esta tercera y última entrega de la serie, cerramos el ciclo de reflexión sobre…