Si lo vemos desde el punto de vista de replicar acciones humanas, una calculadora sería potencialmente una forma de Inteligencia Artificial; si lo vemos desde la perspectiva del aprendizaje desde las formas humanas: a través del entrenamiento, esta definición agruparía modelos y sistemas mucho más complejos.
En la siguiente gráfica podemos ver el crecimiento en el desempeño de reconocimiento de distintos datos de entrada no estructurados, y cómo los mejores modelos comienzan a superar el desempeño de los humanos en el reconocimiento de patrones naturales, como por ejemplo, las imágenes.
El anterior es un repaso conceptual de la categoría tecnológica a la cual pertenece la tendencia tecnológica que analizaremos a continuación: Visión computarizada (reconocimiento de imágenes mediante IA).
La tendencia de Visión Computarizada utiliza dispositivos de entrada de imágenes, como cámaras para capturar fotos o videos y aplica algoritmos de inteligencia artificial (IA) para analizar los datos extraídos de estas imágenes digitales. Los sistemas más básicos de IA visual están entrenados para diferenciar objetos entre sí, mientras que las versiones más avanzadas pueden rastrear objetos a través de puntos de vista, asociar imágenes con otros contextos en distintos formatos y aprender por sí mismos.
Un ejemplo de reconocimiento de imágenes mediante Visión Computarizada e integración con un modelo de análisis optimizado para el diálogo (GPT-4):
¡Hay muchas opciones para lo que puedes hacer con estos ingredientes! Algunas posibilidades incluyen:
– Panqueques o gofres
– Crepes
– Tostada francesa
– Tortilla o frittata
– Quiche
– Natillas o budín
– Torta o cupcakes
– Muffins o pan- Galletas o bizcochos
Estos son solo algunos ejemplos, ¡pero las posibilidades son infinitas!
Como se puede apreciar, se trata de tareas de reconocimiento, clasificación y análisis, para dar como resultado una respuesta a una instrucción de texto específica que trasciende el reconocimiento, ya que requiere de asociación con el contexto de la solicitud. Además, se aprecia cierto nivel de empatía en la respuesta (en este caso específico).
La Visión Computarizada se ha desarrollado junto con el avance del aprendizaje automático profundo, aprovechando la calidad creciente y la disminución del costo de los dispositivos que captan imágenes, y la capacidad creciente y los costos de modelos de lenguaje robustos. En 2020, el mercado de visión artificial a nivel mundial valía 9400 millones de dólares y, a medida que la IA, los sistemas de visión y el procesamiento informático mejoran continuamente, se anticipa que este mercado se cuadriplicará con creces hasta los 41400 millones de dólares estadounidenses en 2030.
Vivimos tiempos disruptivos, el avance desde los primeros modelos de reconocimiento de imágenes hasta los modelos más avanzados es asombroso. La integración con modelos de lenguaje natural no es una visión a futuro, desde el lanzamiento de GPT-4 en marzo de 2023, es una realidad. Las posibilidades de aplicación aun se están explorando por estos días. De acuerdo a la infografía de capacidades de reconocimiento, los modelos actuales pueden realizar una clasificación con un desempeño superior al de los seres humanos; probemos:
Clic en una de las imágenes de ejemplo, carguen la imagen en el modelo, luego clic en «Caption It!»
¿Qué tal les pareció? Si aprecian bien, podemos dar instrucciones específicas al modelo anterior, de manera que no solo le pedimos un reconocimiento de la imagen, sino también inferencias e información de acuerdo a una instrucción de texto expresada en lenguaje natural.
Muchas tareas que se desarrollan desde el CEDI hasta las góndolas en puntos minoristas involucran a humanos para evaluar o confirmar visualmente los elementos de un producto, caja o estiba a medida que pasa por las instalaciones. Muchas de esas tareas de reconocimiento y clasificación visual se pueden delegar gradualmente a sistemas de IA habilitados para visión por computadora. Y no hablamos del tradicional OCR (Reconocimiento Óptico de Caracteres), hablamos de sistemas robustos que tengan la capacidad de reconocer imágenes en diversos formatos y analizarlas en distintos contextos, en interacción con instrucciones no estructuradas (por ejemplo, lenguaje natural).
Un caso de uso práctico que proponen los especialistas de DHL es dimensionar un envío o medir su área o volumen (también determinar el tamaño de la flota). Esto puede ser difícil cuando los envíos son grandes o tienen formas extrañas, o se encuentran en cintas transportadoras que se mueven rápidamente. Empresas como Metrilus, con sede en Alemania, han desarrollado recientemente soluciones de bajo costo que automatizan este proceso de dimensionamiento, capturando medidas en milisegundos y enviando estos datos al sistema de gestión de almacenes (algoritmos de optimización). La medición precisa y la detección de volumen permiten seleccionar el empaque que mejor se ajuste para evitar el envío aéreo, lo que reduce el desperdicio y mantiene la sostenibilidad a la vanguardia de la logística.
Otro caso de uso es la identificación de objetos para recoger y empacar. Actualmente, la mayoría de los pedidos se recogen a mano, y aquellos que utilizan visión por computadora en soluciones robóticas tienden a identificar un producto por su código de barras o código QR. Pero los avances en la visión artificial han permitido que los robots identifiquen decenas de miles de productos con gran precisión, independientemente de la presencia de códigos de identificación.
Con este nivel de IA visual, los proveedores de logística pueden optimizar los procesos, reduciendo los costos, apoyando la gestión del flujo y aumentando el rendimiento del sistema.
También podemos mencionar las aplicaciones de esta tecnología en góndola, desde las prestaciones para disminuir agotados, hasta el soporte de accesibilidad para usuarios con limitaciones físicas. Imáginese la integración de la visión computarizada con un sistema de reabastecimiento automatizado, que active no solo la solicitud de pedido hacia el proveedor, sino la solicitud de reabastecimiento interno de la góndola.
La Visión Computarizada puede procesar la detección de uno o varios objetos y clasificar una serie de elementos a partir de una sola imagen
Probemos con la siguiente imagen procesada por un modelo sencillo.
Descarguen la imagen y utilicenla en el siguiente modelo: Descargar imagen
La tendencia de la Visión Computarizada tiene campos de aplicación en prácticamente todos los procesos logísticos y a lo largo de una cadena de suministro. La tecnología puede ser de gran ayuda para la gestión del flujo y por ende en las organizaciones logísticas en la optimización de operaciones, el control de los activos, la mejora de la salud y seguridad de los trabajadores, y la reducción de costos. La integración con modelos de lenguaje robustos serán el paso siguiente a nivel logístico.
A medida que los proyectos piloto de hoy superen sus pruebas, se prevé una implementación rápida en los próximos años, ya que se trata de una tecnología de alto impacto en la logística.
*Recomiendo revisar el concepto de: Cadena de Suministros Digital.
Recuerde:
«Una nueva tecnología traerá beneficios para la empresa, si y solo si, tiene la capacidad potencial de remover restricciones activas del sistema» Eliyahu Goldratt
De manera que en el ejercicio de desarrollo de la Ruta Tecnológica, considere cuáles son las restricciones del sistema logístico (convencionales y transaccionales); cuáles son las reglas de operación actuales que están condicionadas por las restricciones; cómo la Visión Computarizada puede remover las restricciones del sistema; cuáles serían las nuevas reglas de operación con esta nueva tecnología y cómo se puede mejorar.
En una pequeña comunidad agrícola en Michoacán, México, un niño llamado José Hernández soñaba con…
Sábado por la mañana, Robert acaba de acompañar a su mujer a su clase de…