Fecha de publicacion

La Inteligencia Artificial 馃 solo necesitaba atenci贸n 馃憖

Autor

Introducci贸n

Las redes neuronales recurrentes (RNN) fueron por mucho tiempo la red mas usada en el modelado de secuencias y problemas de transducci贸n. Mientras mas esfuerzos se realizaban para empujar los l铆mites de estos modelos, mas evidentes se volv铆an los problemas que implicaban su uso. Fue entonces cuando la propuesta de una nueva arquitectura, los Transformers trajeron consigo cambios significativos que expandieron los limites de la Inteligencia Artificial.

Redes Neuronales Recurrentes

Los modelos recurrentes toman en cuenta el c谩lculo a lo largo de las posiciones de los s铆mbolos de la entrada y la salida. Es decir, el valor de cada s铆mbolo ingresado afecta al siguiente y as铆 sucesivamente.

La naturaleza de este tipo de estructura impide la paralelizaci贸n de su entrenamiento, lo que se vuelve cr铆tico en longitudes de secuencia m谩s largas, ya que las restricciones de memoria limitan el procesamiento.

Mecanismos de Atenci贸n

Ante los problemas de las RNN, se propusieron diversas alternativas de soluci贸n, entre las cuales se encontraban novedosas arquitecturas y el uso de ciertas funciones de activaci贸n. Sin embargo, dichas soluciones solo reduc铆an los problemas pero no lograban dar una soluci贸n completamente satisfactoria.

Los mecanismos de atenci贸n son operaciones matem谩ticas que reciben como entrada un conjunto de vectores y les agregan un valor que cuantifica la relaci贸n que existe entre cada uno de ellos. Su surgimiento significo un gran cambio para el modelado de secuencias, hasta el punto de terminar haciendo prescindible el uso de RNN's en el modelado de secuencias.

El Transformer

Propuesto en 2017 en el ic贸nico documento Atenttion is all you need, el Transformer(Vaswani et al., 2017) es una arquitectura de red simple basada 煤nicamente en mecanismos de atenci贸n, prescindiendo por completo de la recurrencia y las circunvoluciones.

La principal ventaja de esta nueva arquitectura es que la informaci贸n no ingresa un s铆mbolo a la vez como en las RNN, si no que ingresan varios al mismo tiempo. Su forma de ingresar los datos permite una gran capacidad de paralelizar su entrenamiento.

Esta arquitectura termino por volverse el nuevo est谩ndar para aplicaciones de modelado de secuencias, poco a poco incorpor谩ndose en otros campos, por ejemplo en la visi贸n con los Vision Transformer (Dosovitskiy et al., 2020) y Swin Transformer (Liu et al., 2021).

En a帽os recientes, han surgido grandes modelos de Inteligencia Artificial que aprovechan las ventajas de esta arquitectura con sorprendentes aplicaciones, tales como GPT3 que convierte frases en art铆culos completos, Dalle-2 que crea im谩genes al recibir solo una breve descripci贸n o el nuevo Autopilot de Tesla.

Conclusi贸n

A solo 5 a帽os de su primera aparici贸n, las variaciones del Transformer ya dominan en diferentes campos de la Inteligencia Artificial por las ventajas que ofrece. Lo mas interesante de esto, es que una sola arquitectura base esta siendo estudiada por m煤ltiples equipos de investigaci贸n en diversos campos de aplicaci贸n.

Referencias

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv. https://doi.org/10.48550/ARXIV.2010.11929
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. arXiv. https://doi.org/10.48550/ARXIV.2103.14030
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need. arXiv. https://doi.org/10.48550/ARXIV.1706.03762