Привет, друзья!
В течение многих лет "компьютерное зрение" означало сверточные нейронные сети (CNN). Если вы хотели обнаружить кошку, вы использовали CNN. Если вы хотели распознать лицо, вы использовали CNN. Но в 2020 году игра изменилась. В статье под названием "Изображение стоит 16x16 слов" был представлен Vision Transformer. Вместо того, чтобы смотреть на пиксели через небольшие скользящие окна — свертка — ViT рассматривает изображение как последовательность текстовых патчей. Он видит "всю картину" сразу и часто с лучшей точностью.
dzone.com
Real-Time Computer Vision on macOS: Accelerating Vision Transformers
t.me
AI и ML Дайджест в Телеграмм канале @ai_ml_news_ru
