О курсе
Этот курс посвящен изучению фундаментальных моделей в CV и NLP.
Курс состоит из трех частей. В первой части вы познакомитесь с архитектурой Vision Transformer и разными ее вариациями. Узнаете, как использовать различные self-supervised подходы для обучения моделей, разберёте модели CLIP и DINO.
Второй блок будет посвящен работе с Vision Language Models (&)
В третьем блоке вы узнаете про основные подходы в генерации изображений и текста, познакомитесь с диффузионными моделями и flow-matching подходами для генерации. Также разберётесь с диффузионными моделями в непрерывном пространстве, сформулируете и выведете уравнения непрерывности и Фоккера-Планка, которые описывают, как меняется плотность распределения ОДУ/СДУ с течением времени.
Вы также познакомитесь с тем, как развивались фундаментальные модели, и что сейчас является SOTA в генерации картинок.
Ссылки:
Форма регистрации на курс. Необходимо заполнить для получения диплома.
*Deep Learning School – учебная организация на базе Физтех-школы прикладной математики и информатики Московского физико-технического института.