Разработка LLM с нуля

Этот практический курс погрузит студентов в создание современных языковых моделей (LLM) на примере GPT-архитектуры. Участники с нуля реализуют все основные компоненты Трансформера: от токенизации (BPE) до механизмов Внимания и генерации текста. Для разработки будем использовать только Python и низкоуровневый PyTorch,…
Средний уровень
Сертификат Stepik

Чему вы научитесь

  • Научитесь читать схемы архитектур основанных на Трансформерах.
  • Изучите принципы проектирования современных LLM.
  • Понимать алгоритм токенизации текста.
  • Реализовывать ключевые компоненты GPT.
  • Управлять креативностью модели.
  • Собирать и подготавливать данные для обучения.
  • Настраивать Pre-train цикл обучения LLM.

О курсе

Один из самых эффективных способов разобраться как работает тот или иной алгоритм — реализовать его самому. Этим мы и займемся в данном курсе. А реализовывать будем модель GPT-1 и все ее компоненты:

  • Токенизатор (BPE)
  • Эмбеддинги (Токенов и Позиционные)
  • Блок Декодера:
    • Multi-Head Attention
    • FeedForward-слои
    • Остаточные связи
  • Вероятностная генерация

После чего соберем эти компоненты в единую LLM и настроим процесс обучения (Pre-train).

И все это будет реализовано на чистом Python и низкоуровневых методах библиотеки PyTorch (nn.linear, nn.dropout и пр.).

-------

Но это еще не все. В будущем будут добавлены новые модули:

  • Другие модели: GPT-2, Llama, Gemma, Qwen, Mistral и пр.
  • Другие архитектуры: Mixture of Experts.
  • Улучшенные версии механизма Внимания: Flash Attention, Flash Attention 2,  Sparse Attention.
  • Эффективные механизмы: KV-cache.

Для кого этот курс

Курс предназначен для разработчиков, инженеров машинного обучения и исследователей, желающих глубоко разобраться в архитектуре современных языковых моделей (LLM).

Начальные требования

  • Базовые знания Python, минимальный ООП (классы, функции).
  • Понимание основ машинного обучения (train/test, таргет, фичи, градиент, функции потерь, метрики и т.д.).
  • Базовые знания по PyTorch: линейные слои, активации, нормализация, дропаут, обратное распространение ошибки.
  • Желателен опыт реализации простой полносвязнной сети для задачи много-классовой классификации.

Наши преподаватели

Как проходит обучение

Курс состоит из текстовых лекций и практических заданий на написание кода. В каждом задании вам необходимо будет написать класс, который реализует один из компонентов LLM. Мы автоматически создадим экземпляр этого класса и выполним все необходимые проверки. Каждое задания сопровождаются необходимой теорией.

Программа курса

загружаем...
Certificate

Сертификат

Сертификат Stepik

Сколько стоит обучение

Price: 4 900 
Вы попробовали и поняли, что вам сейчас не подходит этот курс? Ничего страшного, мы вернём вам деньги в течение 30-ти дней после покупки.

Часто задаваемые вопросы

Расскажите о курсе друзьям

Price: 4 900