О курсе
Этот курс посвящен современным методам обработки звука и речи (Speech Processing) с использованием машинного обучения.
Студенты познакомятся с основными способами представления аудиосигналов (wav, spectrograms, continuous embeddings, discrete tokens) , фундаментальными задачами обработки речи, такими как автоматическое распознавание речи (ASR) и синтез речи (TTS), а также получат обзор других ключевых направлений. Также курс включает в себя знакомство с задачей построения моделей для малоресурсных и не английских языков, и в эру больших языковых моделей, часть курса будет посвящена Speech LLM и мультимодальным LLM, включающим речь. Завершающие недели будут посвящены задачам в аудиодомене.
Выполняя практические задания, вы будете создавать и обучать свои модели машинного обучения и нейронных сетей, а также дообучать существующие модели. В финале вы разработаете итоговый проект, который закрепит полученные знания. По окончании курса вы получите сертификат.
Форма регистрации на курс. Необходимо заполнить для получения диплома.
*Deep Learning School – учебная организация на базе Физтех-школы прикладной математики и информатики Московского физико-технического института.
Для кого этот курс
Начальные требования
- Владеть фреймворком Pytorch для обучения нейросетей
- Свободно понимать концепции Generative Models, NLP
Наши преподаватели
Как проходит обучение
Вас ждут видеолекции и видеосеминары, а также множество практических домашних заданий. Если у вас появятся вопросы, вы всегда можете задать их в чате курса в Telegram.