Оптимизация для ML: SGD, Adam, регуляризация, расписания

О курсе

Курс посвящён методам оптимизации, лежащим в основе обучения нейросетей. Изучаются теоретические гарантии сходимости, геометрия loss landscape и практические приёмы стабилизации обучения. Понимание оптимизации критично для курсов по LLM, ML Engineering и написания оригинальных исследовательских работ.

Чему научитесь

✓Выводить условия сходимости SGD и Adam для выпуклых и невыпуклых задач

✓Выбирать и настраивать расписание обучения на основе свойств конкретной задачи

✓Диагностировать проблемы оптимизации (взрыв/затухание градиентов, застревание) и применять корректирующие техники

✓Реализовывать гиперпараметрный поиск с применением Bayesian optimization

Ключевые темы

•Выпуклая оптимизация: свойства, теоремы сходимости

•SGD, Momentum, Nesterov; теория mini-batch

•Адаптивные методы: AdaGrad, RMSProp, Adam, AdamW

•Расписания скорости обучения: cosine annealing, warmup, cyclical LR

•Landscape нейросетей: седловые точки, плато, sharp/flat minima

•Градиентный клиппинг и нормализация градиентов

•Регуляризация через оптимизатор: weight decay, SWA, SAM

•Оптимизация при ограничениях и проксимальные методы

•Гиперпараметрный поиск: Bayesian optimization, Population-Based Training

Описание сгенерировано автоматически и ещё не проверено преподавателем — это черновик для обсуждения.

О курсе

Чему научитесь

Ключевые темы

Обратная связь