ML Engineering: GPU, LLM serving, компрессия, distributed training

О курсе

Курс охватывает системную инженерию, необходимую для обучения и деплоя моделей промышленного масштаба. Изучается архитектура GPU, оптимизация CUDA-ядер, техники распределённого обучения (data/model/pipeline parallelism), сжатие моделей и системы высокопроизводительного инференса LLM. Курс напрямую обеспечивает успех команды в Практике 3 и является входным для research-тематик по эффективным архитектурам.

Чему научитесь

✓Профилировать CUDA-ядра и устранять bottleneck в GPU-вычислениях

✓Реализовывать распределённое обучение с FSDP или tensor parallelism для модели >1B параметров

✓Применять квантизацию PTQ и измерять деградацию качества на задаче

✓Настраивать LLM serving систему с continuous batching и KV-cache для достижения целевой latency

Ключевые темы

•Архитектура GPU: SIMT, warp, shared memory, memory coalescing

•CUDA programming: kernels, streams, профилирование (Nsight)

•Смешанная точность (mixed precision): FP16, BF16, FP8, loss scaling

•Distributed training: DDP, FSDP, tensor/pipeline parallelism

•Оптимизация трансформеров: FlashAttention, KV-cache, continuous batching

•Квантизация: post-training (PTQ), quantization-aware training (QAT)

•Pruning: structured/unstructured, magnitude и gradient-based

•Knowledge distillation: response-based, feature-based

•LLM serving: vLLM, TensorRT-LLM, speculative decoding

Описание сгенерировано автоматически и ещё не проверено преподавателем — это черновик для обсуждения.

О курсе

Чему научитесь

Ключевые темы

Обратная связь