Arcadia AI — магистратура
Программа  /  Семестр 3 — Specialization & Research
Курс

ML Engineering: GPU, LLM serving, компрессия, distributed training

Высокопроизводительные ML-системы: GPU, распределённое обучение, сжатие и LLM serving

Преподаватель уточняется

О курсе

Курс охватывает системную инженерию, необходимую для обучения и деплоя моделей промышленного масштаба. Изучается архитектура GPU, оптимизация CUDA-ядер, техники распределённого обучения (data/model/pipeline parallelism), сжатие моделей и системы высокопроизводительного инференса LLM. Курс напрямую обеспечивает успех команды в Практике 3 и является входным для research-тематик по эффективным архитектурам.

Чему научитесь

Профилировать CUDA-ядра и устранять bottleneck в GPU-вычислениях
Реализовывать распределённое обучение с FSDP или tensor parallelism для модели >1B параметров
Применять квантизацию PTQ и измерять деградацию качества на задаче
Настраивать LLM serving систему с continuous batching и KV-cache для достижения целевой latency

Ключевые темы

Архитектура GPU: SIMT, warp, shared memory, memory coalescing
CUDA programming: kernels, streams, профилирование (Nsight)
Смешанная точность (mixed precision): FP16, BF16, FP8, loss scaling
Distributed training: DDP, FSDP, tensor/pipeline parallelism
Оптимизация трансформеров: FlashAttention, KV-cache, continuous batching
Квантизация: post-training (PTQ), quantization-aware training (QAT)
Pruning: structured/unstructured, magnitude и gradient-based
Knowledge distillation: response-based, feature-based
LLM serving: vLLM, TensorRT-LLM, speculative decoding
Описание сгенерировано автоматически и ещё не проверено преподавателем — это черновик для обсуждения.