Высокопроизводительные ML-системы: GPU, распределённое обучение, сжатие и LLM serving
Курс охватывает системную инженерию, необходимую для обучения и деплоя моделей промышленного масштаба. Изучается архитектура GPU, оптимизация CUDA-ядер, техники распределённого обучения (data/model/pipeline parallelism), сжатие моделей и системы высокопроизводительного инференса LLM. Курс напрямую обеспечивает успех команды в Практике 3 и является входным для research-тематик по эффективным архитектурам.