Arcadia AI — магистратура
Программа  /  Семестр 4 — Thesis & Production
Курс

AI Safety, Reliability и Security

Надёжность, безопасность и выравнивание AI-систем как инженерная дисциплина

Преподаватель уточняется

О курсе

Курс рассматривает AI Safety как инженерную и исследовательскую задачу: от технических аспектов adversarial robustness и jailbreak-атак до системных вопросов alignment и governance. Изучаются как оборонительные техники (red teaming, constitutional AI, interpretability), так и регуляторные рамки (EU AI Act, NIST AI RMF). Курс готовит к ответственному деплою AI-систем и актуален для любого трека карьеры.

Чему научитесь

Проводить red team assessment LLM-системы и документировать найденные уязвимости
Применять дифференциальную приватность к ML-пайплайну с количественными гарантиями
Оценивать AI-систему на соответствие требованиям EU AI Act и NIST AI RMF
Реализовывать базовую защиту от adversarial attacks (adversarial training или certified defense)

Ключевые темы

Adversarial examples: атаки (FGSM, PGD, AutoAttack) и защиты (adversarial training, certified defenses)
Prompt injection, jailbreaking LLM: механизмы и митигация
Alignment: RLHF, Constitutional AI, scalable oversight
Interpretability и mechanistic interpretability: circuits, features
Red teaming AI-систем: методология и инструменты
Privacy в ML: дифференциальная приватность (DP), federated learning, membership inference
Регуляторные рамки: EU AI Act, NIST AI RMF, ISO/IEC 42001
Supply chain attacks на ML: data poisoning, model poisoning
AI governance и model cards, system cards
Описание сгенерировано автоматически и ещё не проверено преподавателем — это черновик для обсуждения.