AI Safety, Reliability и Security

О курсе

Курс рассматривает AI Safety как инженерную и исследовательскую задачу: от технических аспектов adversarial robustness и jailbreak-атак до системных вопросов alignment и governance. Изучаются как оборонительные техники (red teaming, constitutional AI, interpretability), так и регуляторные рамки (EU AI Act, NIST AI RMF). Курс готовит к ответственному деплою AI-систем и актуален для любого трека карьеры.

Чему научитесь

✓Проводить red team assessment LLM-системы и документировать найденные уязвимости

✓Применять дифференциальную приватность к ML-пайплайну с количественными гарантиями

✓Оценивать AI-систему на соответствие требованиям EU AI Act и NIST AI RMF

✓Реализовывать базовую защиту от adversarial attacks (adversarial training или certified defense)

Ключевые темы

•Adversarial examples: атаки (FGSM, PGD, AutoAttack) и защиты (adversarial training, certified defenses)

•Prompt injection, jailbreaking LLM: механизмы и митигация

•Alignment: RLHF, Constitutional AI, scalable oversight

•Interpretability и mechanistic interpretability: circuits, features

•Red teaming AI-систем: методология и инструменты

•Privacy в ML: дифференциальная приватность (DP), federated learning, membership inference

•Регуляторные рамки: EU AI Act, NIST AI RMF, ISO/IEC 42001

•Supply chain attacks на ML: data poisoning, model poisoning

•AI governance и model cards, system cards

Описание сгенерировано автоматически и ещё не проверено преподавателем — это черновик для обсуждения.

О курсе

Чему научитесь

Ключевые темы

Обратная связь