Arcadia AI — магистратура
Программа  /  Семестр 3 — Specialization & Research
Курс

Multimodal: Computer Vision или Audio/Speech на выбор

Мультимодальный AI: компьютерное зрение или обработка аудио/речи на выбор студента

Преподаватель уточняется

О курсе

Курс углубляет специализацию в одном из мультимодальных направлений: Computer Vision (детекция, сегментация, vision-language модели) или Audio/Speech (ASR, TTS, speaker diarization, мультимодальные аудио-модели). Изучаются как архитектурные решения, специфичные для модальности, так и общие подходы multimodal fusion. Курс готовит к исследовательскому треку (s3-ai-research) и прикладным проектам (s3-applied-ai).

Чему научитесь

Строить и дообучать специализированную мультимодальную архитектуру на реальном датасете
Применять self-supervised pretraining для снижения потребности в разметке
Реализовывать fusion-механизм для объединения модальностей в единую систему
Оценивать качество с применением модально-специфичных метрик (mAP, WER, FID и др.)

Ключевые темы

Специфика обработки изображений/аудио: пространственные и временные структуры
Backbone-архитектуры: ResNet, ViT, EfficientNet (CV) / wav2vec, Whisper (Audio)
Детекция объектов (YOLO, DETR) или ASR end-to-end системы
Сегментация (Mask R-CNN, SAM) или TTS (FastSpeech, VITS)
Vision-Language модели: CLIP, BLIP, LLaVA / Audio-Language: AudioLM, AudioPaLM
Multimodal fusion: early, late, cross-attention
Self-supervised обучение в конкретной модальности
Аугментации и domain adaptation для CV/Audio
Бенчмарки и оценочные метрики модальности
Описание сгенерировано автоматически и ещё не проверено преподавателем — это черновик для обсуждения.