Multimodal: Computer Vision или Audio/Speech на выбор

О курсе

Курс углубляет специализацию в одном из мультимодальных направлений: Computer Vision (детекция, сегментация, vision-language модели) или Audio/Speech (ASR, TTS, speaker diarization, мультимодальные аудио-модели). Изучаются как архитектурные решения, специфичные для модальности, так и общие подходы multimodal fusion. Курс готовит к исследовательскому треку (s3-ai-research) и прикладным проектам (s3-applied-ai).

Чему научитесь

✓Строить и дообучать специализированную мультимодальную архитектуру на реальном датасете

✓Применять self-supervised pretraining для снижения потребности в разметке

✓Реализовывать fusion-механизм для объединения модальностей в единую систему

✓Оценивать качество с применением модально-специфичных метрик (mAP, WER, FID и др.)

Ключевые темы

•Специфика обработки изображений/аудио: пространственные и временные структуры

•Backbone-архитектуры: ResNet, ViT, EfficientNet (CV) / wav2vec, Whisper (Audio)

•Детекция объектов (YOLO, DETR) или ASR end-to-end системы

•Сегментация (Mask R-CNN, SAM) или TTS (FastSpeech, VITS)

•Vision-Language модели: CLIP, BLIP, LLaVA / Audio-Language: AudioLM, AudioPaLM

•Multimodal fusion: early, late, cross-attention

•Self-supervised обучение в конкретной модальности

•Аугментации и domain adaptation для CV/Audio

•Бенчмарки и оценочные метрики модальности

Описание сгенерировано автоматически и ещё не проверено преподавателем — это черновик для обсуждения.

О курсе

Чему научитесь

Ключевые темы

Обратная связь