Мультимодальный AI: компьютерное зрение или обработка аудио/речи на выбор студента
Курс углубляет специализацию в одном из мультимодальных направлений: Computer Vision (детекция, сегментация, vision-language модели) или Audio/Speech (ASR, TTS, speaker diarization, мультимодальные аудио-модели). Изучаются как архитектурные решения, специфичные для модальности, так и общие подходы multimodal fusion. Курс готовит к исследовательскому треку (s3-ai-research) и прикладным проектам (s3-applied-ai).