Алексей Парфун, Agenda Media Group: как создать обучающие видео с помощью нейросетей

Образование постепенно переходит под управление искусственного интеллекта: нейросети становятся не только помощниками, но и полноценными преподавателями. Ещё недавно, чтобы снять обучающее видео, нужно было нанимать профессионального спикера, оплачивать студию, оборудование и команду. Сегодня мы можем воспользоваться технологией искусственного интеллекта. Как именно помогают нейросети, Sostav рассказал генеральный директор Agenda Media Group Алексей Парфун.

ИИ и обучающие видеоСогласно исследованию, проведённому онлайн-платформой «Профи», 69% опрошенных репетиторов считают нормальным использование ИИ в процессе обучения детей. Однако более 85% преподавателей уверены, что роботы не смогут заменить человека в сфере образования. При этом 20% респондентов сами используют нейросети в работе, а более половины респондентов считают, что замена репетитора на нейросеть научит детей обращаться с новыми технологиями.

Существует множество программ, которые позволят быстро и просто создать видео, в котором спикеры — это не реальные люди, а генеративные персонажи внутри виртуальной студии. И озвучивать их будет нейросеть. И даже фактуру для текста собирать специально доученный GPTs от OpenAI. Таким образом, больше не нужно ждать, пока нужный спикер окажется свободен, или переживать из-за возможных ошибок в речи или демонстрации материала.

Использование искусственного интеллекта в данном случае предоставляет ряд преимуществ. Например, ИИ может обрабатывать огромные объёмы информации в рекордно короткие сроки, находить связи и закономерности между различными областями знаний и генерировать контент в соответствии с потребностями и интересами аудитории. Кроме того, нейросети позволяют создавать персонализированный контент для каждого ученика, учитывая его уровень знаний, стиль обучения и визуальные предпочтения. Путём не очень сложных манипуляций мы можем представить ситуацию, где после ответа на несколько вопросов в простом боте вы получите не просто лекцию по истории Рима, но лекцию, кастомизированную под ваши предпочтения, ранее полученные знания и цели, которые вы преследуете.

Однако несмотря на все преимущества, этот формат имеет и очевидные недостатки. Алгоритмы вряд ли смогу передать человеческую эмоциональность и харизму, которой обладает хороший спикер. Возникает вопрос о контроле и модерации контента, созданного искусственным интеллектом. Но это легко решить с помощью обслуживания человеческим ресурсом, который так или иначе необходим для контроля процесса.

Обучающие порталы и сервисы активно внедряют технологии в свои видеоматериалы. Один из ярких примеров — портал Coursera, который предлагает онлайн-курсы от ведущих университетов мира. На платформе используются видеолекции, созданные с помощью ИИ, что позволяет обучающимся получить доступ к экспертному содержанию в любое время и с любого устройства.

Так же известен проект Sway, разработанный японской компанией Vinclu Inc. Sway представляет собой виртуального тьютора, которая может выступать в обучающих видео или даже в прямых трансляциях. Ещё один яркий пример — проект Neon от Samsung STAR Labs, который создаёт виртуальных ассистентов с помощью технологий генеративного нейросетевого моделирования. Эти виртуальные спикеры могут быть использованы для обучающих видео, презентаций и других форм образовательного контента.

Пока что это больше про ТВ и медиаконтент, но потенциал понятен: Runway AI запустила бесконечный стрим ИИ-телевидения, ролики сделанные пользователями на их платформе.

Технологии для создания обучающих видео с помощью ИИРазработка технологий ИИ для создания разного рода видео прошла долгий путь с момента своего зарождения. Сегодняшние алгоритмы позволяют создавать контент любой сложности и направленности. Одной из ключевых технологий, используемой в этом процессе, является технология диффузионных моделей (DDPM) и технологии обработки естественного языка — Natural Language Processing (NLP).

Искусственный интеллект способен анализировать большие объёмы текстовой информации, понимать контекст и генерировать речь, звучащую естественно. Это означает, что при создании обучающего видео с использованием ИИ-спикера, вы можете получить качественный и четкий звук, который звучит как от настоящего человека. Это особенно важно для обучающих материалов, где понимание и ясность речи играют важную роль.

Кроме того, для создания визуальной части обучающих видео используются различные технологии компьютерного зрения, включая сверточные нейронные сети (CNN) и техники глубокого обучения. Эти методы позволяют алгоритмам обрабатывать и анализировать изображения, распознавать объекты на видео, создавать анимации или визуализации, а также оптимизировать качество видеоконтента, делая его более понятным и увлекательным для зрителей.

Вот небольшая подборка нейросетей и сервисов, которые помогут для создания таких роликов.

Для генерации текста: ChatGPT, Google Bard, LLaMA 2, Vicuna.Для генерации голоса из текста (TTS модели): ElevenLabs, Tortoise-TTS.Для генерации аватаров спикеров: Stable Diffusion, Midjourney.Для анимации/генерации аватаров под речь: HeyGen Custom Avatar, D-ID, Synthesia. Стоит отметить, что в создании обучающих видео с использованием ИИ-спикера большое внимание уделяется машинному обучению. Алгоритмы обучаются на больших массивах данных, чтобы научиться генерировать речь и обрабатывать визуальные данные с высокой точностью. Благодаря этому спикеры становятся всё более натуральными и убедительными в своем выражении, а обучающие видео выглядят более привлекательными для зрителей.

Процесс создания Процесс включает в себя несколько ключевых этапов, начиная с разработки сценария и заканчивая выпуском готового контента. Первым этапом является подготовка сценария или контента, который будет использоваться в видео. Здесь ИИ может быть задействован для анализа образовательных программ, учебных материалов и методик обучения, а также для генерации текста, сценария или речи на основе этих данных. Далее составляется детальный план съёмок, где учитываются выступление ИИ-спикера, визуальные элементы, анимации и сюжетная линия. Искусственный интеллект может помочь в создании анимаций, дизайне визуальных эффектов и оптимизации визуального контента для улучшения понимания материала зрителями.

Затем происходит процесс съёмки, где ИИ-спикер записывает заранее подготовленный сценарий. В этом моменте алгоритмы обрабатывают речь и визуализацию, обеспечивая ее высокое качество и наглядность. Одновременно происходит также запись визуальных материалов, которые могут быть собраны из различных источников или созданы самим искусственным интеллектом.

Человеческое участие в создании обучающих видео с участием ИИ-спикеров также является важным. Например, специалисты по образованию и обучению могут принимать участие в разработке сценария, подборе контента и контроле качества готового видео. Они могут обеспечить точность и корректность информации, а также адаптировать контент под потребности и специфику аудитории.

После завершения процесса создания видеоконтента следует этап его анализа и тестирования. В ходе тестирования проверяется понятность и доступность материала для аудитории, а также обеспечение соответствия образовательным стандартам. Важно также выявить возможные пути улучшения и совершенствования контента на данном этапе.

Одним из ключевых преимуществ использования искусственного интеллекта для создания обучающих видео является возможность персонализации контента в зависимости от потребностей и интересов конкретного зрителя. AI может анализировать поведение и реакции зрителей на контент, что позволяет создавать более эффективные и персонализированные обучающие видео.

Тем не менее важно учитывать, что хотя искусственный интеллект способен генерировать контент, он не обладает человеческой интуицией, творчеством и способностью к эмпатии. Поэтому человеческое участие и экспертное мнение остаются критически важными для обеспечения качества обучающего контента, созданного с помощью искусственного интеллекта.