
«Для проведения исследования был размечен набор данных, полученный из 300 отчетных документов студентов. На основе их проводилось сравнение качества и анализа ошибок выбранных моделей. В текстах были представлены такие сущности, как названия языков программирования, фреймворков и библиотек, баз данных и технологий объектно-реляционного отображения, а также инструментов для методологии непрерывной разработки программного обеспечения и других групп инструментов разработки, названия алгоритмов и структур данных. Систематизация таких данных очень важна для решения широкого спектра задач — от формирования проектных команд до персонализации образовательных траекторий. В частности, анализ цифрового следа студентов может служить основой для рекомендаций по улучшению учебных планов и курсов, анализа востребованности навыков и знаний, мониторинга успеваемости и выявления направлений развития в соответствии актуальными требованиями индустрии», - сообщила заведующая кафедрой программного обеспечения ТюмГУ Марина Воробьева.
Исследователи в работе сравнивали модели, основанные исключительно на энкодерах (ruBERT, ruRoBERTa), предназначенные для извлечения именованных сущностей, и модели, использующие как энкодеры, так и декодеры (ruT5, mBART), а также модели, базирующиеся только на декодерах (ruGPT, T-lite), применяемые для генерации текста.
Для оценки эффективности моделей использовалась F-мера и проводился анализ типичных ошибок. Выяснилось, что наиболее высокие показатели по F-мере на тестовом наборе данных продемонстрировала модель mBART (93.55%). Эта же модель показала наименьший уровень ошибок при идентификации предметно-ориентированных сущностей во время генерации текста и разметки. Модели для извлечения именованных сущностей проявили меньшую склонность к ошибкам, однако показали тенденцию к фрагментарному выделению сущностей.
«Модели были дополнительно обучены с помощью ИИ-технологий на размеченном корпусе текстов. Это обеспечило их адаптацию к специфическим характеристикам ИТ-предметной области. Однако полученные результаты свидетельствуют о применимости рассматриваемых моделей для решения задач с учетом специфики предъявляемых требований», - пояснила аспирант, старший преподаватель кафедры программного обеспечения ТюмГУ Антонина Мельникова.
Исследование выполнено при поддержке Министерства науки и высшего образования России в рамках госзадания. Результаты опубликованы в журнале «Моделирование и анализ информационных систем».
Источник:
Управление стратегических коммуникаций ТюмГУ