Ученые ТюмГУ разработали методику извлечения предметно-ориентированных сущностей из текстов
31.03.2025

«Для проведения исследования был размечен набор данных, полученный из 300 отчетных документов студентов. На основе их проводилось сравнение качества и анализа ошибок выбранных моделей. В текстах были представлены такие сущности, как названия языков программирования, фреймворков и библиотек, баз данных и технологий объектно-реляционного отображения, а также инструментов для методологии непрерывной разработки программного обеспечения и других групп инструментов разработки, названия алгоритмов и структур данных. Систематизация таких данных очень важна для решения широкого спектра задач — от формирования проектных команд до персонализации образовательных траекторий. В частности, анализ цифрового следа студентов может служить основой для рекомендаций по улучшению учебных планов и курсов, анализа востребованности навыков и знаний, мониторинга успеваемости и выявления направлений развития в соответствии актуальными требованиями индустрии», - сообщила заведующая кафедрой программного обеспечения ТюмГУ Марина Воробьева.

Исследователи в работе сравнивали модели, основанные исключительно на энкодерах (ruBERT, ruRoBERTa), предназначенные для извлечения именованных сущностей, и модели, использующие как энкодеры, так и декодеры (ruT5, mBART), а также модели, базирующиеся только на декодерах (ruGPT, T-lite), применяемые для генерации текста.

Для оценки эффективности моделей использовалась F-мера и проводился анализ типичных ошибок. Выяснилось, что наиболее высокие показатели по F-мере на тестовом наборе данных продемонстрировала модель mBART (93.55%). Эта же модель показала наименьший уровень ошибок при идентификации предметно-ориентированных сущностей во время генерации текста и разметки. Модели для извлечения именованных сущностей проявили меньшую склонность к ошибкам, однако показали тенденцию к фрагментарному выделению сущностей.

«Модели были дополнительно обучены с помощью ИИ-технологий на размеченном корпусе текстов. Это обеспечило их адаптацию к специфическим характеристикам ИТ-предметной области. Однако полученные результаты свидетельствуют о применимости рассматриваемых моделей для решения задач с учетом специфики предъявляемых требований», - пояснила аспирант, старший преподаватель кафедры программного обеспечения ТюмГУ Антонина Мельникова.

Исследование выполнено при поддержке Министерства науки и высшего образования России в рамках госзадания. Результаты опубликованы в журнале «Моделирование и анализ информационных систем». 


Источник:

Управление стратегических коммуникаций ТюмГУ


Возврат к списку

Выбрать школу:
Explore Your Own Siberia
Way to the North
Business Russian
Sustainable landscape and regional development
STEP in Russian Energy
Soil Acarology
Siberian Western
Energy Policy in Eurasia
Archeology
Public Diplomacy
Illuminations