Alternative Title
Многомерное шкалирование результатов веб-извлечения из Грамматического словаря А.А. Зализняка и базы данных Национального корпуса русского языка (НКРЯ). Создание фрагмента корпуса словоформ модифицированных глаголов звучания русского языка методом веб-извлечения. Составление сводной таблицы причастных форм
Abstract
English Abstract:
This study investigates the development of multi-dimensional morphological profiles of Russian verbs of sounds, namely their participles, by integrating web-scraping methodologies and advanced digital visualization tools that is convenient and effective for a linguistic researcher.
The study demonstrates the potential of combining computational techniques such as web-scraping and digital visualization to enrich the understanding of complex, multi-source lexicographic phenomena. The main task at this stage of the research was to collect, compile (combine results), analyze and present a summary index of all participle forms of sound verbs, recorded in electronic versions of A.A. Zalizniak Grammatical Dictionary of the Russian language and in the database of the Russian National Corpus (RNC).
The output takes into account not only earlier data from 2022, 2023, 2024 but also reveals lacunae, doublets, and indicates new (potential) units. The findings contribute to multiple fields, including language education, lexicography, and corpus linguistics, by providing scalable methods for analyzing and visualizing nuanced linguistic data. These advancements have the potential to enhance teaching materials, improve translation systems, and support more accurate text analysis tools. By showcasing this innovative methodology for studying Russian verbs of sound, this research opens new avenues for exploring other linguistic domains through computational techniques and showcasing the transformative role of technology in contemporary linguistic research.
Russian Abstract:
В настоящей работе рассматривается разработка многомерных морфологических профилей русских глаголов звучания и их словоформ (причастий) на основе интеграции методик веб-скрейпинга и современных средств цифровой визуализации.
Работа демонстрирует их комбинаторный потенциал для многомерного шкалирования лексикографических явлений, обеспечивающего максимальное удобство и эффективность для исследователя-лингвиста. Полученные результаты вносят вклад в различные области, включая преподавание языка, лексикографию, корпусную лингвистику, методы анализа и визуализации лингвистических данных, а также способствуют оптимизации учебных материалов, совершенствованию систем машинного перевода и инструментов текстового анализа.
Основными задачами данного этапа работы являлись сбор, компиляция, анализ и представление обобщающего индекса причастных глагольных форм глаголов звучания, зафиксированных в электронных версиях словарей русского языка и в базе данных Национального корпуса русского языка (НКРЯ).
С учетом результатов предыдущих этапов проекта (2022, 2023, 2024) была усовершенствована четырехпозиционная система нумерации исходных форм глагола, их словоформ и модифицированных дериватов. Успешно осуществлены системное извлечение и фиксация результатов поиска в виде многомерной сводной интерактивной таблицы, единицы которой снабжены отсылками к НКРЯ — представительной коллекции русскоязычных текстов общим объемом более 2 млрд слов, оснащенной лингвистической разметкой и поисковым инструментарием.
В сводных таблицах задокументированы не только все словоформы глаголов звучания, представленные в Грамматическом словаре А.А Зализняка и НКРЯ, но и выявлены существующие дублеты, внутриязыковые лакуны, а также обозначены новые (потенциальные) единицы. Предлагаемая инновационная методология изучения русских глаголов звучания открывает новые перспективы для исследования смежных лингвистических направлений с применением вычислительных методов, подчеркивая трансформационную роль технологий в современной лингвистике.
Кроме того, работа содержит практические рекомендации для преподавания языка, модернизации учебных материалов и оптимизации систем машинного перевода.
Start Date
August 2025
End Date
April 2026
Recommended Citation
Ivliyeva, Irina V. and Koob, Perry, "Multi-dimensional scaling of web-scraping results from the A.A Zalizniak Grammatical Dictionary and the Russian National Corpus. Creating a corpus fragment of all possible word-forms of modified Russian sound verbs using web-scraping methodology. Compilation of a summary table for the participle forms" (2026). Research Data. 17.
https://scholarsmine.mst.edu/research_data/17
Department(s)
Arts, Languages, and Philosophy
Research Center/Lab(s)
Intelligent Systems Center
Second Research Center/Lab
Center for Science, Technology, and Society
Document Type
Data
Document Version
Citation
File Format
text
Language(s)
English
Rights
© 2026 The Authors, All rights reserved
Publication Date
15 May 2026
Copy of Appendix 0 Таблица Verb-extended-complete-2025-11-13.xls (2642 kB)
Copy of Appendix 1 Приложение 1 Words not_in_morfologija-2025-11-13.xls (51 kB)
Copy of Appendix 2 Приложение 2 Double_pronoun-2025-11-13.xls (154 kB)
Copy of Appendix 3 Приложение 3 Double_perfective_gerund-2025-11-13.xls (103 kB)
Copy of Appendix 4 Приложение 4 double_imperfective_gerund-2025-11-13.xls (26 kB)
Included in
Curriculum and Instruction Commons, Educational Technology Commons, Modern Languages Commons, Russian Linguistics Commons, Russian Literature Commons, Secondary Education Commons
