Alternative Title

Многомерное шкалирование результатов веб-извлечения из Грамматического словаря А.А. Зализняка и базы данных Национального корпуса русского языка (НКРЯ). Создание фрагмента корпуса словоформ модифицированных глаголов звучания русского языка методом веб-извлечения. Составление сводной таблицы причастных форм

Abstract

English Abstract:

This study investigates the development of multi-dimensional morphological profiles of Russian verbs of sounds, namely their participles, by integrating web-scraping methodologies and advanced digital visualization tools that is convenient and effective for a linguistic researcher.

The study demonstrates the potential of combining computational techniques such as web-scraping and digital visualization to enrich the understanding of complex, multi-source lexicographic phenomena.  The main task at this stage of the research was to collect, compile (combine results), analyze and present a summary index of all participle forms of sound verbs, recorded in electronic versions of  A.A. Zalizniak Grammatical Dictionary of the Russian language and in the database of the Russian National Corpus (RNC).

The output takes into account not only earlier data from 2022, 2023, 2024 but also reveals lacunae, doublets, and indicates new (potential) units. The findings contribute to multiple fields, including language education, lexicography, and corpus linguistics, by providing scalable methods for analyzing and visualizing nuanced linguistic data. These advancements have the potential to enhance teaching materials, improve translation systems, and support more accurate text analysis tools. By showcasing this innovative methodology for studying Russian verbs of sound, this research opens new avenues for exploring other linguistic domains through computational techniques and showcasing the transformative role of technology in contemporary linguistic research.

Russian Abstract:

В настоящей работе рассматривается разработка многомерных морфологических профилей русских глаголов звучания и их словоформ (причастий) на основе интеграции методик веб-скрейпинга и современных средств цифровой визуализации.

Работа демонстрирует их комбинаторный потенциал для многомерного шкалирования лексикографических явлений, обеспечивающего максимальное удобство и эффективность для исследователя-лингвиста. Полученные результаты вносят вклад в различные области, включая преподавание языка, лексикографию, корпусную лингвистику, методы анализа и визуализации лингвистических данных, а также способствуют оптимизации учебных материалов, совершенствованию систем машинного перевода и инструментов текстового анализа.

Основными задачами данного этапа работы являлись сбор, компиляция, анализ и представление обобщающего индекса причастных глагольных форм глаголов звучания, зафиксированных в электронных версиях словарей русского языка и в базе данных Национального корпуса русского языка (НКРЯ).

С учетом результатов предыдущих этапов проекта (2022, 2023, 2024)  была усовершенствована четырехпозиционная система нумерации исходных форм глагола, их словоформ и модифицированных дериватов. Успешно осуществлены системное извлечение и фиксация результатов поиска в виде многомерной сводной интерактивной таблицы, единицы которой снабжены отсылками к НКРЯ — представительной коллекции русскоязычных текстов общим объемом более 2 млрд слов, оснащенной лингвистической разметкой и поисковым инструментарием.

В сводных таблицах задокументированы не только все словоформы глаголов звучания, представленные в Грамматическом словаре А.А Зализняка и НКРЯ, но и выявлены существующие дублеты, внутриязыковые лакуны, а также обозначены новые (потенциальные) единицы. Предлагаемая инновационная методология изучения русских глаголов звучания открывает новые перспективы для исследования смежных лингвистических направлений с применением вычислительных методов, подчеркивая трансформационную роль технологий в современной лингвистике.

Кроме того, работа содержит практические рекомендации для преподавания языка, модернизации учебных материалов и оптимизации систем машинного перевода.

Start Date

August 2025

End Date

April 2026

Department(s)

Arts, Languages, and Philosophy

Research Center/Lab(s)

Intelligent Systems Center

Second Research Center/Lab

Center for Science, Technology, and Society

Document Type

Data

Document Version

Citation

File Format

text

Language(s)

English

Rights

© 2026 The Authors, All rights reserved

Publication Date

15 May 2026

Share

 
COinS