Alternative Title
Многомерное шкалирование результатов веб-извлечения из Грамматического словаря А.А. Зализняка и базы данных Национального корпуса русского языка (НКРЯ). Создание фрагмента корпуса словоформ модифицированных глаголов звучания русского языка методом веб-извлечения. Составление сводной таблицы форм настоящего, прошедшего и будущего времени, повелительного наклонения, деепричастий несовершенного и совершенного вида
Abstract
This project attempts not only to improve the method of web extraction in relation to the source material (lexical-semantic group of Russian sound verbs, semantically modified at the word-forming level) but also systematize the search results using the format that is convenient and effective for a linguistic researcher. The main tasks at this stage of the research were to collect, compile (combine results), analyze and present a summary index of all possible verbal forms of sound verbs, recorded in electronic versions of dictionaries of the Russian language and in the database of the Russian National Corpus (RNC).
The output takes into account not only all documented modifications of sound verbs from the A.A Zalizniak Grammatical Dictionary and the Russian National Corpus, but also reveals lacunae, doublets, and indicates new (potential) units.
The results of the study may be useful for the development of various web applications for the search, collection, and visualization of linguistic material of different volumes and degrees of complexity. Possibilities of combinatorial optimization in the processing of open and closed linguistic databases can be particularly important when extracting information from various digital lexicographic sources (across a single or multiple languages), from national linguistic corpora, as well as from digital text collections.
В данном проекте предпринята попытка не только усовершенствовать методику веб-извлечения применительно к исходному материалу (лексико-семантической группе русских звуковых глаголов, модифицированных на словообразовательном уровне), но и обобщить представление результатов поиска в формате, который максимально удобен и эффективен для исследователя-лингвиста.
Основными задачами на данном этапе исследования были - собрать, скомпилировать (соединить результаты), проанализировать и представить обобщающий индекс всех возможных глагольных форм глаголов звучания, зафиксированных в электронных версиях словарей русского языка и в базе данных Национального корпуса русского языка (НКРЯ).
С учетом результатов предыдущих этапов исследований (2022, 2023) была усовершенствована четырехпозиционная система нумерации исходных форм глагола, их словоформ и модифицированных дериватов. Успешно проведено системное извлечение и фиксирование результатов поиска в виде многомерной сводной интерактивной таблицы, единицы которой снабжены отсылками к НКРЯ - представительной коллекции текстов на русском языке общим объемом более 2 млрд слов, оснащенной лингвистической разметкой и инструментами поиска.
В сводных таблицах задокументированы не только все словоформы звуковых глаголов, представленные в Грамматическом словаре А.А. Зализняка и НКРЯ, но и выявлены существующие дублеты, внутриязыковые лакуны, указаны новые (потенциальные) единицы.
Результаты данного исследования могут быть полезны в разработке различных веб-приложений для поиска, сбора и визуализации лингвистического материала различных объёмов и степеней сложности. Возможности комбинаторной обработки открытых и закрытых баз данных могут быть особенно значимы при извлечении информации из цифровых лексикографических источников (на одном или нескольких языках), из национальных языковых корпусов, а также из электронных текстовых коллекций.
Start Date
August 2023
End Date
February 2024
Recommended Citation
Ivliyeva, Irina and Koob, Perry, "Multi-dimensional scaling of web-scraping results from the A.A Zalizniak Grammatical Dictionary and the Russian National Corpus. Creating a corpus fragment of all possible word-forms of modified Russian sound verbs using web-scraping methodology. Compilation of a summary table for the present tense, past tense, future tense, imperative, imperfective and perfective gerund forms" (2024). Research Data. 12.
https://scholarsmine.mst.edu/research_data/12
Contact Information
Dr. Irina V. Ivliyeva, ivliyeva@mst.edu Professor of Russian, Arts, Languages, and Philosophy Department Missouri University of Science and Technology
Perry B. Koob, koobp@mst.edu Database Administrator/System Administrator Academic Technology Support Team Missouri S&T Information Technology
Department(s)
Arts, Languages, and Philosophy
Document Type
Data
Document Version
Citation
File Format
dataset
Language(s)
English
Language 2
Russian
Rights
© 2024 Irina V. Ivliyeva, All rights reserved
Copy of 3_Приложение 1 Words not_in_morfologija-2024-02-11.xlsx (16 kB)
Copy of 4_Приложение 2 Dual action double_pronoun-2024-02-11.xlsx (43 kB)
Copy of 5_Приложение 3 Double_perfective_gerund-2024-02-11.xlsx (22 kB)
Copy of 6_Приложение 4 Double_imperfective_gerund-2024-02-11.xlsx (9 kB)