Research Data

Multi-dimensional scaling of web-scraping results from the A.A Zalizniak Grammatical Dictionary and the Russian National Corpus. Creating a corpus fragment of all possible word-forms of modified Russian sound verbs using web-scraping methodology. Compilation of a summary table for the present tense, past tense, future tense, imperative, imperfective and perfective gerund forms

Alternative Title

Многомерное шкалирование результатов веб-извлечения из Грамматического словаря А.А. Зализняка и базы данных Национального корпуса русского языка (НКРЯ). Создание фрагмента корпуса словоформ модифицированных глаголов звучания русского языка методом веб-извлечения. Составление сводной таблицы форм настоящего, прошедшего и будущего времени, повелительного наклонения, деепричастий несовершенного и совершенного вида

Ивлиева, И.В.
Kуб, Перри

Abstract

This project attempts not only to improve the method of web extraction in relation to the source material (lexical-semantic group of Russian sound verbs, semantically modified at the word-forming level) but also systematize the search results using the format that is convenient and effective for a linguistic researcher. The main tasks at this stage of the research were to collect, compile (combine results), analyze and present a summary index of all possible verbal forms of sound verbs, recorded in electronic versions of dictionaries of the Russian language and in the database of the Russian National Corpus (RNC).

The output takes into account not only all documented modifications of sound verbs from the A.A Zalizniak Grammatical Dictionary and the Russian National Corpus, but also reveals lacunae, doublets, and indicates new (potential) units.

The results of the study may be useful for the development of various web applications for the search, collection, and visualization of linguistic material of different volumes and degrees of complexity. Possibilities of combinatorial optimization in the processing of open and closed linguistic databases can be particularly important when extracting information from various digital lexicographic sources (across a single or multiple languages), from national linguistic corpora, as well as from digital text collections.

В данном проекте предпринята попытка не только усовершенствовать методику веб-извлечения применительно к исходному материалу (лексико-семантической группе русских звуковых глаголов, модифицированных на словообразовательном уровне), но и обобщить представление результатов поиска в формате, который максимально удобен и эффективен для исследователя-лингвиста.

Основными задачами на данном этапе исследования были - собрать, скомпилировать (соединить результаты), проанализировать и представить обобщающий индекс всех возможных глагольных форм глаголов звучания, зафиксированных в электронных версиях словарей русского языка и в базе данных Национального корпуса русского языка (НКРЯ).

С учетом результатов предыдущих этапов исследований (2022, 2023) была усовершенствована четырехпозиционная система нумерации исходных форм глагола, их словоформ и модифицированных дериватов. Успешно проведено системное извлечение и фиксирование результатов поиска в виде многомерной сводной интерактивной таблицы, единицы которой снабжены отсылками к НКРЯ - представительной коллекции текстов на русском языке общим объемом более 2 млрд слов, оснащенной лингвистической разметкой и инструментами поиска.

В сводных таблицах задокументированы не только все словоформы звуковых глаголов, представленные в Грамматическом словаре А.А. Зализняка и НКРЯ, но и выявлены существующие дублеты, внутриязыковые лакуны, указаны новые (потенциальные) единицы.

Результаты данного исследования могут быть полезны в разработке различных веб-приложений для поиска, сбора и визуализации лингвистического материала различных объёмов и степеней сложности. Возможности комбинаторной обработки открытых и закрытых баз данных могут быть особенно значимы при извлечении информации из цифровых лексикографических источников (на одном или нескольких языках), из национальных языковых корпусов, а также из электронных текстовых коллекций.

Start Date

August 2023

End Date

February 2024

Recommended Citation

Ivliyeva, Irina and Koob, Perry, "Multi-dimensional scaling of web-scraping results from the A.A Zalizniak Grammatical Dictionary and the Russian National Corpus. Creating a corpus fragment of all possible word-forms of modified Russian sound verbs using web-scraping methodology. Compilation of a summary table for the present tense, past tense, future tense, imperative, imperfective and perfective gerund forms" (2024). Research Data. 12.
https://scholarsmine.mst.edu/research_data/12

Contact Information

Dr. Irina V. Ivliyeva, ivliyeva@mst.edu Professor of Russian, Arts, Languages, and Philosophy Department Missouri University of Science and Technology

Perry B. Koob, koobp@mst.edu Database Administrator/System Administrator Academic Technology Support Team Missouri S&T Information Technology

Department(s)

Arts, Languages, and Philosophy

Document Type

Data

Document Version

Citation

File Format

dataset

Language(s)

English

Language 2

Russian

Rights

Copy of 2_Сводная таблица ivliyeva-verb-extended-complete-2024-02-11-RNC.xlsx (886 kB)
Copy of 3_Приложение 1 Words not_in_morfologija-2024-02-11.xlsx (16 kB)
Copy of 4_Приложение 2 Dual action double_pronoun-2024-02-11.xlsx (43 kB)
Copy of 5_Приложение 3 Double_perfective_gerund-2024-02-11.xlsx (22 kB)
Copy of 6_Приложение 4 Double_imperfective_gerund-2024-02-11.xlsx (9 kB)

Download

Additional files available below

Included in

Russian Linguistics Commons

COinS

Research Data

Alternative Title

Abstract

Start Date

End Date

Recommended Citation

Contact Information

Department(s)

Document Type

Document Version

File Format

Language(s)

Language 2

Rights

Included in

Search

Browse

Author Corner

Useful Links

Article Locations

Research Data

Alternative Title

Author

Abstract

Start Date

End Date

Recommended Citation

Contact Information

Department(s)

Document Type

Document Version

File Format

Language(s)

Language 2

Rights

Included in

Share

Search

Browse

Author Corner

Useful Links

Article Locations