Москин Н.Д. (г.Петрозаводск)
О применении нечетких графов при анализе вариативности фольклорных текстов
@kizhi
стр. 339Современная фольклористика и лингвофольклористика, обращаясь к проблеме формального языкового анализа текста, сталкиваются с теоретическими и практическими трудностями, которые с помощью традиционных методов преодолеть очень непросто. Известно, что фольклорный текст в отличие от литературного обладает своей спецификой: недифференцированностью семантических и синтаксических отношений, «нечеткостью» границ между композиционными блоками, вариативностью сюжетов и т.д. Эти языковые явления и конструкции могут отражать особенности текстов той или иной местности, того или иного временного отрез-ка и определяются влиянием различных внутренних и внешних факторов. Для проведения сравнительного анализа сюжетов, выявления сходства и различия «своих» и «чужих» текстов можно использовать различные методы, в том числе разработанные в рамках точных наук.
В данной статье рассматривается, как можно применить математические объекты – нечеткие множества и нечеткие графы (fuzzy sets and fuzzy graphs) – для исследования коллекций фольклорных текстов. Основы нечеткой логики были заложены в начале 1970-х гг. в работах известного американского математика Лотфи Заде. Позднее это направление положило начало одной из ветвей искусственного интеллекта под названием «мягкие вычисления» (soft computing) [1] . В настоящее время данные методы активно используются в биологии, медицине, гуманитарных науках, менеджменте и др.
При задании нечеткого множества каждому элементу приписывается число 0 ≤ μA(x) ≤ 1 (функция принадлежности), определяющее степень принадлежности этого элемента множеству A. Например, нечеткое множество «несколько» можно задать следующим образом:
«несколько» = { ⟨3|0,5⟩, ⟨4|0,8⟩, ⟨5|1⟩, ⟨6|1⟩, ⟨7|0,8⟩, ⟨8|0,5⟩ }.
Если функция принадлежности равна нулю, то элемент строго не принадлежит множеству и не включается в список. Если же значение равно единице, то, наоборот, строго принадлежит множеству.[текст с сайта музея-заповедника "Кижи": http://kizhi.karelia.ru]
При описании объектов и явлений с помощью нечетких множеств часто используется понятие лингвистической переменной. Лингвистическая переменная отличается от числовой переменной тем, что ее значениями являются не числа, а слова или предложения на естественном или формальном языке. Например, переменная «возраст» определяется совокупностью целых чисел от 0 до 120, значениями («молодой», «средний», «старый»), правилами, позволяющими создавать новые значения (например, с приставками «очень молодой», «очень старый», «не очень молодой» и т.д.), а также функциями принадлежности этих значений.
Рассмотрим, как можно применить нечеткие множества для формального описания размытых, недифференцированных композиционных границ в фольклорных текстах. Хорошо известно, что при устном бытовании границы между предложениями не всегда ясны (в отличие от литературных текстов), а опора на пунктуационные знаки, расставленные издателями в опубликованных сборниках, не всегда надежна, тем более что принципы пунктуации со временем могут меняться. В этих условиях выходом может стать членение текста не на предложения, а на композиционные блоки.
Пусть в некотором тексте определено множество слов и множество композиционных блоков. Каждому слову поставим в соответствие функцию принадлежности μA(x), которая принимает значение от 0 до 1 включительно. Если слово не принадлежит блоку, то соответствующее значение функции равно нулю, если принадлежит, то – единице. Если же граница размыта, т.е. слово может принадлежать разным блокам, то значение находится в интервале от 0 до 1, которое определяется на основе знаний эксперта в данной области. На рис.1 приводится пример четкой и нечеткой принадлежности слов различным композиционным блокам:
стр. 3401. Четвертое слово принадлежит только блоку b и не принадлежит другим блокам:[текст с сайта музея-заповедника "Кижи": http://kizhi.karelia.ru]
A = { ⟨a|0⟩, ⟨b|1⟩, ⟨c|0⟩ }.
2. Восьмое слово принадлежит блокам b и c с вероятностью 50%:
B = { ⟨a|0⟩, ⟨b|0,5⟩, ⟨c|0,5⟩ }.
Если исследовать схожие по сюжету или жанру фольклорные тексты, то можно выделить закономерности варьирования границ текстообразующих блоков и описать их с помощью математических правил. Здесь (и далее) уместно ставить задачи интеллектуального анализа данных (Data Mining): классификации, кластеризации, прогнозирования и анализа отклонений [2] .
Более сложные языковые модели текстов можно описывать с помощью нечетких графов [3] . Здесь в отличие от «четких» графов каждому ребру приписывается значение функции принадлежности 0 ≤ μA(x) ≤ 1 (нечеткий граф первого рода). Такие же «веса» можно поставить в соответствие вершинам графа (нечеткий граф второго рода).[текст с сайта музея-заповедника "Кижи": http://kizhi.karelia.ru]
Рассмотрим, как можно применить нечеткие графы при формализации синтаксической структуры фольклорных текстов (на примере построения дерева зависимостей первого предложения эпического духовного стиха «Егорий и Олесафия») [4] :
А была три да царьсва да неверныих,А Додон город скрозь землю пустил,А Додон город да огнем пожег,А на третье царьсво на РахлинскоеНапустил змию да поганую.
В данном примере не вполне очевидна грамматическая природа анафорического «а» в третьем и четвертом стихах: с одной стороны, контекст указывает на то, что это анафорическая частица, с другой – эта «частица» может характеризовать сопоставительно-противительные отношения между предикативными единицами, приобретая, таким образом, признаки противительного союза. Подобные случаи нередки, и они могут быть отражены в формальной модели предложения. Если слово совмещает в себе признаки ритмообразующей частицы и сочинительного союза, то оно отображается на графе два раза. В первом случае оно объединяется со смежной словоформой и заключается в скобки. Во втором случае оно представляется в виде вершины с весом 0,5, соединенной с фиктивной вершиной (ФВ) ребром веса 0,5 (рис.2).
Хорошо известно, что фольклорный текст обладает свойством вариативности: один и тот же сюжет может быть записан в разных местах разными собирателями в разное время. Особенности подобного варьирования текста также можно исследовать с помощью нечетких моделей. Покажем, как это делается на примерестр. 341 теоретико-графовых моделей сюжета бесёдных песен [5] . Рассмотрим текст свадебной бесёдной песни «Как назябло, навеяло лицо» из сборника В. Д. Лысанова (запись 1916 г., г.Петрозаводск) [6] :[текст с сайта музея-заповедника "Кижи": http://kizhi.karelia.ru]
Как назябло, навеяло лицо, даПротив северика идучись. ДаКрасна девица во тереме сидит, даЖемчужное ожерельицо садит; даРазсыпалось ожерельицо, даПо всему высоку терему. ДаНе собрать, не собрать жемчуга, даЧто ль ни батюшку, ни матушки, даЧто ль ни братцам, ни ясным соколам, даНи сестрицам, белым лебедям, даА собрать соберет жемчужок, даРазудалый, добрый молодец.
Подобный сюжет встречается и в других песнях (например, «Позябло, позябло лицо» в записи Ф.Студитского 1841 г. и «Разсыпалось ожерельице» в записи К.М.Петрова 1868 г.). При этом в трех текстах есть различия: персонажи «батюшка» и «матушка» упоминаются только в первом варианте, объект «северик» есть только в первом и во втором вариантах и др. Поэтому на основе трех текстов можно построить обобщенный граф сюжета с нечеткими связями. Здесь значение функции принадлежности вычисляется как отношение числа вхождения связи в графы текстов к общему числу текстов (рис.3). Таким образом, наиболее часто встречающиеся отношения имеют больший вес по сравнению с теми отношениями, которые встречаются реже.
Аналогично можно устанавливать «веса» для вершин графа. Например, в первом мотиве бесёдной песни «Все мужья до жен добры», записанной В.Д.Дашковым в 1842 г., присутствует объект «шелков платок» [7] .
В схожем варианте песни «Все мужовья до жон добры», записанной Ф.Студитским в 1841 г. [8] , этот объект не присутствует. Поэтому в графе рядом с вершиной «шелков платок» ставится значение 0,5, тогда как веса остальных объектов равны единице.[текст с сайта музея-заповедника "Кижи": http://kizhi.karelia.ru]
Как показано в работе [9] , подобные обобщенные графы можно применять для решения задачи поиска схожих мотивов в коллекции. Здесь задача обнаружения мотивов сводится к задаче поиска схожего по структуре подграфа. В настоящее время процедура поиска реализована в локальной версии системы «Фольклор» [10] .
Искомый мотив можно задать двумя способами: либо пользователь самостоятельно определяет объекты истр. 342 связи, либо выделяет в фольклорном тексте границы мотива и программа автоматически строит граф. Данный алгоритм можно усовершенствовать, дополнив его поиском по ключевым словам, установив ограничения на принадлежность объектов к определенной группе, на тип и порядок появления связей в тексте.
Использование нечетких моделей также может быть полезно для исследования проблемы жанровой дифференциации и атрибуции текстов. Например, при изучении эпических и лирических духовных стихов возникает задача сравнительного анализа их синтаксической структуры. Духовные стихи как жанр музыкально-стихотворный обладают особой синтаксической организацией. Текст, образованный путем сегментации на музыкально-стихотворные отрезки (стихи), строится при помощи специфических текстообразующих моделей [11] : разные виды повторов (в терминологии Е.Б.Артёменко, концентрирующий, цепной, позиционный), синтаксический параллелизм, межстиховая атрибуция и т. д. Синтаксические звенья, которые являются конструктивной базой для данных моделей, построены по нормам паратаксиса. Изучение духовных стихов в аспекте их музыкально-стихотворной организации позволит получить более полные сведения о разновидностях синтаксических единиц в фольклорном тексте именно данного типа.
Не менее важным направлением представляется использование нечетких конструкций для автоматизированного построения теоретико-графовых моделей фольклорных текстов (особенно когда корпус текстов большой по объему). Данная задача является нетривиальной, требующей привлечения знаний экспертов в области фольклористики и лингвофольклористики. При этом у разных экспертов могут возникнуть противоположные мнения относительно того, существует ли определенная связь в графе, к какой группе принадлежит объект или отношение, как строится иерархия элементов модели и т. д. Эту важную информацию можно отразить в графе, используя нечеткие объекты и отношения, определив значения функции принадлежности в зависимости от квалификации экспертов.
- [1] Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб., 2001. С.31.
- [2] Дюк В., Самойленко А. Data Mining: учебный курс. СПб., 2001.
- [3] Берштейн Л.С., Боженюк А.В. Нечеткие графы и гиперграфы. М., 2005. С. 88.
- [4] Неизданные материалы экспедиции Б.М. и Ю.М. Соколовых (1926–1928): По следам Рыбникова и Гильфердинга. Т.1. Эпическая поэзия. М., 2007. C.86–87.
- [5] Москин Н.Д. Применение теоретико-графовых моделей при классификации бесёдных песен Заонежья XIX – начала XX в. // Материалы V Междунар. науч. конф. Рябининские чтения-2007: Традиционная культура Русского Севера: история и современность. Петрозаводск, 2007. С.468–471.
- [6] Лысанов В.Д. Досюльная свадьба, песни, игры и танцы в Заонежье Олонецкой губернии. Петрозаводск, 1916. С.73.
- [7] Дашков В. Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях. СПб., 1842. С.179.
- [8] Народные песни Вологодской и Олонецкой губерний, собранные Ф.Студитским. СПб., 1841. С.67.
- [9] Москин Н.Д. Применение нечетких теоретико-графовых моделей в задачах моделирования и поиска песенных мотивов // Труды Двенадцатой национальной конференции по искусственному интеллекту с международным участием КИИ-2010. Тверь, 20–24 сентября 2010 г. М., 2010. Т.1. С.243–251.
- [10] Москин Н. Д. Инструменты исследования текстовых коллекций на основе теоретико-графовых моделей в информационной системе «Фольклор» // Прикладная информатика. М., 2010. №4 (28). С.48–62.
- [11] Артёменко Е.Б. Синтаксический строй русской народной лирической песни в аспекте ее художественной организации. Воронеж, 1977.
Текст может отличаться от опубликованного в печатном издании, что обусловлено особенностями подготовки текстов для интернет-сайта.