Существуют ли компьютерные методы позволяющие достоверно определить авторство средневекового текста

Обновлено: 07.07.2024

Представление об авторстве, ставшее привычным для нас, сложилось сравнительно недавно. «Фигура автора принадлежит Новому времени, по-видимому, она формировалась нашим обществом по мере того, как с окончанием средних веков это общество стало открывать для себя достоинство индивида, или, выражаясь более высоким слогом, „человеческой личности“», – писал Р. Барт[296]. У Р. Барта индивид и личность являются синонимами. Там, где автор не стремится передать свою индивидуальность, остается чисто символическая деятельность письма, для автора наступает смерть, остается рассказ ради самого рассказа, а не ради воздействия на действительность. Здесь действует не автор, а сам язык[297].

Как видно, для литературы Нового времени очень важно передать читателю субъективный, личностный взгляд автора. Совсем иначе обстояло дело в средневековой литературе. Д. С. Лихачев писал об авторстве древнерусских произведений: «Произведение Нового времени отражает собой личность автора в создаваемом им образе автора. Иное в искусстве средневековья. Оно стремится выразить коллективные чувства, коллективное отношение к изображаемому. Отсюда многое в нем зависит не от творца произведения, а от жанра, к которому это произведение принадлежит. Автор в гораздо меньшей степени, чем в Новое время, озабочен внесением своей индивидуальности в произведение»[298]. Древнерусская литература представляла собой продукт коллективного творчества составителей, редакторов, переписчиков. Особенно ярко коллективное начало выражено в летописях – одном из жанров средневековой литературы. Д. С. Лихачев писал, что «каждый летописец пользовался трудами своих предшественников, очень мало иногда изменяя их текст, но совершенно меняя композицию и идею произведения путем комбинирования предшествующих летописных произведений»[299].

Слабость личностного начала в древнерусской литературе приводит к тому, что к ней неприменимо понятие индивидуального авторского стиля. В. В. Виноградов связывает проблему поиска авторского стиля с анализом и структурным воссозданием творческой личности автора. Но для средневековой литературы это сделать сложно, так как в ней «категория индивидуального стиля не выступает как фактор литературной дифференциации и оценки произведений словесного творчества почти до самого конца XVII в.»[300].

Отсутствие индивидуального авторского стиля приводит к тому, что в средневековой литературе сложно выделить автора из текста, а также атрибутировать текст определенному автору: «У нас есть тексты без авторов, авторы без текстов, произведения, которые имеют более чем одного автора, и произведения, принадлежащие единому автору»[301]. Хорст Венцель приводит латинский перевод слова «автор» в Средневековье. Это первоначальный творец, инициатор, поручитель, свидетель, пророк, учитель. Отсюда следует, что мы меньше всего можем представить автора как историческое лицо, которое можно исторически сконструировать из текста[302]. В средневековой литературе, как правило, не автор приводил текст, а текст приводил автора. Авторство не обязательно приписывалось тому, кто являлся автором в соответствии с современными представлениям. Поэтому Хорст Венцель пишет, что понятие авторства охватывало не только поэтов, писцов, редакторов, но и общественное распространение, литературную стилизацию и фиксацию в миниатюрах изображений, с которыми ассоциировалось производство текстов в Средние века[303]. Собственно письменный текст часто не имел здесь самостоятельного значения, а служил только пояснением к изображению. Создателями средневекового произведения был не только тот, кому принадлежал замысел сочинения, ими являлись и переписчики, и миниатюристы.

В Средневековье не видели существенной разницы между писателем и читателем. Средневековый кодекс чтения предоставлял читателю возможность писать на полях и усваивать текст посредством комментария[304]. Современная исследовательница Л. В. Столярова, изучающая рукописные книги XI–XIV вв., отметила читательские записи на полях. Но они не представляли собой какой -либо ценности в глазах средневекового человека, помещались в самых неудобных местах, нередко писались плохими чернилами. Все же труд писца кодекса вовсе не был анонимным: «Вопреки сложившейся в историографии точки зрения об анонимности труда древнерусских книжников, последние отнюдь не скрывали своего имени, однако стремились к составлению уничижительных самохарактеристик – дани авторской „скромности“ и проявлению величия богоугодного труда писца»[305]. Основное значение древнерусские книжники проявляли выходным записям, свидетельствующим о книгопроизводстве или о труде писца. Записки же, носящие в какой-то мере личный характер, – дневниковые, молитвенные, эмоциональные и собственно именные – выделялись в тексте гораздо меньше[306]. Для средневекового человека интерес представляло прежде всего имя писца кодекса, поэтому оно и не скрывалось. Анонимность большинства произведений с точки зрения современных представлений об авторстве связана с особенностями средневековой культуры. Здесь не знали авторского права, автора как творца сочинения. Строго говоря, существовала единственная книга, не подлежащая изменению, – Священное Писание. Все остальные авторы не творцы, а переписчики этого текста, поэтому никто из них не может претендовать на полную власть над произведением. Средневековая русская литература не составляла исключения, в ней тоже отсутствовало привычное нам представление об авторе. В. В. Виноградов писал о такой особенности древнерусских произведений: «Границы между писателем – создателем литературного произведения, компилятором – составителем, „сводчиком“, редактором, а иногда и переписчиком, в древнерусской литературе нередко являются очень зыбкими»[307]. Отсутствие в Средневековье современного нам представления об авторских правах приводит к тому, что древнерусский памятник постоянно заимствует из других произведений и сам, в свою очередь, служит материалом заимствования для них. В древнерусской литературе было постоянное стремление улучшать одно произведение за счет другого[308]. Средневековое произведение было открыто для любых изменений. К нему могут быть применены слова Р. Барта о многомерности письма, где «текст соткан из цитат, отсылающих к тысячам культурных источников»[309].

В Средневековье для произведения был важен не столько автор, сколько принадлежность к авторитетной традиции. Манфред Эйкельман пишет, что понятия «автор» и «авторитет» в Средние века почти исключали друг друга[310]. Отсюда две различные литературные практики: автор или сам удостоверял требования к художественности, правдивости и т.д. своих произведений, или автор создавал свои произведения в рамках традиционной литературной истории, в которой авторы, а также их произведения приобретали ранг компетентной профессиональной инстанции. Две литературные практики базировались на одинаковом понимании того, что авторы и их произведения были авторитетными[311]. С. С. Аверинцев замечает, что для архаического сознания имя автора есть знак авторитета[312]. У С. С. Аверинцева категория авторства, в отличие от категории авторитета, – неповторимость творческой инициативы и вызванные ею историко-литературные события. Там, где отсутствует «личность» в смысле индивидуальности, остается лишь некое присущее лицу и делегируемое им через имя достоинство, т.е. та же auctoritas (авторитетность)[313]. Если вспомнить высказывание Мишеля Фуко о том, что автор – это функция, которой общество наделяет те или иные произведения[314], то в Средние века авторскими считались прежде всего авторитетные произведения.

В древнерусской литературе требования авторитетности предъявлялись к церковно-учительным сочинениям, которые очень редко функционировали без авторов. При этом автор далеко не всегда был реальным историческим лицом, очень часто имя, которым подписывалось произведение, являлось только псевдонимом. Здесь можно привести высказывание академика М. И. Сухомлинова о псевдонимах: «Вообще в древней словесности русской наиболее употребительными были три рода псевдонимов: оригинальные русские сочинения или получали собирательное название поучений святых отцов, от "святых книг" и т.п.; или, что чаще всего, приписывались Златоусту; или же на них выставлялось имя другого отца церкви: Василия Великого, Григория Богослова, Кирилла Философа и т.д.»[315]. Здесь имя ставилось не для выражения творческой индивидуальности писателя, а для придания тексту авторитетности, для удостоверения того, что автор воплощает в себе «лик истинного христианина»[316].

Как видно, характерной чертой средневековой литературы являлась ее анонимность. Она была основной для произведений средневековой культуры. М. В. Бибиков очень точно объясняет такое явление: «Далеко не всех деятелей культуры средневековья мы знаем: для этой эпохи характерно было творчество на грани анонимности, когда автор стремился прежде всего выразить в художественном образе высшую мысль, идею, а не увековечить свое имя или утвердить авторство. Вечность идеи и универсализм переживаний высшего порядка были важнее, чем индивидуализм автора, считавшим себя не столько создателем, сколько интерпретатором мыслей и образов, близких всем, окружающим его»[317]. Анонимность возникла с распространением письменной культуры. В устном творчестве ее просто не могло быть – автор и исполнитель являлись одним лицом, это само собой разумелось. При переходе к письменной традиции, где автор или исполнитель не представлены в живой форме, анонимность становится проблемой, называние имени приобретает смысл.

Джон Флуд рассматривает явление анонимности на примере средневековой героической поэзии. Там она широко распространена и является одним из родов протеста против нежелания признать авторство в обществе[318]. Такой протест был особенно типичен для позднего Средневековья и свидетельствовал о том, что личность пыталась эмансипировать себя от общины. Анонимное творчество в ту эпоху было творчеством коллектива.

В древнерусской литературе произведение функционировало без автора потому, что имя автора не представляло собой существенного интереса для читателей. Оно имело смысл, как мы уже писали, только в церковных сочинениях, но и здесь важно было не реальное имя, а авторитет. Надо оговориться, что все написанное имеет особое значение прежде всего для ранних периодов. В XVII в. средневековый стереотип начал разрушаться, появляются сочинения, которые можно уверенно атрибутировать конкретным авторам. Достаточно вспомнить повести писателей Смутного времени, произведения протопопа Аввакума.

В этом контексте особый вопрос представляет собой определение автора летописи. Главная сложность здесь состоит в том, что летописи, в том числе и Пискаревский летописец, представляли собой своды предшествующего материала, где часто сложно отделить сочинителя от редактора или составителя свода. Д. С. Лихачев заметил, что работа различных летописцев соединена в памятнике не крупными кусками, а по большей части отдельными небольшими летописными статьями[319]. «Летописи и хронографы, – писал Д. С. Лихачев, – могли составляться одновременно несколькими „авторами“ и при этом на основании ранее существующих текстов. Говорить в этих случаях об „авторском тексте“ „ Русской Правды“ или в отдельных случаях об „авторском тексте“ житий, патериков, сводов повествовательного материала и т.д. – просто невозможно»[320]. Для атрибуции текста он предлагает прежде всего провести предварительное расслоение летописи и ее хронологизацию. В ряде случаев необходимо восстановить источники текста летописи и определить характер и объем работы каждого автора[321]. Таким образом, у каждого фрагмента летописи должен быть свой автор. Попытаемся ответить на вопрос, насколько это важно для понимания летописи.

Петербургский исследователь В. К. Зиборов недавно высказал сомнение в существовании летописца Никона, одного из авторов свода 1070-х гг., вошедшего в состав Повести временных лет. Он считает, что весь текст за этот период был написан Нестором, Никон же был в лучшем случае одним из информаторов Нестора[322]. Но знание того, кто был автором отдельных частей летописи, никак не изменяет ее смысл и ничего не добавляет к пониманию текста Повести временных лет.

На это, в частности, обращает внимание М. Н. Вирилайнен, которая рассматривает вопрос об авторстве обоих летописцев как непринципиальный, не дающий ничего нового для понимания свода. Главным здесь является вопрос не о создателе текста, а о создателе сюжета. Летопись представляет собой единство двух совершенно различных элементов: церковных и фольклорных. На первый взгляд они кажутся существующими отдельно друг от друга, но на самом деле между ними есть глубинная связь, реализуемая на уровне сюжета[323], именно их единство составляет повествовательное пространство летописи. С этой точки зрения, не важно, был ли автором 1070-х гг. Нестор или Никон, потому что в любом случае завершение сюжетной части Повести временных лет хронологически совпадает с отрезком времени между возникновением гипотетического сказания о первоначальном распространении христианства и сводом 1070-х гг.[324] Имя автора текста не даст ничего нового для понимания летописи, здесь нужно спрашивать об авторе сюжета.

Для анализа летописи часто оказывается полезным знание обстоятельств ее происхождения, целей, с которыми она создавалась. Д. С. Лихачев писал, что летописцами были по преимуществу официальные лица: служащие княжеские и владычные, уставщики, псковские посадники, впоследствии – дьяки[325]. В литературе основное внимание уделялось раннему летописанию, когда летописцами были монахи, княжеские служащие, посадники Пскова и Новгорода. О дьяческом летописании, появившемся в XVI–XVII вв., известно значительно меньше. Так как Пискаревский летописец является памятником XVII в., то мы подробнее остановимся именно на дьяческом летописании. Знание социального положения летописца очень важно и для выявления источников, определения их достоверности, и для понимания целей и задач, которые ставил перед собой автор.

Данный текст является ознакомительным фрагментом.

Продолжение на ЛитРес

Тайна авторства «Истории русов»

Тайна авторства «Истории русов» Есть в украинской литературе книга противоречивая, как никакая другая, - «История русов». Если почитать отзывы о ней, можно подумать, что речь идет о совершенно разных произведениях. Ехидный русский публицист-эмигрант Николай Ульянов

10.3. Следы авторства Иоанна Крестителя в сивиллином пророчестве о Христе и в новозаветном Апокалипсисе Святого Иоанна

10.3. Следы авторства Иоанна Крестителя в сивиллином пророчестве о Христе и в новозаветном Апокалипсисе Святого Иоанна Обратимся снова к пророчеству эритрейской Сивиллы о пришествии Христа, то есть, по-видимому, к одному из вариантов первичного текста Апокалипсиса. В нём

10.3. Следы авторства Иоанна Крестителя в Сивиллином пророчестве о Христе и в новозаветном Апокалипсисе Святого Иоанна

10.3. Следы авторства Иоанна Крестителя в Сивиллином пророчестве о Христе и в новозаветном Апокалипсисе Святого Иоанна Обратимся снова к пророчеству Эритрейской Сивиллы о пришествии Христа, то есть, по-видимому, к одному из вариантов первичного текста Апокалипсиса. В нем

Понимание трагедии и разрушенное сознание

Понимание трагедии и разрушенное сознание Впервые опубликовано: Кому будет принадлежать консциентальное оружие в XXI веке? Приложение к журналу «Россия—2010», 1996. В современной общественной жизни, как правило, не учитывают вопросов, связанных с основными элементами

Проблема авторства

Проблема авторства На Западе написаны целые библиотеки книг о том, действительно ли Уильям Шекспир является автором великих творений, изданных под его именем. В Англии и США существуют специальные научные общества, имеющие единственную цель – обосновывать «права»

Памятники средневековой русской литературы

Памятники средневековой русской литературы иг разряду наставнических произведений условно может быть отнесен и знаменитый «Домострой», составленный одним из сподвижников молодого Ивана Грозного, священником по имени Сильвестр, служившим в Благовещенском соборе

Другое понимание

Другое понимание Итак, чтобы понять смысл его царствования, нужно постараться реконструировать внутреннюю логику его размышлений, растянувшихся на все десятилетие, изменившее облик западного мира. Тогда станет виден целостный облик автора — его настоящий автопортрет.

Тайна авторства «Истории русов»

Тайна авторства «Истории русов» Есть в украинской литературе книга противоречивая, как никакая другая, — «История русов». Если почитать отзывы о ней, можно подумать, что речь идет о совершенно разных произведениях. Ехидный русский публицист-эмигрант Николай Ульянов

Понимание трагедии и разрушенное сознание

Понимание трагедии и разрушенное сознание В современной общественной жизни, как правило, не учитывают вопросов, связанных с основными элементами сознания. Например, разрушение в русском сознании понимания и чувствования жизни как трагедии приводит к негативным

1.3. Глобально-формационное понимание истории

1.3. Глобально-формационное понимание истории 1.3.1. Вводные замечания В действительности же, кроме линейно-стадиальной интерпретации унитарно-стадиального подхода к истории, возможна и иная. Выше уже было сказано, что большинство марксистов понимало марксову схему

«Материалистическое понимание человека»

«Материалистическое понимание человека» И «материалистическое» представление об эволюции вовсе не придумано в XIX веке.Философ и поэт Тит Лукреций Кар в I веке до Р. Х. писал, что человек «вышел из земли», и первоначально охотился на диких зверей каменными орудиями, жил в

Понимание чести

Понимание чести В день восстания 14 декабря 1825 года в двадцати шагах от императора находился полковник Булатов. Под мундиром он прятал два заряженных пистолета, из которых намеревался стрелять в Николая I. Но какая-то моральная преграда не позволила ему убить человека,

2.3. Установление авторства источника

2.3. Установление авторства источника Установите авторство источника, основываясь на анализе его содержания и собственных исторических знаниях (без привлечения дополнительной информации). Обоснуйте свой ответ.Документ 1…Учредительное собрание претендовало на то, чтобы

Материалистическое понимание истории

Материалистическое понимание истории Сознание непоследовательности, незавершенности, односторонности старого материализма привело Маркса к убеждению в необходимости «согласовать науку об обществе с материалистическим основанием и перестроить ее соответственно

Файлясуфское понимание Бога

Файлясуфское понимание Бога Исходя из такого представления о материальной вселенной, было естественно заняться систематическим осмыслением всего космоса. В системе Аристотеля метафизика представляла собой то, что человек способен изучить, как только овладеет

Рассказываем, как одни ученые устанавливали авторство знаменитого древнеанглийского эпоса «Беовульф» при помощи статистики, а другие с ними спорили. Ведь научные споры цифровых филологов — это интересно!

авторский текст

«Главная проблема цитат в интернете в том,
что люди сразу верят в их подлинность».
В.И. Ленин

Шекспир или не Шекспир? Гомер или не Гомер? Вопрос авторства тех или иных текстов всегда занимал людей. Чтобы понять, почему, нужно как следует осознать, насколько вообще текстоцентрична наша цивилизация: есть тексты религиозные, сакральные, за «верные» трактовки которых вспыхивали войны; есть тексты юридические, из-за разночтения в которых преступник может уйти от наказания, а невиновный человек пострадать; есть тексты политические, где неаккуратная формулировка может привести к военному или экономическому кризису.

Ладно, а какая разница, кто именно это написал?

Хрестоматийным ответом на этот вопрос можно считать историю с «Константиновым даром». Эта грамота передавала папе Римскому власть над западной частью Римской империи, так что такой документ был весьма на руку папам в их борьбе с императорами.

«Они утверждают, что город Рим — это их собственность, что им принадлежит королевство Сицилии и Неаполя, им принадлежит вся Италия, Галлии и Испании, германцы и британцы, им вообще принадлежит весь Запад, ибо все это содержится в тексте дарственной грамоты».

Неплохая заявка на победу в территориальных притязаниях. Однако Лоренцо Валла в своем «Рассуждении о подложности так называемой дарственной грамоты Константина» показал, что Константин Великий ничего никому не даровал. Его работа положила начало научной атрибуции текстов.

Определение авторства сегодня

Проблема авторства нередко возникает и сейчас. Эти исследования носят как теоретический, так и прикладной характер: например, британские суды принимают в качестве доказательства результат экспертизы по атрибуции текстов.

Идеальные условия для стилистической атрибуции текста таковы:

  1. текст длинный;
  2. число потенциальных авторов невелико (лучше всего, если их два);
  3. у текста нет соавторов или рецензентов, а редакторы и издатели внесли очень мало изменений;
  4. для каждого кандидата в авторы есть много достоверно атрибутированных текстов того же жанра и периода, что и исследуемый текст.

Соблюсти все эти условия получается крайне редко, однако, несмотря на это, можно получить весомые результаты. Компьютерная стилистика работает скорее с тенденциями, нежели с правилами: язык слишком вариативен.

Цифровые методы и компьютерная стилистика

Со времени Валлы наука шагнула далеко вперед. Для атрибуции текста сейчас используются статистические методы. «Системный Блокъ» уже писал про метод дельты Берроуза для определения автора «Сна в красном тереме», про вычисление автора под псевдонимом, про авторство пьес Мольера и про подлинность «Слова о полку Игореве».

Одной из сравнительно недавних работ в этом ключе стало исследование компьютерными методами древнеанглийской поэзии. Авторы исследования придерживались подхода, который получил название «лексомика» (его разрабатывал, в том числе, М. Дроут с коллегами).

Корпус древнеанглийской поэзии относительно небольшой, в нем всего около 350 текстов, 300 из которых короче тысячи слов. По большей части древнеанглийские тексты сохранились в относительно полных копиях, авторство или время создания многих неизвестно или не подтверждено. Сложно также определить их временной или географический контекст.

Один из способов хотя бы частично обойти ограничения — это извлечь как можно больше информации из того, что есть, сфокусировавшись на мелких сегментах текста (фразах, словах и даже паузах), которых довольно много даже в небольшом корпусе. В этой парадигме слово рассматривается как набор букв, ограниченный пробелами (т.е. cyning, kyning, cyninge и cyningas при таком подходе — это разные слова, а не разные варианты/формы одного и того же слова). Ученые признают, что такое определение слова может выглядеть сомнительно с лингвистической точки зрения, однако это существенно упрощает компьютерную обработку текста.

Функциональные n-граммы в работах одного автора, как правило, имеют сходный фонетический профиль. Чтобы определить фонетически различные древнеанглийские поэмы, исследователи рассчитали для каждого текста такой показатель:


где fi,t означает частоту i-той самой распространенной n-граммы в тексте, а fi,с означает частотность этой n-граммы в корпусе. Как видно из формулы, расчет делается для 5 самых распространенных n-грамм. На рисунке 1 показан график зависимости этой метрики от длины текста для триграмм.


Рисунок 1. График зависимости частоты функциональных триграмм (для пяти наиболее распространенных триграмм) от длины текста

Ученые попытались ответить на вопрос: является ли «Беовульф» (кстати, о значении этого имени ученые все еще спорят) цельной работой одного автора или комбинацией нескольких текстов.

Как и в случае с другими значимыми памятниками литературы, анонимность «Беофвульфа» долгое время будоражила исследователей. Ученые много спорили о том, один автор у поэмы или несколько. В XIX веке многие ученые придерживались теории редакционного свода, согласно которой «Беовульф» состоял из нескольких языческих песен (лэ), объединенных христианскими редакторами. Подробнее об этой теории, выдвинутой К. Лахманом применительно к «Песни о нибелунгах», можно почитать у А. Хойслера. Там же есть и критика теории.

К середине XX века у этой точки зрения осталось мало сторонников, большинство склонялись к тому, что «Беовульф» — шедевр одного автора. Однако некоторые ученые считали, что «Беовульфа» составил редактор из двух разных текстов: о герое, сразившем Гренделя, и о герое, сразившем дракона. Тем не менее, в самом недавнем и всеобъемлющем исследовании датировки и авторства «Беовульфа» Л. Нейдорф привел широкий спектр лексических, метрических, стилистических и палеографических свидетельств в поддержку утверждения о том, что сохранившаяся рукопись «Беовульфа» содержит единое творение одного поэта, который сочинил поэму около 700 года.

Аргументы Л. Нейдорфа поддерживаются количественными методами компьютерной лингвистики. Он с коллегами разработал широкий набор параметров, отражающих важные для древнеанглийской поэзии особенности стихосложения, метра и стиля (а точнее, именных сложных слов).

Паузы имеют значение

В первую очередь были проанализированы возникающие в речи смысловые паузы, которые на письме отмечаются запятой или точкой. Поскольку древнеанглийские тексты не имеют пунктуации, знаки препинания в них расставляются редакторами на основе метрических и синтаксических закономерностей.

Исследователи подсчитали отношение внутристрочных и смысловых пауз в обеих частях «Беовульфа» (а также для всего корпуса текстов) по редакции Краппа-Добби. Получилось, что отношения для первой и второй части находятся в пределах 4% друг от друга. Аналогичный анализ «Беовульфа» был проведен и для редакции Ф. Клебера, результат оказался сходным. Это показывает, что редакторское вмешательство не повлияло на стилистические закономерности поэмы.

Чтобы подтвердить результаты анализа смысловых пауз в «Беовульфе», эти результаты сравнили с другими древнеанглийскими поэмами и древнегреческим эпосом.


Рисунок 2a. Отношение междустрочных и смысловых пауз

Известно, что одна из длиннейших древнеанглийских поэм «Книга Бытия» (Genesis) — это работа нескольких авторов, состоящая из более поздней части (Genesis B длиной около 600 строк) и более ранней (Genesis A длиной около 2300 строк), причем Genesis B включен в текст Genesis A. Отношение внутристрочных и смысловых пауз в Genesis A и Genesis B существенно различается, что подтверждает, что анализ смысловых пауз может применяться для различения древнеанглийских текстов одинаковой тематики, но разного авторства. Аналогично, сильно различаются и показатели для поэм «Христос I», «Христос II» и «Христос III», написанных несколькими авторами. А вот показатели для «Елены» и «Юлианы», созданных одним автором (Кюневульфом), очень сходны.

Как и «Беовульф», греческие эпосы «Илиада» и «Одиссея» также вызвали много споров об их авторстве и составе. Традиционно приписываемые одному автору, Гомеру, оба произведения, тем не менее, явно берут начало в давней устной традиции и демонстрируют признаки значительной эволюции в ходе истории их передачи, включая возможное влияние письменных версий. Поскольку у двух гомеровских эпосов есть много общих черт, ученые предположили, что у них также может быть похожий паттерн смысловых пауз.

Однако, как показано на рис. 2а, «Одиссея» имеет более высокую долю смысловых пауз по сравнению с «Илиадой». Это показывает, что композиционная практика двух поэм различна. Если бы по этому параметру две части «Беовульфа» различались так же или сильнее, чем «Илиада» и «Одиссея», это бы свидетельствовало об объединении двух отдельных произведений. Однако данные показывают, что композиционная практика обеих частей «Беовульфа» была одинаковой, по крайней мере, в отношении смысловых пауз.

Метр имеет значение

Следующим этапом стал анализ метра «Беовульфа». Для этого использовалась классификация, предложенная Сиверсом, который делит полустроки на пять основных звуковых паттернов (типы A, B, C, D и E). Были исследованы как общая частота пяти типов, так и их последовательность в «Беовульфе». Оказалось, что уровень использования каждого типа остается линейным по всему тексту, без заметного сдвига в районе строки 2300 (конец первой части поэмы).


Рисунок 2b. График использования различных метров в «Беовульфе»

Наконец, было рассмотрено распределение сложных (составных) существительных по тексту «Беовульфа» и по всему корпусу древнеанглйской поэзии. Сложные существительные — важная черта древнеанглийской поэзии. Такие примеры, как hran-rád «море» (букв. «дорога китов») и bán-hús «тело» (букв. «дом костей») представляют собой типичные кеннинги, которые были широко распространены в древнеанглийской (и древнескандинавской) поэзии. Исследователи составили список сложных существительных на основе словаря Босворта-Толлера, взяв все существительные, состоящие из двух слов и соединенные дефисом (не все из них при этом являются кеннингами).

Сначала были рассмотрены различия между авторами в использовании гапаксов (гапакс — слово, встретившееся в некотором корпусе текстов только один раз). Доля гапаксов в текстах разных авторов сильно разнится, как прекрасно видно на примере «Книги Бытия» (Genesis).

Для сравнения, поэма «Исход» (Exodus), чье создание одним автором никогда не оспаривалось, демонстрирует явную гомогенность в этом отношении.


Рисунок 4b. Гапаксы в «Исходе»

Частота употреблений сложных существительных-гапаксов, т.е. таких, каждое из которых появилось лишь однажды во всем тексте (hapax legomena), в «Беовульфе» линейна по всему тексту, без изменений в области строки 2300. Небольшая нелинейность около строки 1500 соответствует битве Беовульфа с матерью Гренделя. Это место в поэме изобилует сложными словами.


Рисунок 2c. Гапаксы в «Беовульфе»

Авторы исследования полагают, что их результаты, свидетельствующие о стилистической однородности «Беовульфа» хоть не доказывают абсолютно точно, что стихотворение является работой одного человека, но сильно повышают такую вероятность.

А что «Андрей»?

Была ли анонимная поэма «Андрей» написана Кюневульфом? Четыре древнеанглийских поэмы («Елена», «Юлиана», «Христос II» и «Судьбы апостолов») заканчиваются эпилогом, где указано имя «Кюневульф». Однако часть ученых ставят под сомнение, следует ли считать Кюневульфа автором этих произведений, поскольку теоретически возможно, что Кюневульф добавил свои эпилоги к стихотворениям, первоначально сочиненным другими авторами. Группа Л. Нейдорфа постаралась опровергнуть эту точку зрения, продемонстрировав высокую степень стилистической однородности трех из четырех подписанных работ Кюневульфа.

Для этого они сначала сравнили использование гапаксов в десяти поэмах (три контрольных текста, точно не созданных Кюневульфом — «Беовульф», «Исход» и «Христос и сатана»; четыре текста, подписанных Кюневульфом; и три текста, часто ассоциирующихся с Кюневульфом — «Андрей», «Феникс» и «Гутлак В»).


Рисунок 4c. Гапаксы в разных текстах

Три контрольных поэмы, которые, как считается, были написаны разными авторами в разные периоды, демонстрируют различные модели использования сложных слов. Однако стихи, подписанные Кюневульфом, похожи друг на друга (хотя «Христос II» демонстрирует меньшую связь с другими произведениями) и на «Андрея». Этот результат побудил ученых изучить сходство «Андрея» со стихами Кюневульфа на основе более широкого диапазона сложных существительных, помимо гапаксов.

Выбор конкретного сложного существительного формирует важную часть стиля древнеанглийского автора. На рисунке 3 представлено распределение неуникальных сложных существительных в шести поэмах (подписанные Кюневульфом — синие круги, возможное авторство Кюневульфа — красные круги) и в «Беовульфе» (серые). Размер каждого круга показывает количество сложных существительных, совпадающих для соответствующих пар текстов. Размер пунктирных кругов показывает ожидаемое количество сложных существительных, при условии, что их распределение случайно. (Нижний правый круг демонстрирует результат сравнения двух частей «Беовульфа».)


Рисунок 3. Распределение неуникальных сложных существительных в шести поэмах

По этому параметру «Андрей» сильно коррелирует с поэмами Кюневульфа.

Затем исследователи подсчитали частотность 25 самых распространенных триграмм в 50 самых длинных поэмах («Беовульф» был поделен на две части). На полученной дендрограмме видно, что «Андрей» оказался в одном кластере с «Еленой», а также рядом с «Юлианой», «Христом I/II/III» и «Судьбами апостолов». Анализ биграмм и тетраграмм показал сходные результаты.


Рисунок 4. Триграммы в 50 самых длинных поэмах. Номера текстов: «Андрей» (2), «Елена» (5), «Юлиана» (9), «Христос» (3), «Судьбы апостолов» (38), «Беовульф» (первая часть 1, вторая часть 6).

Авторы исследования признают, что их результаты не доказывают полностью, что «Андрей» был написан Кюневульфом, но считают их серьезными аргументами в пользу этой версии.

Критика исследования

Научные эксперименты отличает важное свойство, а именно воспроизводимость. Группа ученых (Plecháč et al.) попыталась воспроизвести это исследование и пришла к выводу, что все четыре главных характеристики, которые были использованы для «количественного профилирования» древнеанглийской поэзии, либо имеют методологически сомнительные параметры (что ведет к неверной интерпретации результатов атрибуции текстов), либо неоптимальное воплощение, либо и то, и другое.

Критики также нашли серьезные ошибки в коде и никак не объясненные пропуски в данных, а одну часть результатов не получилось воспроизвести. Недостатки методологии ставят под вопрос главные выводы исследования.

Кроме того, в современной компьютерной стилометрии большая часть времени тратится не на установление атрибуции, а на тщательную оценку и тестирование методов и характеристик в контролируемых условиях, что необходимо для того, чтобы учесть в выводах различающую способность каждого метода. Есть методы, которые хорошо могут подтверждать свою достоверность на очень разных текстах, что повышает доверие к таким методам. Однако примененный в работе к таковым не относится, а значит, высока вероятность неинформативного, попросту случайного результата.

С самого начала развития кибернетики и вычислительной техники возникла идея автоматического создания, обработки и анализа текстов. Сегодня мы расскажем о том чего удалось добиться на этом пути и какие проблемы остались нерешенными.

Первые текстовые редакторы появились, когда к большим электронно-вычислительным машинам подключили печатные терминалы для ввода-вывода информации. Их сразу приспособили к составлению научно-технических и финансовых отчетов, от половины до двух третей содержания которых повторялись из года в год. Так началась замена печатных машинок компьютерными системами.

После недолгого обучения работе с текстовыми редакторами, писать статьи и книги стали быстрее в среднем в три раза. И это не преувеличение. Ошибки теперь исправляются легко. А это позволило печатать гораздо быстрее и не с таким напряжением. Оказались не нужны ножницы и клей. Без труда любые фрагменты текста несколькими нажатиями клавиш или щелчком «мыши» меняются местами. Более того, стало возможно также просто вставлять в текст куски из других файлов. А сколько времени раньше требовалось, чтобы вписать формулы, иностранные слова, курсив. Если же текст включал значительные фрагменты на иностранном языке, то приходилось пользоваться двумя печатными машинками. Про смену шрифта или его величины вообще не было речи до появления печатных машинок с символами, размещенными на вращающихся барабанах. Но их цена оставляла за бортом большинство пользователей.

Конечно, благодаря памяти компьютеров все тексты сохранялись, что также позволяло экономить время, особенно при вариациях на ту же тему. В конце концов, сейчас любой автор с минимальной подготовкой может приготовить к изданию оригинал-макет своей книги, причем вставить в него все картинки, графики и таблицы в те места и в таком виде, как ему представляется важным.

Большим достижением явилось автоматическое распознавание печатных текстов, введенных в компьютер с помощью сканера. Таким образом, стало возможным получать и редактировать любые ранее напечатанные тексты, и не вводить их руками с клавиатуры.

Следующий шаг был очевиден. А не попытаться ли автоматизировать проверку грамотности? Довольно легко удалось наладить контроль орфографии. Сама процедура проста: слово во всех его формах сравнивается с эталоном. Эталоном служит заранее внесенный 10-мегабайтный словарь. С его помощью удается правильно находить и исправлять почти все орфографические ошибки, что очень удобно, поскольку от опечаток не застрахован никто. Вдобавок можно пополнять эталонный словарь недостающими словами.

В некоторых редакторах, например в Word, программисты пошли даже дальше орфографии и пунктуации. С некоторых пор программа стала оценивать удобочитаемость и благозвучность текста, анализируя его по множеству правил и подчеркивая пользователю те места, где по ее мнению допущены нарушения. Среди этих правил есть вполне очевидные, а есть и довольно загадочные. Скажем, неблагозвучие на стыках слов Word определяет идущими подряд 4-мя или более гласными или согласными буквами. Например, в таких фразах как: "гимнаст спрыгнул" или "лекции у аудитории ". А вот критерии сочетаемости разных слов нигде не поясняются, и можно только догадываться, почему некоторые слова надо менять. Кроме того, программа предупреждает против употребления слов с сильной эмоциональной окраской. Впрочем, многие пользователи быстро понимают, что всерьёз прислушиваться к советам Word-а можно только в вопросах орфографии.

В последнее время появились компьютерные программы, которые претендуют на большее, чем техническая помощь пишущему пользователю.

Программа определяет возможного писателя, опираясь на базу данных авторских текстов, уже внесенных в программу. В результате анализа сообщается имя не одного, а трёх возможных авторов, выстроенных в порядке убывания вероятности.

Посылать можно любые тексты, в том числе свои собственные, что бы посмотреть насколько и к кому из внесенных в базу они близки. Рядом с именами трёх возможных авторов, программа в процентах указывает вероятность написания ими данного текста.

Идеи, положенные в основу «Лингвоанализатора» высказаны довольно давно. Саму задачу называют "проблемой атрибуции текстов". В нее входит кроме авторства, установление жанра, а также времени и места создания произведения. Первые подобные работы проводились в рамках палеографии - области знаний на стыке различных дисциплин, которая изучала древние рукописи, преимущественно с внешней стороны: способ написания, форма букв, особенности материала на котором писали, состав чернил и так далее. Опираясь на эти сведения, в конце 17 века ученый-бенедиктинец Жан Мабильон доказал в споре с иезуитами подлинность старых документов, закрепляющих права собственности его ордена на монастырь Сен-Дени, а старообрядцы Андрей Денисов, Мануил Петров и Леонтий Федосеев уличили в подлоге представителей государственной церкви, выставившей для убеждения верующих в правоте никоновских реформ якобы исправленную митрополитом Феогностом по приказу Ивана Калиты рукопись 12 века. Их аргументы основывались на сравнении почерков, качества чернил спорных рукописей с бесспорными, а также на фактических, логических и хронологических неточностях.

В ХХ веке хорошо известны такие российские подделки, как «Протоколы сионских мудрецов» и «Велесова книга». До сих пор не утихли споры вокруг авторства первых книг «Тихого Дона».

С появлением массовой печати установить в сложном случае автора стало труднее, ведь рукописи часто не сохраняются. Они промежуточный вариант. На первое место вышел анализ внутренних характеристик текста. Первые методики опирались на качественные характеристики литературного стиля, такие как словарный запас, использование терминов, устойчивых выражений и фраз вероятного писателя. Кроме того, естественно, на мировоззрение, широту охвата текста и глубину проработки темы. Несмотря на некоторую субъективность подобного анализа, он никогда не потеряет значения, ведь позволяет увидеть произведение целиком. Попытаться скопировать манеру известного писателя можно, но в случае нового объемного произведения плагиатору необходимо обладать всеми достоинствами автора. Вспомним, что филолог Йозеф Домбровский именно в результате качественного анализа очень быстро пришел к выводу, что чешские рукописи подделал Ганка с друзьями, а Филипп Грейвс установил подложность «Протоколов сионских мудрецов». Как бы не развивались компьютерные методы анализа текста факт, что первые тома эпического «Тихого дона» Михаил Шолохов представил к печати в возрасте двадцати трех лет, будет побуждать специалистов к новым исследованиям проблемы.

Но вместе с развитием качественных методов возникла идея, что существуют некоторые неизменные во времени количественные характеристики письма данного автора.

Эта область знаний получила название статистической стилистики и ведет свое начало с 1851 года, когда де Морган высказал мнение, что длина слов могла бы быть доказательством различия стилей писателей.

В России исследования начались со статьи Николая Морозова, написанной в 1915 году "Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного неизвестного автора". В ней Морозов анализировал употребление предлогов и служебных частиц в текстах русских классиков. Ему показалось, что он нашел у каждого характерные особенности. Эта работа заинтересовала математика академика Андрея Маркова, известного выдающимися работами в области теории чисел и вероятностей. Марков не поленился проверить результаты подсчетов Морозова и убедился, что его цифры, полученные из других произведений тех же авторов, сильно отличаются от морозовских. Он показал, что у Морозова слишком мала база измерений и его результаты статистически необоснованны - по крайней мере, необходимо увеличить выборку.

Стало очевидно, что подобные методы требуют трудоёмкой обработки больших массивов информации, что было невозможно до появления компьютеров и массового представления текстов в цифровом виде.

С ростом производительности компьютеров и количества оцифрованных текстов частотный анализ стал доступен практически каждому желающему. За несколько минут программа может составить частотный словарь автора и проанализировать по заданной схеме текст.

В основе такого подхода лежит гипотеза, что некоторые стилистические авторские инварианты неизменны в большинстве его текстов и обработав бесспорные произведения математически можно с высокой степенью надежности установить авторство спорных текстов.

К сожалению, пока нет надежных подтверждений этой гипотезы, хотя доступность и количество оцифрованных текстов породили множество профессиональных и любительских программ. На этой ниве потрудился и Анатолий Фоменко, известный своими работами в стиле фэнтези по истории и хронологии. Он шел по пути Морозова, подсчитывая в больших фрагментах текстов долю служебных слов, предлогов, союзов и частиц. Обработав по несколько книг 20 русских классиков, Фоменко пришел к выводу, что в течение всего творчества писателя доля служебных слов остаётся одинаковой, при этом различаясь от автора к автору. Здесь его научный метод также уязвим, как и в исторических работах. Достаточно подвергнуть статистическому анализу разные по жанру произведения одного и того же автора - прозу, поэзию, эссеистику - чтобы увидеть, как различаются якобы одинаковые параметры.

Проверить это сможет каждый на той же программе "Лингвоанализатор". Произведения разных жанров одного автора программа относит к разным писателям. Надо отметить, что авторы «Лингвоанализатора» опираются не только на гипотезу Фоменко. Кроме нее используются еще три характеристики текста.

Испытания программы, проведенные в МГУ, показали, что четыре выделенных характеристики позволяют с вероятностью более 50% определить авторов, которые уже занесены в базу.

Любопытно, что, определяя тексты, «Лингвоанализатор» не пытается найти дословные совпадения их с теми, что имеются в его базе данных. Он не анализирует сюжет текста, его фабулу, идеи и содержание как таковое. Можно, например, в известном романе, "голову профессора Доуэля" заменить "рукой академика Иванова", поменять все фамилии и место действия, но "Лингвоанализатор" всё равно, в тройке возможных авторов такого текста, на первое место поставит Александра Беляева.

Работа подобных программ зависит и от длинны анализируемого фрагмента. Определить автора по одному абзацу программа не может - именно потому, что она вычисляет, а не "вспоминает" писателей. Объём текста должен быть больше 10 килобайт.

Есть и другая популярная ветвь компьютерных исследований текстов. Она ведет свое начало с попыток автоматически проанализировать значительные объемы информации, порождаемые современными СМИ. За этими усилиями стоит не только академический интерес, сколько попытки определить степень влияния СМИ на общество. Кроме того, существуют и более частные задачи, например, определение масштабов рекламной компании конкурентов или спектра журналистских статей, компрометирующих кандидата в депутаты.

Программа - коммерческая и поэтому многие заявления создателей ресурса нужно принимать с известной осторожностью. Проект ВААЛ претендует на достоверный контент-анализ, то есть на автоматическое определение эмоциональной и политической окраски текста.

Конечно, потребность в такой программе есть. Сейчас нетрудно получить доступ к цифровым версиям большинства значимых общегосударственных и региональных СМИ. Практически постоянно ведется мониторинг не только газет и журналов, но и влиятельных радио и телевизионных программ. Быстродействия современных компьютеров вполне хватает, чтобы довольно быстро анализировать любые сочетания символов в тексте. Поэтому, создается иллюзия, что нетрудно извлечь из всего этого информационного моря полезную информацию, нужно только поизощреннее составить программу

Надо отдать должное авторам сайта, они понимают, что достоверные методы исследований влияния на целевые группы покоятся на периодических социологических опросах.

Полноценное же проведение контент-анализа проводится в "ручную", то есть подготовленным человеком. Таким человеком становится, например, любой редактор, получающий значительный поток рукописей. Через некоторое время у него появляется почти автоматический навык обнаружения стилистических и логических несообразностей, эмоциональной ангажированности текста и так далее.

Использование компьютерных программ контент-анализа позволяет быстро отобрать в большом общем информационном объеме кандидатов на ручную обработку, которую называют качественным анализом. В отличие от количественного, который позволяет определить частоту появления в тексте определенных характеристик содержания.

Создатели сайта иллюстрируют разность подходов примером из недавней Советской истории. В 50-е годы западные аналитики на основе количественного анализа статей газеты "Правда" обнаружили резкое снижение числа ссылок на Сталина. Отсюда они сделали закономерный вывод, что последователи Сталина стремятся дистанцироваться от него.

Но Советские люди гораздо раньше по изменению характера радиопередач догадывались, что произошло исключительно важное событие. Умение читать «между строк» и есть пример качественного анализа текста.

Целью контент-анализа считается не просто овладение содержанием, но и определение личных характеристик автора текста, его целей, возможного адресата, связей с событиями в общественной жизни.

Для этого исследуется общий словарь материалов и различные частоты появления лингвистических единиц в тексте. Потом выясняются характерные связи между словами, их эмоциональная окраска.

Авторы программы считают, что могут на основе статистических методик автоматически извлекать из массивов текстов содержательную информацию и решать таким образом два основных типа задач:

Первая: выяснить, какое внимание уделяют изучаемые СМИ определенным темам. Если эти газеты рассчитаны на одну аудиторию, то существенное различие в частотах, по мнению авторов программы ВААЛ, позволит (ни много не мало) судить о различиях в политике, проводимой людьми, стоящими за ними.

Вторая: определить основные темы, упоминаемые изданием в зависимости от внешних обстоятельств.

Более того, создатели ВААЛа претендуют на то, что могут эффективно по автоматическому анализу текстов реконструировать картину мира автора: выделять основную тему материала, ее значимые характеристики и в соответствии с накопленным экспертным знанием их интерпретировать.

В качестве реального примера они приводят анализ президентских посланий стране Билла Клинтона в 1994 и 1995 годах. Они содержат от 7 до 10 тысяч слов. Сначала были сформированы категории слов, относящихся к экономике, бюджету страны, образованию, преступности, вопросам семьи, международным делам, социальной помощи. По изменению относительных частот в посланиях 1994 и 1995 годов были сделаны выводы об изменении политики государства в различных областях.

Честно говоря, эти утверждения выглядят достаточно авантюрно, ведь мало-мальски профессиональный политолог и экономист без всякого контент-анализа с гораздо большей достоверностью укажет на изменения в политике. Точно так же специалист гораздо лучше любой программы охарактеризует изучаемую личность, познакомившись с вполне традиционными базами данных, где подробно рассказывается о жизненном пути человека, его образовании, друзьях, интервью, выступлениях в средствах массовой информации и где изложены мнения других экспертов.

Так же без контент-анализа эксперт может установить эмоциональную окраску выступлений политика, оценочные характеристики и симпатии. Политик вынужден пользуется словами, которые достаточно выразительны, иначе они не обладали бы силой убеждения. В этом опять же аналитик может опереться на сложившееся общественное мнение. Если необходимо проследить скрытые побуждения и мотивы, то и тут более логично опираться на анализ «языка движений», мимики, ширины зрачка и так далее.

Использование компьютерного контент-анализа для исследования персоналий выглядит скорее приемом привлечения клиентов при помощи красивой современной техники и чем-то смахивает на распространенное сейчас чародейство, как средство от сглаза, порчи и снятия венца безбрачия. Эксперт, извлекая информацию из клиента якобы для компьютерной программы - варит своеобразную кашу из топора, где топор - это контент-анализ, а роль полезных продуктов играют традиционные методики и профессиональные знания. Кстати, также поступают гадалки и колдуны.

Реальные преимущества цифровых технологий проявляются при анализе действительно массивов информации, когда, пусть с серьезным количеством ошибок, необходимо отобрать разумное число документов для тщательного качественного исследования. Здесь контент-анализ выполняет функции хорошей поисковой машины, совершая вспомогательную рутинную работу.

Таким образом, благодаря компьютерам сейчас удается упростить или сделать ненужными многие классические операции обработки и подготовки информации. При этом пока количественные методы анализа текстов играют существенно подчиненную и подготовительную роль для последующей вдумчивой работы специалистов, оснащенных проверенными методиками качественного исследования.

Все ссылки в тексте программ ведут на страницы лиц и организаций, не связанных с радио "Свобода"; редакция не несет ответственности за содержание этих страниц.

Читайте также: