Студент НГУ исследовал известные произведения литературы
Студент НГУ исследовал известные произведения литературы
Степан Полохин, обучающийся на первом курсе магистратуры Факультета информационных технологий, исследовал проблему атрибуции (приписывания) романов «12 стульев» и «Золотой теленок» методами статистического анализа данных.
Эта проблема начала обсуждаться еще в 2013 году. По мнению части исследователей, реальным автором произведений является Михаил Булгаков. Целью работы было изучить возможность подлога в авторстве произведений «12 стульев» и «Золотой теленок» на основе теоретико-информационного подхода с использованием методов сжатия данных.
Согласно работе, в последние десятилетия при решении проблемы атрибуции литературных произведений наряду с традиционными литературоведческими методами стали применять и подходы таких внешне далеких дисциплин, как математическая статистика, теория случайных процессов, распознавание образов, а также ряд других разделов науки, относимых в настоящее время к искусственному интеллекту.
В результате такого подхода Степан Полохин выяснил, что наиболее вероятными авторами произведений являются Ильф и Петров, однако полученные результаты показывают, что влияние Булгакова на эти произведение довольно существенное, и, кроме того, наблюдается заметное сходство со стилем Паустовского.
– Идея исследования возникла после прочтения небольшого отрывка статьи Ирины Амлински «12 стульев от Михаила Булгакова». В ней автор указывала причины, по которым следует считать, что произведение написано не Ильфом и Петровым. Эти доводы были весьма расплывчатыми, субъективными, поэтому захотелось решить вопрос авторства, который она подняла, несколько более формально. Нередко попадались работы, в которых исследовалась схожая проблема (атрибуция литературы), однако в подавляющем большинстве случаев задача решалась методами машинного обучения, в то время как метод, на котором построено моё исследование, был наиболее редким и мало проработанным. Работать над темой было несколько затруднительно: потребовалось собрать большую базу произведений советских писателей (для тестирования алгоритма), проделать огромную работу для поиска способа выбора оптимальных параметров алгоритма, провести немалое количество запусков для поиска оптимальных параметров, – объяснил специфику работы Степан Полохин.
По мнению автора работы, такой подход можно использовать не только для определения автора произведения, но и для решения исследовательских задач, требующих классификации текстов.
Источник: пресс-служба НГУ, фото из открытых источников
Комментарии