
Полная версия:
Пробуждение историка-профессионала (из дневниковых записей автора)
На завершающем уровне компьютерного контент-анализа частотный список слов текста может быть трансформирован в новый перечень, представляющий собой список понятийных (предметных) блоков, внутри которых в алфавитном порядке размещаются слова из предыдущего перечня с сохранением указанной их частоты и веса в тексте. При этом каждый блок получает свои информационные характеристики, представляющие сумму всех значений слов, вошедших в смысловое поле одного предмета. Эта возможность реализуется путем задействования в алгоритме обработки слов идеографического (семантического) словаря.
Все неологизмы, найденные в тексте, размещаются в отдельном блоке. Это необходимо для последующего ручного размещения слов в ту или иную предметную область. Если вес слов в тексте незначительный, то система может предложить пользователю удалить ненужные слова из перечня(очистить), что само по себе может быть обозначено в настройках программ.
Отметим, что возможность создания списка понятийного блока текста на основе семантического анализа позволяет уже на начальном уровне избежать интерпретационной стадии исследования ошибок, неизбежных в результате таких явлений, как ложная корреляция, субъективность исследователя в выборе признаков анализа и др.
Правильное использование компьютерного контент-анализа предполагает определение значимости частотного распределения одного признака относительно частотного распределения другого признака, что возможно реализовать только в рамках искусственно созданного понятийного пространства. Поэтому в качестве третьего объекта сопоставления в частотном распределении требуется более общее слово (объект, доминанта). Проведение полного компьютерного контентанализа пока невозможно. Поэтому на данном этапе следует руководствоваться следующими правилами определения смысловых связей слов в тексте, находящихся в одном понятийном пространстве:
изучаемые слова-понятия находятся в одном понятийном пространстве;
частотное проявление признаков в тексте достаточно велико;
во всех случаях анализа связи слов искать возможность парной взаимосвязи слов в остальных понятийных блоках текста.
Использования компьютерного контент-анализа в историческом исследовании
Процедура применения контент-анализа в качественно-количественном анализе текста нарративных источников, как видно из вышесказанного, усложнена из-за необходимости скрупулезного пересчета слов в тексте для их последующей статистической обработки. Поэтому долгое время контент-аналитические исследования проводились лишь социологами и политологами. Историки, при всем их трудолюбии, осуществляя анализ неструктурированных источников массового характера, пользовались лишь приемами описательного (выборочного) изучения, что само по себе приводило работу исследователей к выборочному, порой необоснованному, цитированию письменных событий-фактов. Однако в связи с введением в начале 1990-х гг. в исследовательскую практику контент-анализа компьютерного инструментария историк открыл для себя новые возможности изучения прошлого посредством раскрытия ранее неизвестного ему потенциала нарративных источников.
Стимулирующую роль в компьютерной реализации контент-анализа сыграли архивы машиночитаемых данных в виде отдельных документальных коллекций, созданных на кафедре исторической информатики МГУ им. М. В. Ломоносова, в лаборатории исторической и политической информатики при Пермском государственном национальном исследовательском университете, а также электронных библиотек научно-исследовательских работ исторического факультета БГУ.
Начавшийся компьютерный период контент-анализа позволил историку освободиться от таких рутинных, трудоемких операций, как составление списка всех слов текста с указанием их частот, поиск ключевых слов и выдача их на печать вместе с их окружением и др. Историку остается лишь подготовить цифровой вариант письменного источника и разместить его в функциональном массиве компьютерной системы. Вся остальная работа по проведению процедурных приемов контент-анализа осуществляется автоматически алгоритмами обработки текста.
Обратимся к ряду примеров и прежде всего к работе российского исследователя Р. В. Топки, осуществившей содержательный анализ 47 крестьянских наказов от южноукраинских губерний в I Государственную думу. Пример примечателен тем, что целью исследования было выяснение значения политического влияния этих наказов на крестьянское общественное сознание. В результате проведенной работы Р. В. Топке удалось на основании 461 признака выделить 34 смысловые категории с частотой встречаемости содержательных признаков от 4 до 24. Исследование показало четкое разделение категорий на две группы: крестьянских нужд и отношения крестьян к проводимой политике. Это выделение в структуре крестьянского сознания, по мнению Р. В. Топки, означало определенную обособленность политической проблематики от вопросов обыденной крестьянской жизни.
Интересно, что первоначально проведенный Р. П. Топкой семантический (ручной) контент-анализ не позволил найти ответ на вопрос о том, насколько политические требования, зафиксированные в наказах, были присущи крестьянству. Поэтому для решения задачи и был проведен компьютерный контент-анализ с использованием программной среды ТАСТ. В этой среде исследователь вычислила показатель «z-score», в дальнейшем используемый для определения силы связи дескрипторов (значимых слов), составляющих основные категории текста, со словами контекста. Компьютерный контент-анализ позволил Р. П. Топке определить, что наиболее значимыми политическими категориями для крестьян являлись требования амнистии и отмены смертной казни. Также было определено, что на составление наказов действительно влиял политический фактор, как опосредованно (публикация в периодической печати ответа Думы на тронную речь), так и прямо (агитационная литература, в частности, социал-демократов, из которой восприняты основные политические требования), что с сохранением местоположения категорий в тексте и насыщенности указывает на сильную зависимость между источником такого влияния и крестьянским наказом.
В следующем примере рассмотрен опыт компьютерного контент-аналитического исследования, проведенного московским историком А. Л. Кобринским. В качестве источника контент-анализа он использовал записи дебатов депутатов Государственной думы первого созыва. Основной причиной обращения к контент-анализу как методу изучения текста была специфика источников (большое количество единиц анализа и слабая структурированность элементов текста), не допускающая использования новых методик наряду с традиционными.
Для проведения содержательного анализа стенографических отчетов заседаний Государственной думы А. Л. Кобринский составил машиночитаемый корпус данных, представляющий единый файл и получивший условное название Great. Посредством утилиты MAKBAS, входящей в программный пакет ТАСТ, историком была создана база данных, т. е. файл с расширением. tdb (textual database). Совокупность категорий, определенных для текстовой базы данных, стала персональной базой данных – файл с расширением .pdb (personal database). Общий размер файла Great, преобразованного при помощи утилиты MAKBAS, составил 143 814 слов (tokens), словаря – 17 902 различающихся (оригинальных) слов (number of types)
В своей работе А. Л. Кобринский решал задачу – выявить, какой путь развития Российской Федерации как государства виделся депутатам Государственной Думы как наиболее оптимальный и приемлемый в сложившихся политических условиях (федеративный, унитарный, конфедеративный), а также на каких принципах должна формироваться федерация в результате законотворческой работы Думы (конституционных, договорных, конституционно-договорных).
Для решения поставленной задачи А. Л. Кобринский отобрал индикаторы смысловых единиц текста, отражающие сущность поставленных вопросов. На их основе были сформированы категории. К решению первой части задачи были выделены следующие категории: федеративность, унитарность, конфедеративность. Для решения второй части задачи выделены две основные категории – конституционная и договорная. Анализ отобранных категорий текста А. Л. Кобринский осуществил в два этапа. Первый этап заключался в изучении динамики выявления категориального аппарата текста. Это позволило исследователю выявить ряд контекстуальных особенностей, определивших связь категорий с событиями, рассматриваемыми в ходе дебатов. Автор писал: «…Во-первых, здесь присутствует цикличность. С началом работы законодателей наблюдается очевидная вспышка определенного интереса депутатов к изучаемой теме. Примечательно, что повышенное внимание к теме унитаризма приходится как раз на момент обострения чеченского кризиса. Однако простое сопоставление таблиц двух категорий —„Федеративность“ и „Унитарность“ позволяет сделать вывод, что даже в момент начинавшихся боевых действий парламентарии гораздо больше говорили о федеративности, чем об унитаризме как таковом. Во-вторых, обращает на себя внимание тот факт, что в любом временном интервале категория „Федеративность“ значительно (в два и более раза) опережает по частоте встречаемости две другие категории. В-третьих, динамика появления категории „Федеративность“ говорит о том, что на протяжении двух лет работы Государственной Думы законодатели обращались к терминологии, связанной с федеративным путем развития, постоянно, хотя и с разной интенсивностью. Категория „Конфедеративность“ появлялась лишь дважды, при этом терминология, связанная с этой категорией, присутствовала всего лишь в нескольких выступлениях. Появление категории „Унитарность“ отмечено несколько чаще, но ее интенсивность сравнительно невелика…».
Второй этап заключался в выявлении силы связи категорий с другими терминами и изучении контекста, в котором отмечена их встречаемость. Для измерения силы связи использовался специальный коэффициент – z-score. При определении величины коэффициента z основное значение имело соотношение частоты встречаемости рассматриваемого термина (индикатора) в смысловом поле категории с общей частотой встречаемости этого термина в исследуемом тексте (в корпусе).
Программа «ТАСТ» позволила А. Л. Кобринскому произвести автоматический подсчет, в результате которого исследователь получил значения коэффициента z-score. Опираясь на них, он смог выявить, с какими терминами существовала наиболее сильная и устойчивая связь основных категорий и от каких смысловых единиц интересующая его категория находится в наименьшей зависимости. Это, в свою очередь, позволило провести терминологическую ранжировку семантического поля данной категории.
Проведенный компьютерный контент-анализ текстов депутатских дебатов ГД РФ привел А. Л. Кобринского к следующим выводам: «Проведенный анализ показал, что депутаты придавали большое значение укреплению процесса федерализации страны, для чего проводилась разработка ряда федеральных законов. Дискуссии, развернувшиеся в ходе обсуждения последних, легли в основу контент-анализа материалов по указанной проблеме. Его результаты позволяют однозначно утверждать, что Дума 1993—1995 гг. считала возможным сохранение государственного единства и территориальной целостности только в условиях федеративного государства. Два других теоретически возможных пути развития Дума не считала сколь-нибудь приемлемыми для России в новых политических условиях. При изучении дебатов пленарных заседаний ГД ФС РФ первого созыва выделились две принципиально различные позиции видения парламентариями роли договоров, заключаемых между центром и субъектами РФ, о разграничении полномочий и предметов ведения. Компьютеризованный анализ дебатов подтвердил фактическое наличие в Думе двух групп, представлявших две точки зрения.
Анализ динамики дебатов, частоты встречаемости категорий и их контекста позволили выявить существование нескольких этапов, на которых договорным отношениям придавалась разная степень значимости. Важным шагом в работе Думы было смещение акцентов в этой проблеме. К концу деятельности Думы все больший и больший верх брала позиция, согласно которой была необходима законодательная работа по приведению в соответствие как уже заключенных договоров, так и договоров, находящихся в стадии подготовки новой Конституции Российской Федерации.
А. Л. Кобринский, воспользовавшись автоматическим составлением частотного перечня встречаемости категорий, динамики их появления в процессе работы Думы, а также сопоставлением перечня данных с контекстом (z-score), смог конкретизировать и углубить знание проблемы, создать доказательную базу результатов своего исследования, что в полной мере отвечало принципу объективности.
В известных примерах нетрудно было заметить, что основной процедурой реализации компьютерного контент-анализа был порядок соотнесения словоформ текста с категориями. Определение единиц контент-анализа проводится путем компьютерного приписывания группе связанных словоформ определенного (общего) смысла. Составленные таким образом группы слов являются категориями контент-анализа, а их количество составляет ранговую группировку ключевых слов текста нарративных источников.
В основе подобного подхода к категоризации лежит, по мнению исследователя В. И. Тихонова, убеждение в том, что категории выражают отдельные стороны исторического явления. Если это явление массовое и устойчивое, оно найдет отражение во многих документах – в ограниченном количестве контекстных словосочетаний, которые можно зафиксировать.
Причисление ключевых слов текста к общей тематической (смысловой, семантической) группе осуществляется за счет синхронизации работы программной среды с заданным словарем, представляющим собой семантический (идеографический) перечень, в котором в многоступенчатых классах слов представлена система общеупотребительной лексики. Семантический словарь может быть составлен самим исследователем (авторская категоризация), либо уже задействован в готовых решениях (Семантический словарь под общей ред. Н. Ю. Шведовой).
Наиболее известной системой с заданным словарем категорий является GENERAL INQUIRER, разработанная в Гарвардском университете (США). Словарь этой системы классифицирует 4 206 входных слов на 182 категории, преимущественно социологического и психологического характера. Заданный словарь не является неизменяемым массивом слов. На самом деле он представлен четырьмя меньшими словарями, составляющими его: Harvard IV, словарем значений Лассуэлла, словарем новых категорий и маркерным словарем (грамматическими правилами, используемыми для снятия смысловой неопределенности слов текста).
Другие системы с фиксированным словарем имеют более специализированное значение. К ним относятся:
система ЛЕКТА, ориентированная на лексико-семантический анализ больших текстовых массивов;
система ВААЛ, используемая при оценивании письменных документов на возможность эмоционального воздействия фонетической структуры текстов и отдельных слов на подсознание человека;
система CAMEO, созданная для кодирования и анализа политического дискурса, включающая 20 главных событийных категорий и 200 субкатегорий; кроме этого в системе предусмотрена обширная база для кодирования данных о политиках (Ф.И.О., даты);
другие системы (Qualrus, Tropes, LEXIMANCER, TABARI).
Среди историков наиболее известна ныне система TextAnalyst 2.0. Она ориентирована на предварительный анализ текста с автоматическим формированием семантической нейронной сети, фиксацией в тексте ключевых слов, их категоризацией, индексацией, а также кластеризацией информации, используемой при последующем изучении текста. Успех данной системы связан с возможностью проведения нейросетевого подхода в обработке информации нарративного источника.
Семантическую нейронную сеть, получаемую при работе системы TextAnalyst, можно понимать, как сеть динамически связанных между собой слов текста (нейронов), выполняющих логические операции дизъюнкции (разобщения), конъюнкции (связи) и инверсии (замещения). Взаимодействующие нейроны (нейронная сеть) являются элементарными понятиями обрабатываемого смысла текста. Так как связи между нейронами представляют собой элементарные отношения между понятиями, то такую сеть в большинстве случаях называют семантической нейронной сетью. Основной целью анализа нейронной сети является извлечение смыслового слоя текста, который, как правило, представлен в виде синхронизированного линейного дерева. В получаемой форме нейроны соединяются в виде множества пересекающихся деревьев, корни которых обращены в сторону рецепторов, а вершины – в сторону эффекторов.
Нейронные сети приспособлены обрабатывать только информацию, представленную числовыми векторами. Поэтому для их применения в обработке текста на естественном языке его необходимо представлять в векторном виде, что вызывает необходимость создания формальной модели. Достоинством такой модели является возможность учитывать:
морфологию, чтобы все формы одного слова соответствовали одной словоформе;
синонимию и омонимию, чтобы слова-синонимы обозначались одним термином словаря, а слова-омонимы приводились к общей контекстуальной форме;
наличие устойчивых словосочетаний, когда в качестве термина выступает не отдельное слово, а несколько связанных слов, образующих единое понятие.
В числе недостатков модели выделим следующие:
при отсутствии простейшей дополнительной обработки, например, морфологического анализа, существенно снижается качество лексемного анализа, поскольку различные формы одного слова считаются разными терминами;
размерность векторов зависит от общего количества терминов в обучающей выборке текстов, что в реальности приводит к необходимости разрабатывать альтернативные структуры данных, отличающиеся от векторов;
словарь терминов может не охватывать всех документов, подлежащих классификации, так что анализируемые документы могут содержать значимые термины, не вошедшие в обучающую выборку, что отрицательно сказывается на адекватности модели.
Основная сложность обработки нарративных исторических источников методами автоматизированного контент-анализа связана с тем, что он делает упор на лингвистическую сторону анализа. При таком анализе в интерпретации результатов исследователь не может адекватно отразить временные и пространственные аспекты, которые прямо или косвенно присутствуют в содержании исторических источников. Кроме того, исследователю, прибегающему к системам автоматического контент-анализа, очень важно учитывать, что при использовании машинных словарей трудно учесть изменение смыслового содержания термина в зависимости от его контекста.
Автоматизация процесса проведения процедур контент-аналитического исследования несомненно увеличивает эффективность работы историка в изучении письменных текстов благодаря эргономичности, а также математической верификации результатов исследования.
При наличии многочисленных сред компьютерного контентанализа историку все же приходится использовать только те из них, которые позволяют проводить категоризацию ключевых слов текста путем построения семантических и нейронных сетей.
КОМПЬЮТЕРНЫЕ СИСТЕМЫ ПСИХОЛИНГВИСТИЧЕСКОГО АНАЛИЗА ИСТОРИЧЕСКОГО ТЕКСТА
Компьютерный психолингвистический анализ письменных текстов определен автоматизацией процесса реализации дистантных форм изучения психологических черт личности (социальных групп). Это психологический контент-анализ, психотерапевтический анализ, психосемантический анализ и др. Особенностью названных форм является анализ текста (письменно зафиксированного) в качестве источника изучения психологии человека.
При изучении личности посредством анализа текста исследователю недостаточно использовать только лишь приемы психологии. Текст как продукт языковой реальности требует от исследователя использования тех же методов лингвистической (дискурсной) обработки. Поэтому в данной работе вместо психоаналитического изучения текста будет использоваться понятие «психолингвистический анализ».
Руководствуясь мнениями известных психологов, отмечающих нюансы использования текста в качестве источника психолингвистических исследований, остановимся на наиболее важных для историка моментах. Это прежде всего вопрос о технике анализа речевых высказываний, разработанной основоположником структурного психоанализа Ж. Лаканом. В ее основу была заложена идея о соотношении реального, воображаемого и символического. Под реальным Ж. Лакан подразумевал то объективное, что обуславливает передачу социальных кодов людей друг другу, под воображаемым – роль «Я», а под символическим – функцию «сверх-Я».
Реальное у Ж. Лакана приравнено к фрейдовской категории потребности, на уровне которой возникает субъект потребности. На его основе формируется воображаемое (человеческая субъективность, субъект желания). Объектом анализа в тексте являются образы (символы), получаемые путем противостояния бессознательного символического сознательному воображаемому. Анализ нужных для исследователя образов происходит при выделении из текста идеальных оценок, адресованных личностью к какому-то субъекту, т. е. при наличии в тексте упоминаний о субъекте, семиотика которого индивидуальна у каждого человека. Такими субъектами, как правило, являются художественные образы (литературный герой, киногерой, предметы искусства и др.).
Ж. Лакан использовал идеи Ф. де Соссюра о дихотомии означаемого и означающего, противопоставив соссюровской идее знака как целого, объединяющего понятие (означаемое) и акустический образ (означающее), концепцию разрыва между ними, обособления означающего. Задача структурного психоанализа – исследовать текст на уровне означающего, совпадающего со структурой бессознательного. Принципиальным утверждением структурного психоанализа при этом является определение чистого означающего как бессознательного символа, требующего психоаналитической интерпретации. Индикаторами символов бессознательного в тексте по Лакану являются метафора и метонимия.
Другим подходом психолингвистического анализа текста является концепция психологического контент-анализа Ллойд Демоса, привлекаемая в практику научного исследования групповых фантазий социальных групп. Частью этого понятия является предположение, что основная масса публичных выступлений, которые постоянно анализируются психоисториками, имеет защитный характер, и функция их – обмануть рассудок, заставить его принять рационалистические доводы, под которыми на самом деле скрывается разделяемое членами группы фантазийное послание.
Под групповыми фантазиями подразумеваются латентные страхи и желания, являющиеся основным источником исследования групповых процессов в современной психоистории. Важность этого источника психоисторики объясняют тем, что фантазии как форма психологической защиты могут служить индикатором внутригрупповых отношений, посредством которых определяются структурный и функциональный уровни группы, а также возможности их развития.
Фантазийное содержание документа, по мнению Демоса, составляет, как правило, более одного процента от общего текста, и вычленить его можно посредством следующих восьми правил фиксаций элементов текста:
Всех метафор (метонимий) и сравнений независимо от контекста;
Телесных образов, слов, выражающих сильные чувства, яркие эмоциональные состояния (слова «убить», «смерть», «любовь», «ненависть» и др.), явно представляющие собой важные эмоциональные сообщения;
Всех повторяющихся, необычных или неуместных слов;
Всех слов и выражений явного символического характера (атрибуты власти, религии);
Всех отрицаний, являющихся составной частью защитной, а не фантазийной структуры (подсознание не знает отрицаний);
Исключений всех субъектов и объектов;
Всех открытых реакций группы: смеха, моментов спада напряжения на собраниях и заседаниях, обмолвок, слов «в сторону», напряженного молчания и т. д., везде, где это только возможно;
Обращения внимания на длительное отсутствие образов.
К компонентам психологического контент-анализа речей, интервью и прочих спонтанных вербальных материалов относят мотивационные, когнитивные, стилевые личностные качества и механизмы защиты, которые, в свою очередь, рассматриваются в различных психологических теориях. Согласно М. Дж. Херманн и Д. Дж. Уинтеру, извлечение из текста этих компонентов происходит на основе компьютерной адаптации исходных систем подсчета слов в тексте, направленных на анализ глагольных фраз, а также категоризацию единиц счета в тексте.
К мотивационному компоненту личностных переменных относят цели и действия, направленные на достижение конечной потребности, а именно победы в чем-либо, аффилиции (позитивного поведения), захвата власти (престижа, репутации).
Переменные, рассчитываемые М. Херманн, отражают некоторые из наиболее широко изученных убеждений и измерений когнитивного и межличностного стилей, что отмечено в теориях личности Келли, Ротеера, Роджерса и др. К их числу относят убеждения национализма, контроля над событиями, уверенности в себе, а также такие когнитивные межличностные стили, как концептуальная сложность, недоверие, инструментальный акцент.