Я твой дом труба Шалтай
В середине февраля ТГ-сообщество Татарстана взбудоражила новость о деанонимизации канала «Шалтай-Бабай», который стал известен своими критическими высказываниями в адрес руководства региона. Авторство канала приписали Руслану Айсину, активно занимающемуся национальной тематикой.
В некоторый момент градус накала вокруг общественного деятеля, отвергавшего свою связь с ТГ-каналом, достиг очень высоких отметок. Поэтому мы решили проверить гипотезу об авторстве канала «Шалтай-Бабай». Для этого нами были собраны собственно массивы текстов ТГ-канала, статьи Руслана Айсина на «Бизнес Онлайн», опубликованные в промежутке с апреля 2017 года до середины января 2018 года, а также собраны записи из Твиттера общественного деятеля за тот же самый промежуток. Указанные временные рамки объясняются следующим образом. Стартовая точка – 26 апреля. Это не только день рождения Габдуллы Тукая, но и дата создания «Шалтай-Бабая». А начало января 2018 года - это время, когда кампания по деанонимизации политических ТГ-каналов Татарстана, видимо, только подготавливалась руководством республики. Во всяком случае, известное заявление главы Аппарата Президента РТ Асгата Сафарова пришлось только на конец первого месяца 2к18-го.
26 апреля - дата создания канала "Шалтай-Бабай"
В рамках этого материала мы решили отказаться от использования простого облака слов, где рассматриваются отдельные слова, и применить более сложные методы. В частности, мы использовали латентно-семантический анализ, который помогает определить, насколько схожи между собой тексты. Мы также попытались высчитать коэффициент лексического разнообразия текстов и определить важность представленных в корпусе текстов ключевых слов (keyness). Не обошли мы стороной и такой привычный метод визуализации данных, как облако слов. Только в рамках этого материала мы решили представить более модифицированный тип – облако словосочетаний.
Результаты

Начнем с последнего – самого простого и наиболее понятного. Правда, сделаем оговорку. В облаке словосочетаний из Твиттера Руслана Айсина мы решили не ориентироваться на частоту слов, так как в процессе обработки массива данных образовалось много «шума» - сочетаний английских букв, которые символизируют ссылки. Вычищать их руками – занятие крайне утомительное, а потому мы решили ориентироваться на z-оценку, которая показывает, насколько велика вероятность отклонить гипотезу о том, что в массиве сообщений из Твиттера такое сочетание указанных двух слов встретить НЕ удастся (посмотреть таблицы словосочетаний с результатами соответствующих статистических текстов можно здесь и здесь).
Из представленных облаков устойчивых словосочетаний видно, что в статьях на «Бизнес Онлайн» и на «Шалтай-Бабае» часто встречаются словосочетания, посвящённые национальной тематике (конгресс татар, всемирный конгресс, милли шура, вице-премьер (скорее всего, Василь Шайхразиев, возглавляющий Милли Шура), языковая школа, национальное движение и так далее). Интересно, что в текстах TГ-канала часто упоминается интернет-издание «Бизнес Онлайн», где публикуются статьи Руслана Айсина.

Одним из наиболее примечательных моментов при рассмотрении всех облаков словосочетаний является коллокация «сей пора».
Посмотрев на поверхностные характеристики корпуса текстов, можем приступить к более сложным вещам. Обратимся к анализу того, какие ключевые слова являются важными в рамках корпуса текстов в «Бизнес Онлайн» и на канале «Шалтай-Бабай». Это явление выражается понятием keyness. Здесь требуется небольшое пояснение, чтобы уловить смысл визуализации ниже. Показатель keyness – это не просто ключевые слова, которые определяются посредством определения частоты слов в текстах. Речь идёт о сравнении важности тех или иных слов в двух корпусах текстов, о том, насколько сильно они определяют характер и тематику текстов.

Ситуация здесь следующая.
Показатель keyness в Шалтай-Бабае и статьях на Бизнес-Онлайн
Записи в Telegram-канале "Шалтай-Бабай" носят более персонализированный и политизированный характер (если можно так выразиться). Минниханов, Метшин, Шаймиев, Аппарат Президента, Мэрия и другие слова – эта тематика отличает анонимный канал. Ключевой характер для статей Руслана Айсина в «Бизнес Онлайн» представляют менее персонализированные и более абстрактные слова (Всемирный конгресс татар, исторический, демократический, нация, общество, эпоха и так далее).

Впрочем, такой вывод может показаться очевидным. Но сама суть определения показателя keyness заключается в статистическом подтверждении либо опровержении имеющегося восприятия.
Следующий параметр, который нас интересует, - это лексическое разнообразие. Соответствующий коэффициент подсчитан применительно к двум корпусам документов – публикациям «Шалтая» и материалам в «Бизнес Онлайн». Этот показатель демонстрирует то, насколько сложносоставными и многообразными являются идеи, выраженные в источниках. Не вдаваясь в методологические подробности, отметим, что коэффициент лексического разнообразия представляет собой соотношение количества уникальных слов в документе к общему числу использованных слов. Оба корпуса текстов не отличаются высокими показателями лексического разнообразия. Наверное, из этого показателя делать далеко идущие выводы нельзя. Но в качестве определённой иллюстрации текстовых корпусов мы это здесь оставим.
Лексическое разнообразие
Наконец, в качестве вишенки на пироге текстового анализа – латентный семантический анализ. Здесь мы снова обращаемся к трём корпусам текстов – Твиттеру Руслана Айсина, статьям на «Бизнес-Онлайн» и каналу «Шалтай-Бабай». Все три корпуса примерно равноудалены друг от друга, но сообщения в Твиттере и записи в канале находятся выше нуля по оси Y, причём расположены они рядом. При построении трёхмерного семантического поля близость записей в Твиттере и Телеграме становится чуть более очевидной.
Итоги

Делать вывод о том, является ли Руслан Айсин автором телеграм-канала «Шалтай-Бабай», мы не будем. Оставим это на суд читателей. Тематика анонимного и неанонимного источника по некоторым показателям имеет некоторые общие черты, но ожидать их тотального совпадения в принципе нельзя. Этот текст - не более чем сухой анализ, результаты которого может воспроизвести любой при должном для этого желании.
Использованные для анализа текстов коды и соответствующие корпусы текстов вместе с иллюстрациями представлены здесь.
Айдар Зиннатуллин
кандидат политических наук