Применение метода тематического моделирования для оценки образа города в социальных сетях

Connect-Universum-Junior
Муштак О.И., кафедра информационных систем и технологий, Уральский федеральный университет, Институт фундаментального образования.

На сегодняшний день социальные сети являются чрезвычайно важным элементом повседневной жизни современного человека. Анализ информации, находящейся в социальных сетях в открытом доступе является самодостаточной сферой исследований в области компьютерных наук, социологии, маркетинга и урбанистки. В данной работе рассматривается возможность применения методов тематического моделирования для оценки образа города на основе анализа открытой информации из социальных сетей на примере города Екатеринбург.

Сегодня большая часть коммерческих компаний осознает важность представления бренда в социальных сетях, от грамотного ведения тематических страниц зависит образ тех или иных товаров или услуг, представляемых фирмой. Можно предположить, что данный подход может быть применим и к брендированию города. Для оценки образа города, предоставляемого в социальных сетях, применяются методы машинного обучения и анализа данных, которые позволяют обработать большие массивы данных и вывести определенные статистические закономерности, интерпретация которых позволит выявить специфичные тому или иному городскому пространству черты, а также общественные настроения на определенной территории. Эта информация может быть полезна как представителям бизнеса – для уточнения и дополнения образа целевой аудитории при помощи анализа территориальных аспектов, так и органам государственной власти – для поиска наиболее проблемных областей, волнующих городское население, а также тех достопримечательностей, событий и персон, которые жители населенного пункта считают визитной карточкой города.

В данной работе описывается пример использования методов тематического моделирования и анализа тональности текста для оценки образа города. Для этой цели была собрана обучающая выборка на основе контента за 2018 год самых популярных тематических групп VK, посвящённых Екатеринбургу. Данные группы содержат смешанный контент – новости из жизни города, любительские и профессиональные фотографии с городскими пейзажами. Выбор наиболее подходящей для анализа социальной сети был сделан на основании того факта, что на сегодняшний день VK является самой популярной социальной сетью на территории России, общее число зарегистрированных аккаунтов превышает 500 миллионов, ежемесячная аудитория VK составляет приблизительно 100 миллионов пользователей.

В качестве метода анализа текста был выбран подход тематического моделирования. Тематическое моделирования отличается от так называемой «жесткой кластеризации» тем, что один и тот же текст (в данном случае пост в социальной сети) может относиться сразу к нескольким категориям, метод используется для решения таких задач как, например, тематический поиск документов, фильтрация спама, кластеризация научных статей, поиск генетических паттернов в различных популяциях, анализ новостных потоков.

Были проведены следующие этапы работ:
1) Сбор информации
2) Чистка и нормализация постов
3) Построение тематической модели

На первом этапе собрано около 5000 текстов записей, а также информация о количестве отметок «Мне нравится» на каждом из постов. На втором этапе тексты были очищены от знаков препинания, слова в текстах, в свою очередь, были приведены к начальной форме. Далее была проведена векторизация текста с использованием статистической меры TF-IDF, что позволило придать больший вес словам с высокой частотой в пределах конкретного поста и с низкой частотой употреблений в других. Также текст был разбит на N-граммы (биграммы, триграммы, N-граммы с N=4), поскольку данный подход позволяет эффективнее работать с контекстуальными признаками.

В качестве подхода к тематическому моделированию использовалась неотрицательная матричная факторизация (NMF), которая исторически изначально использовалась для понижения размерности обрабатываемых данных, но впоследствии стала также применяться для нечеткой текстовой кластеризации. NMF принимает на входе неотрицательную разреженную матрицу и раскладывает ее на матрицы W и H меньшей размерности по некоторой метрике. В результате работы алгоритма начальная разреженная матрица раскладывается на матрицу W, где задано распределение слов по темам, и матрицу H с распределением постов по темам, из чего можно получить вероятности принадлежности этого слова/поста теме.

Таким образом были выделены основополагающие темы, которые пользуются наибольшей популярностью среди жителей города. Популярность тех или иных тем среди аудитории страницы оценивалась на основе подсчета количество отметок «Мне нравится», поставленных под постами, относящихся к теме.

Самой популярной темой для обсуждения среди жителей Екатеринбурга оказался прошедший в 2018 году в разных городах России (в том числе и в Екатеринбурге) Чемпионат мира по футболу. Популярность данной темы может говорить о том, что жители города желают быть причастными к миру международного спорта, принимают активное участие в спортивной жизни города. Об этом говорит и о том, что в список популярных тем вошла также «Екатеринбург-арена», на территории которой проходил чемпионат и регулярно организовываются спортивные события различного уровня.

Также среди подписчиков заметен интерес к фотографиям разнообразных достопримечательностей города, в список наиболее популярных вошли снимки городского и Верх-Исетского пруда, набережной реки Исеть, Храма На Крови. Из этого может последовать вывод, что данные территории являются излюбленными местами горожан, имеется востребованность в развитии и поддержании инфраструктуры территорий. Кроме того, заметен и интерес к разнообразным арт-объектам Екатеринбурга, а также стрит-арту, что говорит о востребованности продолжения совершенствования городского пространства с эстетической точки зрения.

Популярными являются также фотографии советского Свердловска и дореволюционного Екатеринбурга, горожане проявляют внимание к различным историческим периодам развития города, существует потребность в получении информации касательно этапов его развития.

Среди наиболее популярных уроженцев Екатеринбурга следует выделить космонавта Сергея Прокопьева, который ведет личный блог с борта МКС, новости о космонавте также обычно заслуживают высоких оценок со стороны подписчиков.

Подводя итоги, можно сказать, что подход тематического моделирования в совокупности со статической обработкой показателей популярности постов может быть эффективно использован для оценки наиболее интересных жителям города тематик, выделения тех характерных городу черт, которые формируют целостный образ городского пространства, и послужить для выстраивания стратегии дальнейшего его совершенствования.

Список использованных источников и литературы:
1) Коршунов Антон, Гомзин Андрей Тематическое моделирование текстов на естественном языке // Труды ИСП РАН. 2012.
2) М. А. Нокель, Н. В. Лукашевич Использование тематических моделей в извлечении однословных // МГУ им. М. В. Ломоносова. 2014

Научный руководитель: Лимановская Оксана Викторовна, доцент кафедры интеллектуальных информационных технологий, Институт фундаментального образования, Уральский федеральный университет.
  • 0
  • 0

(0) (0) ()

0 комментариев

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.