Как машинное обучение и большие данные помогают психологам изучать поведение людей, возможно ли предсказать депрессию по постам в соцсетях и что такое социальный почерк?
«Бумага» поговорила с сотрудницей Лаборатории интернет-исследований ВШЭ Ларисой Марарицей. Она выступила 31 октября на Science Slam с лекцией «Социальный почерк: цифровые данные и вычислительная психология».
Science Slam — битва ученых, которую проводит «Бумага». Партнер мероприятия — «Газпром нефть».
Лариса Марарица
Кандидат психологических наук
Что такое цифровая психология и как изучают поведение людей в соцсетях
— Социальная психология (изучает закономерности поведения и деятельности людей в социальных группах, а также психологические характеристики самих групп — прим. «Бумаги») существует более 100 лет. Но только сейчас для нас открывается возможность использовать объективные данные в исследованиях.
Ученым важны объективные данные, но получить их можно не всегда. Прямые опросы, анкетирование, опросники, тесты, наблюдение и эксперименты дают по большей части субъективные данные: люди знают, что их изучают, исследователь тоже субъективен — и получаются искаженные ответы.
С помощью анализа больших, динамических, объективных данных о поведении человека можно получить более точную информацию: мы изучаем, как человек ведет себя в обычной жизни — и какие именно действия он совершает в привычной обстановке. Эти данные хранятся как записи его действий в цифровой среде и того контента, который он создает. В этом случае мы можем проанализировать не 100–200 человек на протяжении года, а сотни тысяч и миллионы людей, информация о которых собирается за несколько лет. Всё это — вычислительная психология.
С помощью больших данных психологи могут исследовать всё, что угодно. Начиная от того, как люди друг на друга влияют, как коммуницируют, заканчивая тем, как они думают и что чувствуют в определенных ситуациях и так далее. Научное исследование предполагает согласие респондента на участие, хотя есть исследования и на открытых, публичных данных. Однако получив согласие на доступ к соцсетям, смартфонам и другому цифровому пространству, мы можем собирать оттуда данные об их действиях, интересах, круге знакомых и многом другом. Мы можем провести исследование с контролем факторов или дополнить цифровые данные привычными для психологии инструментами, такими как опросники.
При этом даже в вычислительной психологии нужны субъективные данные. В отличие от политологов и социологов, нам важно получать не только пассивную информацию. Например, мы спрашиваем, насколько людям близок человек, с которым они переписываются в соцсети. Это помогает лучше проверить гипотезу в нашей сфере.
Сейчас психологам редко удается отследить цифровой след человека (то, что можно узнать о наших действиях из интернета и баз данных, цифровых сервисов, логов смартфона). Эти данные очень трудно раздобыть внутри академической среды, обычно их много у крупных компаний, которые не стремятся делиться этой информацией. Еще хуже то, что их редко можно сделать открытыми и доступными для других исследователей.
Почему цифровая психология не доступна всем ученым
— Разговор о больших данных в психологии начался около 10 лет назад. В настоящее время мало исследователей занимаются вычислительной психологией, так как это достаточно сложно и дорого: нужен междисциплинарный коллектив с дата-саентистом, лаборатория и средства, доступ к данным, к тому же это дорого. Паранойя вокруг цифровых данных делает их еще более закрытыми, они все чаще оказываются доступными только компаниям и сервисам.
Я разделяю два направления исследований в вычислительной психологии, которые опираются на появление большого количества данных.
Первая линия исследований использует технологии машинного обучения и классические модели описания личности. Это направление дает возможность использовать психологию шире, в прикладных решениях, например, для персонализации. Второе направление использует большие данные и предлагает учитывать характер новых данных и использовать априорные модели для решения фундаментальных вопросов, которые не существовали ранее.
Один из результатов исследования в сфере вычислительной психологии — социальный почерк человека. Это паттерн внимания человека к своим друзьям и знакомым. Внимание измеряется в минутах разговора или переданных символах, а человек описывается тем, как много внимания он уделяет близким и едва знакомым людям. Оказывается, что распределение этого внимания устойчиво, даже если меняются контакты человека, уходят старые и приходят новые друзья.
Что такое социальный почерк и что он может рассказать о пользователе
— В 2012 году вышла работа [английского антрополога Робина] Данбара с коллегами, которая предлагала интересную модель на стыке антропологии и эволюционной психологии. Эта модель базировалась на том, что у людей есть два ограничения: число Данбара, согласно которому он может общаться лишь со 150–230 людьми, и то, что человек неравномерно распределяет свое внимание. Эти две идеи стали основой модели функциональных слоев в социальном окружении человека.
Согласно этой модели, всё окружение человека делится на несколько слоев, отличающихся по силе связи. Есть близкие люди и те, к кому человек не испытывает сильной эмоциональной привязки: например, общается раз в год. Разделение на слои можно проанализировать с помощью больших данных: вероятно, с близкими мы будем больше общаться по телефону по сравнению с теми, с кем у нас слабая социальная связь.
В практическом плане знание о социальном почерке дает возможность предсказать, например, время, когда человек уволится — в таком случае возникает резкое уменьшение коммуникаций с людьми внутри компании, потому что появляются новые связи. Это происходит потому, что у каждого человека есть коммуникативное ограничение (число Данбара). А если человек ищет другую работу, другую тусовку или так далее, часть его контактов меняется. Подтверждение этому феномену дали проведенные на Западе исследования, основанные на данных о переписке внутри компании, публичных комментариях в социальных сетях.
Уже существуют стартапы, которые предлагают аналитику, основанную на объеме коммуникаций людей для повышения эффективности работы организаций. Они собирают данные о коммуникации в своей компании, выстраивают коммуникативные сети и анализируют положение людей в этой сети, направление коммуникаций и так далее. Они делают невидимое общение людей видимым и анализируют его, надеясь раскрыть секреты эффективных команд.
Как цифровая психология изучает влияние смартфона на общение и можно ли в соцсетях определить депрессию
— Цель науки — знания. Мы все изучаем то, что может вообще не пригодиться, а может через 10 лет стать основой прикладной области. Мы не всегда понимаем последствия исследования и значимость тех открытий, которые мы делаем. Однако часто они становятся применимы.
Так, вычислительная психология изучает в том числе digital mental health: как социальные сети влияют на общение, как смартфоны влияют на наше внимание и так далее. Все эти исследования стали возможны благодаря объективным данным. Человек может думать, что за день провел полчаса в смартфоне, а на самом деле три — и это происходит не только потому, что люди любят приукрашивать свои ответы, но и из-за того, что он сам может чего-то не замечать или не помнить.
При этом в вычислительной психологии очень важно знать заранее, что ищешь. Если мы не знаем, что искать, то это будет то, что дата-саентисты называют «кладбищем данных». Скорее всего, не собирая данные в согласии с априорными идеями, гипотезами и соответствующим им дизайном, мы не найдем ничего стоящего или неслучайного.
Например, в прикладных исследованиях с использованием цифровых данных всё проще: если мы исследуем состояние депрессии, то ее также можно найти с помощью больших данных. Один из признаков депрессии — моторная заторможенность. Если в нормальном состоянии человек пользуется тачскрином с одной скоростью, то с депрессией у него будет уже другая моторика. Еще один фактор — то, что человек никуда не ходит. А мы это можем отследить по геолокации. Оба этих случаях будут цифровыми маркерами изменения состоянии, — а если их будет много, то стоит забить тревогу.
С какими этическими проблемами сталкивается цифровая психология
— При анализе больших данных существует много этических препон и трудностей, связанных с доступностью этой информации До сих пор идет дискуссия о границе между чувствительными и «обычными» данными.
Большие данные можно собирать по открытой информации, например той, которую человек выкладывает во «ВКонтакте». Но и здесь возникает проблема: вроде бы человек сам принял решение опубликовать эти данные для всех, но он не знал, для чего они будут использоваться и не давал разрешения на исследование.
Существуют коммерческие исследовательские инициативы внутри крупных компаний вроде «ВКонтакте» и Facebook. Ясно, что они собирают данные о пользователях, — но трудно понять, действительно ли человек дает согласие на то, что компания дальше будет с этими данными делать. А выбора нет: всё равно все мы пользуемся смартфонами, сетями, банковскими сервисами и так далее. Более того, существуют и прикладные исследования. Например, если вы играете в компьютерную игру — ваше поведение анализируется, и игра может подстраиваться под вас.
По большим данным можно опознать человека, даже если нет прямых идентификаторов. Это не только фотографии, но и, например, корпус текстов: исходя из нескольких текстов с вашим авторством, можно определить и привязать к вам текст, под которым не стоит фамилия.
При этом всё, что хорошо для этики, часто тормозит исследования и развитие. Чем больше мы ставим преград, тем труднее проходит наша работа. Мы, например, проводили исследования, используя информированное согласие подходящих нам людей: они отвечали на ряд вопросов и давали доступ к соцсетям, а мы объясняли им, какие данные будем оттуда собирать. Такие исследования проходят этическую комиссию и к ним в основном не возникает вопросов. Но те данные, которые мы собирали в этом исследовании, уже практически недоступны — возможность собрать их закрыта социальной сетью год назад.