kurgus: (Default)
[personal profile] kurgus
Tao Ding et al. Social Media-based Substance Use Prediction. arXiv:1705.05633v2
Опубликовано в разделе Computer Science > Computation and Language

Вообще-то с растущим объемом машинносчитываемого нарратива в соцсетях работы по корпусной лингвистике с социолингвоуклоном стали гораздо менее трудоемкими и посему привлекательны.
А чтобы не заморачиваться со скучной самостоятельной обработкой данных и их же анализом - спихнуть это дело на противоестественный искуственный интеллект. В лице machine learning.
Что, во-первых, модно, и, во вторых, позволяет не напрягаться еще более снижает трудоемкость.

Естественно, возникает искушение наложить это дело на какую-нибудь эпидемиологию - что и было сделано в данной публикации.

Итак, как это было сделано.
Товарищи попрыгали на плечах гигантов (С) взяли dataset из проекта
myPersonality, собранные одноименным Facebook-приложением в рамках заговора обленившихся психологов[1].
В этом приложении, маскирующемся под набор психометрических тестов, Facebook users отвечают на кучу вопросов, в т.ч. и о частоте употребления табака, алкоголя и прочих нехороших субстанций.

После чего Tao Ding et al. занялись чистой корпусной лингвистикой с социоуклоном взяли эти датасеты, и выбросили из них для простоты обработки них неанглоязычных субъектов:
final dataset includes 106,509 users with 21 million posts. After filtering out low frequency words (those appear less than 50 times in our corpus), the vocabulary size of the status update dataset is 73,935
И натравили на датасет группу алгоритмов на предмет выявления, употребление (или лайканье) каких сем[2] коррелирует с употреблением нехорошего. И каких - наоборот.

Получилось вот так:

Что означает сема focuspast, единственная с сильной отрицательной корелляцией (по drugs) - я не понял.
Зато если алкоголики-наркоманы шибео озабочены насчет money, то курильщики следуют заветам Pink Floyd "money it's a gas". В смысле it's a smoke.
И вообще, курильщики, судя по этой фигуре, неозабоченные пофигисты - сильных корреляций не обнаружено.

Но больше всего умилила Table 6: Topics Most Significantly Correlated with Substance Use.
Оказывается, если кто-то пишет и лайкает посты со словами tonight, night, free, party, tickets, bar, saturday, friday, dj, drink, club, show, beer, ladi - то он любит алкоголь.
И при этом, оказывается, он не пишет и не лайкает посты со словами class, history, paper, math, science, writing, essay, finished, study, test, final, exam
Какое тонкое наблюдение - ежели человек зависает по клубам, то он там, наверное, пьет. И в это время он же почему-то не готовится к экзамену по матанализу :)
Насчет именно такого поведенческого паттерна все очень просто: средний возраст по выборке - 23 года :)

Жалко только, что авторы не запубликовали половых распределений: в отобранном ими массиве среди субъектов с нехорошими привычками оказалось 63% девиц и 37% юношей.
Что кагбэ намекает на дельнейшие исследования: действительно ли носители дефективной Y-хромосомы оказались высокоморальны - или они усиленно скрывают свои порочные наклонности?

1. Michal Kosinski et al. Facebook as a research tool for the social sciences: Opportunities, challenges, ethical considerations, and practical guidelines. American Psychologist 70(6):543, 2015.
2. значений, соответствующих наборам синонимов/гипонимов, например femail = (woman, girl, lady, doll, ...), body = (head, legs, hands, ...).

Profile

kurgus: (Default)
kurgus

June 2017

S M T W T F S
    123
45678910
111213 14151617
18192021222324
252627282930 

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 27th, 2017 06:53 pm
Powered by Dreamwidth Studios