宾夕法尼亚大学:从Twitter留言预测用户收入
时间:2020-06-27

利用社交媒体上发表…的内容来自动推断用户▌特征,对于社▇█会科◤学、市场学和政治学研究有着非常重要的意义。近日,宾夕法尼亚大学的Daniel Preo◣iuc-Pietro等人就利用Twitter上的数据构建了预测用户收入的模型。该模型很好的揭露了不同特征分类和收入之间的关系,同时也发现了很多有意思的现象。

随着信&息技术的迅速发展,社交媒体也开始为越来越多〒√的人提供服务。社交网站中所接收的用户数据也随之飞速增长,为社会科学中复杂问题的研究提供了充分支Ⅷ撑。对这些数据的分析可以很好的披露出语言模式和用户特征(如位置、年纪以及政治倾向等)。由此,这些信息可以用于大规模社会科学研究,并可۞۞帮助进行更有针对―性的广告营销等。

Daniel等人的研究以自动┕推导社交媒体中用户的收入为出发点。在训练和测试阶☠段,该团队使用了已经表明收入的Twitter用户数据集,其中包括了Twitter平台的相关统计数据和历史内容。为了便于分析,Daniel等人☎的研‖究以Twitter用户和职位之间的映射为基础,采用了英国政府的标准化职业分类(Standard Occupational Classification,SOC)方法,将所有职业根据职能要求和内容分成了9个大组。最终的测试数据就牵涉到了9个组的5191个用@户,及其10,796,836条留言。

预测模型使用了很多特征作为参考,包括了简单的┐用户简历特征(如朋友数量、追随者数量以及┝平均每♨天留言的数量等〣)、人口统计特征∶(如年纪、性别、政治倾向以及智力等)、用户情绪特征(开心的、伤心的、生◥气的以及惊Б讶的留言的比例等)和浅层的文本特征(非复制留言的比例、转发留言的比例以及平均的留言数Ⅲ量等)。

而且,他们采用了线性和非线性学习算法来构建收入▽▄模型。其线性学习算法使用的是带Elastic Net调节的logistic回归分析。第一个非线性学习算法则使用带径向基核函数(Radial Bas▲is Function ,RBF)的支持向量机(Support Vector Machine,SVM)。但由于SVM并╦╧不支持指定最重要的若干特征,Daniel等人又采用高斯过程(Gaussian P╜rocess)构建了一个贝叶斯非┙参数化的统计框架。最后,预测模型把所有特征集模型的结果采用线性权重的方式结合在了一起。

为了测量预测模型的精确度,Daniel等人υ的研究首先针对用户收入进行了评估,其试验过程采用了十折交叉验证:把原始的数据随机分成10个部分#,选择其中一个∝作为测试数据,一个作为参数微调的数据,剩♡下的8个作为训练数据。最终结果表明,用户数据和用户发表的内容之间的皮尔逊相关系数最大可达到0.633(0.6-0.8表示“强相关”),证实了模ж型的精确性。

该工作的另外一个目标是深入发掘♧Twitter上与用户收入相关的特█征。通过检查模型的输出和对参数进行量化分析,❤团队发掘出了收入和语言使用以及Twitter中用户行为之间的关系,其中包括了很多已知和未知的现象。例如,已经为公众所接受和熟知的现象是∟:■收入和受教育程度、智力、年龄以及性Γ别等相关。另外的一些发现就显得特别有意思:无派别且生活从容的用户收入较ㄨ高;⿻收入越高的用户越容易产ξ生生气和▨惧怕的情绪,从而经常发表一些感性的内容;高收入用户更多地谈论政治,非政府组织以及合作的话题,而低收入者则更多地倾向于使ъ用低俗语言。

viηa:InfìoQ中文站

上一篇: 董本洪:互动营销需两条腿走路
下一篇: 哪些媒体可以发区块链行业的新闻稿件

热门推荐

精选推荐

摆摊做什么生意比较好赚钱_摆摊做什么生意呢_摆小地摊卖什么赚钱 2019-2022版权所有