北京时间1月21日动静,据国外媒体报导,帕洛阿尔托研究中心(PARC,Palo Alto Research Center)刚刚发布了一份Twitter用户“天文位置”字段利用陈述。PARC暑期练习生布伦特·赫克特(Brent Hecht)抉择了1万名活泼的Twitter用户停止深进研究,成果发现,34%的Twitter用户没有在小我材料中填进有效的天文位置。
有些用户以至用天文位置字段来开打趣,表达他们对某个名人的喜欢之情,或是申明他们的位置“不关你的事!”
关于其他和Twitter用户现实位置相关的所有查询拜访来说,那一研究的意义显而易见:假设不预先对Twitter信息停止阐发,别离出那些不按规则填写的位置信息,样本数据可能就不是那么可靠。
PARC目前已经发现之前的一项闻名研究存在如许的情状。
PARC的研究人员从Spritzer样品源(它从所有Twitter动静中实时随机挑选1-2%)搜集了3200万条英语Twitter动静。那些Twitter 动静由5282657名Twitter小我用户发送。
研究人员从中随机挑选1万名(那些发送过5条以上Twitter 动静)活泼用户的信息,然后提取和查抄了他们的位置字段。
66%的用户填写了位置
只要66%的Twitter用户在那个字段输进了有效的天文信息,那里说的“有效”只能算敷衍了事。
好比,研究人员把填写“kcmo - call da po po”那种地址的人也计进在内,因为此人填写了有效的城市名“密苏里州堪萨斯城”。“有效”还包罗那些只是写了身处哪个大洲,以及美国州名为实(如“加州”)但城市名称是编造的(如 “Bieberville”)情状。
现实上,城市和州的名称都不是编造的情状相当低,但PARC并没有供给详细数字。
位置是在“贾斯汀·比伯的心里”
在34%没有供给实正位置信息的情状中,研究人员发现了一些趋向。
好比该字段经常被人们用来表达对特命名人的敬慕之情。研究人员在那个字段中发现的名字包罗布兰妮·斯皮尔斯(Britney Spears)、乔纳斯兄弟(Jonas Brothers)等,被提及最多的是贾斯汀·比伯(Justin Bieber),有61名用户在位置字段中提到他。
另一种常见的趋向是,人们利用位置字段来表达守旧隐私的愿看,好比他们会填写“不告诉你”,“关你什么事”,并且也经常有人在那一字段填写外太空的位置以及笑话等,有人以至会表达对本身当前位置的不满,例如一个用户写到,他在“乡间天堂”。
对Twitter数据阐发研究的意义
PARC的研究人员还将一部门数据集(16%没有供给有效位置的情状)输进雅虎Geocoder(一个能够把地名转换为纬度和经度坐标的东西)。但雅虎Geocoder并没有全数返回“错误信息“提醒,而是返回了82。
1%的数据。好比,“中土世界(Middle Earth)”的经纬度是在得克萨斯州拉伯克北部,“BieberTwon”在密苏里州,“在彩虹之上的某个处所(somewhere over the rainbow)”在缅因州北部,“wherever yo mama at”是在西伯利亚西南部。
那意味着,研究工做假设只是简单地把Twitter数据集输进到geocoder,成果就未必可靠。Geocoders假设所有输进信息都是天文位置,因而它会测验考试找到那些坐标。为了准确地阐发Twitter数据集的位置信息,数据应先辈行预先阐发处置,将非天文信息和天文信息别离开。
并不是所有Twitter用户研究都已经摘取了如许的做法。PARC研究人员发现,2007年的一项闻名研究“我们为什么利用Twitter” (Why We Twitter: Understanding Microblogging Usage and Communities,做者是Akshay Java, Xiaodan Song, Tim Finin, and Belle Tseng)就没有对数据停止预先阐发。
固然并非说那项研究的所有成果(因为那项研究还包罗了其他良多方面,好比信息类型等)都不成靠,但那一点确实值得重视。