相遇预测方面的神文,没有找到其他阅读这篇论文的笔记,于是自己做了一个
摘要
通过探究用户的移动轨迹,我们发现有93%的可预测性。虽然轨迹内部有各种各样的不同,我们发现可预测性并没有多少变动,而这和用户覆盖的距离无关。
正文
数据集
3个月,50000人,每个人都访问过超过两个地区,平均电话频率大于半小时一次。
可预测性度量
熵。这里采用了三种熵的表示形式:
随机熵
用户去过多少个地方
表示如果用户去每个地方的概率都相同,那么用户位置的熵是多少
熵
表示用户i访问地点j的历史频率,描述了用户行为的异质性。
实际熵
=
是用户i的历史轨迹中,出现这条轨迹的频率【我理解这是子序列问题(存疑)】。
注意两点:
这一条是唯一包括了位置次序和时间信息的度量标准(X是一小时一次)时间颗粒度是1小时
处理缺失项
令q=0【存疑】
分析结果(均对于峰值)
度量熵
,用户最多去过64个地方
,真正的不确定性只有1.74
2.度量可预测性
,计算式是,其中
分析结果表明,的峰值是93%。这是一个可喜的结果,说明可预测性很强
距离超过10km时,可预测性就不再有大变化,即使距离很长
3.可预测性的上下界
上界:用户有60%的预测正确率在家或者工作单位,100%的正确率在几十个最常出现的地方
下界:用户有R=70%的概率在最常出现的地方【时间粒度:小时】。R是时变的
4.代表用户移动模式的随机性。统计表明到达地点越多的用户移动越有规律。
5.人口学特征似乎并没有什么作用
思考
不涉及算法,只涉及数据分析:我们的预测可以到达什么程度?其中几个存疑的地方每个指标具体的计算方法是否需要理解的数学意义