1、Benford定律
Benford’s law, also called the first-digit law, states that in lists of numbers from many (but not all) real-life sources of data, the leading digit is distributed in a specific, non-uniform way. According to this law, the first digit is 1 almost one third of the time, and larger digits occur as the leading digit with lower and lower frequency, to the point where 9 as a first digit occurs less than one time in twenty. This distribution of first digits arises whenever a set of values has logarithms that are distributed uniformly, as is approximately the case with many measurements of real-world values. 来自:http://www.douban.com/group/topic/11417532/)
2、关于本次活动
百度贴吧“物理”吧主“碘化亚铜”在贴子:http://tieba.baidu.com/f?kz=965291892中提出,
可以统计一下百度的贴吧人气排行榜,验证Benford定律。
原始数据(排行榜列表的HTML文件)在贴子http://tieba.baidu.com/f?kz=968872039中。
本文作者即为百度贴吧的用户AT89S2051
。
3、原始数据的统计结果:
进行了两次统计,分别对人气大于等于1和人气大于等于10000的数据分别统计,结果如下:
(1)人气大于等于1的统计结果(%):
(2)人气大于等于10000的统计结果(%):
将(1)的结果作图如下:
将(2)的结果作图如下:
4、数据处理和初步结论
将此百分比数据和标准值相比较,求出百分差及百分差的平均值,然后试图进行线性回归计算,求算R^2的结果如下(下表中Average一列为百分差的平均值,RSQ一列为R^2的值):
从本文图表中可以看到,当统计对象的为人气不小于10000时,结果比较符合Benford定律。但即使如此,对于个人贴吧,仍存在很大误差。
分析原因(部分引用了“碘化亚铜”的观点):
- 由于大量人气8000和1的贴吧的影响,在考虑全部有人气贴吧的时候,首位是8和1的贴吧数量都会比预期高很多。
- 只考虑10000以上贴吧的时候,数据有所好转,但是依然不符合。
本福特定律适用的两个条件是:
- 数据不能是规律排序的;
- 数据不能经过人为修饰。
显然,a)贴吧人气数据不是规律排序的,那么b)有过人为修饰就很可能是数据不符合的原因。
因为即使符合得不是很好,但是从1到9的频率逐渐下降是很明显的。
可能的人为修饰原因包括:
- 存在网友刷票的行为;
- 存在幕后操作。