1、Benford定律

Benford’s law, also called the first-digit law, states that in lists of numbers from many (but not all) real-life sources of data, the leading digit is distributed in a specific, non-uniform way. According to this law, the first digit is 1 almost one third of the time, and larger digits occur as the leading digit with lower and lower frequency, to the point where 9 as a first digit occurs less than one time in twenty. This distribution of first digits arises whenever a set of values has logarithms that are distributed uniformly, as is approximately the case with many measurements of real-world values. 来自:http://www.douban.com/group/topic/11417532/

2、关于本次活动

百度贴吧“物理”吧主“碘化亚铜”在贴子:http://tieba.baidu.com/f?kz=965291892中提出, 可以统计一下百度的贴吧人气排行榜,验证Benford定律。 原始数据(排行榜列表的HTML文件)在贴子http://tieba.baidu.com/f?kz=968872039中。 本文作者即为百度贴吧的用户AT89S2051

3、原始数据的统计结果:

进行了两次统计,分别对人气大于等于1和人气大于等于10000的数据分别统计,结果如下:

(1)人气大于等于1的统计结果(%):

图:人气大于等于1的统计结果

(2)人气大于等于10000的统计结果(%):

图:人气大于等于10000的统计结果

将(1)的结果作图如下:

图:(1)结果作图

将(2)的结果作图如下:

图:(2)结果作图

4、数据处理和初步结论

将此百分比数据和标准值相比较,求出百分差及百分差的平均值,然后试图进行线性回归计算,求算R^2的结果如下(下表中Average一列为百分差的平均值,RSQ一列为R^2的值):

从本文图表中可以看到,当统计对象的为人气不小于10000时,结果比较符合Benford定律。但即使如此,对于个人贴吧,仍存在很大误差。

分析原因(部分引用了“碘化亚铜”的观点):

  • 由于大量人气8000和1的贴吧的影响,在考虑全部有人气贴吧的时候,首位是8和1的贴吧数量都会比预期高很多。
  • 只考虑10000以上贴吧的时候,数据有所好转,但是依然不符合。

本福特定律适用的两个条件是:

  • 数据不能是规律排序的;
  • 数据不能经过人为修饰。

显然,a)贴吧人气数据不是规律排序的,那么b)有过人为修饰就很可能是数据不符合的原因。

因为即使符合得不是很好,但是从1到9的频率逐渐下降是很明显的。

可能的人为修饰原因包括:

  • 存在网友刷票的行为;
  • 存在幕后操作。