本福特定律:数据中的秘密指纹

数字中隐藏着一个奇特的指纹——一种如此微妙的模式,以至于大多数人从未注意到它,却又如此强大,以至于它揭露了财务欺诈、伪造的选举,甚至是数十亿美元公司里的做假账行为。

本福特定律:数据中的秘密指纹
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI模型价格对比 | AI工具导航 | ONNX模型库 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

数字中隐藏着一个奇特的指纹——一种如此微妙的模式,以至于大多数人从未注意到它,却又如此强大,以至于它揭露了财务欺诈、伪造的选举,甚至是数十亿美元公司里的做假账行为。

这里有个引子:在许多真实世界的数据集中,数字1作为首位数字出现的频率约为30%,而9的出现频率不到5%。这完全违反直觉。你可能会认为1到9的数字出现频率应该是均等的,对吧?

但现实并非如此。

而当人们试图伪造数字时……他们会忘记这个规律。

欢迎来到Benford's Law——一个悄悄抓住说谎者的数学真理。

None

1、本不该存在却真实存在的模式

让我们从直觉开始。

想象你随机生成数字。大多数人假设首位数字应该是均匀分布的:

  • 1 → ~11%
  • 2 → ~11%
  • 9 → ~11%

但现实生活中的数据——比如:

  • 纳税申报表
  • 股票价格
  • 人口数字
  • 电费账单

……并不是这样表现的。

相反,它们遵循着这种诡异的模式:

  • 1 → ~30%
  • 2 → ~17%
  • 3 → ~12%
  • 9 → ~4.6%

较小的数字占主导地位。较大的数字逐渐消失。

这不是巧合。这是一条定律。

2、魔法背后的公式

Benford's Law不仅仅是一个观察——它在数学上是精确的。

P(d)=log{10}(1+1/d)

其中:

  • ( d ) 是首位数字(1到9)
  • ( P(d) ) 是该数字作为首位出现的概率

这种对数分布解释了为什么1出现得如此频繁——因为在对数尺度上,以1开头的数字占据了更大的"空间"。

3、为什么宇宙偏爱较小的数字

乍一看,这感觉几乎是神秘的。为什么自然界会偏爱1而不是9?

答案在于规模和增长

大多数现实世界的数据并不是均匀分布的——它跨越多个数量级。

例如:

  • 一家初创公司从10,000卢比增长到10,00,000卢比
  • 一个城市从1,000人增长到1000万人
  • 股票价格在各种范围内波动

数字不是线性增长的——它们是乘法增长的。

当数据跨越如此广泛的范围时,对数分布就开始发挥作用。

这就是Benford's Law自然出现的地方——不是强加的,不是设计的——只是……就在那里。

4、说谎者犯下的致命错误

现在事情变得有趣了。

当人类伪造数字时,我们倾向于均匀思考

我们下意识地均匀分布数字,因为这"感觉像是随机的"。

所以假数据通常看起来像这样:

  • 1 → 11%
  • 2 → 10%
  • 3 → 12%

但真实数据并不是这样表现的。

这种不匹配正是调查人员寻找的东西。

4.1 用数学捕捉税务欺诈

世界各地的税务机关都将Benford's Law用作筛查工具。

当公司或个人提交财务数据时:

  • 损益表
  • 费用报告
  • 销售记录

分析师将首位数字的分布与Benford's Law的预期模式进行比较。

如果数字显著偏离?

那就是一个危险信号。

这并不能证明欺诈——但它告诉调查人员应该深入调查哪里

事实上,法务会计师已经使用这种方法揭露了:

  • 虚增的收入
  • 假发票
  • manipulated expense sheets

所有这些都是因为有人忘记了数字有一个"自然签名"。

4.2 选举舞弊:数字不会说谎(但人会)

Benford's Law也被应用于选举数据。

各地区的选票数量在许多情况下应该遵循相同的自然分布。

当它们不遵循时?

怀疑就产生了。

在全球多次选举中,分析师使用Benford's Law来:

  • 检测选票数量中的异常
  • 识别统计上不太可能的分布
  • 标记潜在的操纵行为

现在,在这里要小心——Benford's Law不是法庭判决。它是一个信号,不是证据。

但它往往是第一个表明某些事情不对劲的线索。

4.3 企业丑闻和数十亿美元的谎言

Benford's Law在揭露企业欺诈方面也发挥了作用。

审计师使用它来快速扫描海量数据集——数百万笔交易——而无需手动检查每一笔。

相反,他们问:

"这些数字看起来自然吗?"

如果不是,他们就深入调查。

它已被应用于涉及以下方面的调查:

  • 会计欺诈
  • 收益操纵
  • 财务错报

因为无论欺骗多么复杂,人类都难以令人信服地伪造随机性。

5、Benford's Law适用的地方

这里有个问题:Benford's Law并非普遍适用。

它在以下情况下效果最好:

  • 数据跨越多个数量级(例如,1到1,000,000)
  • 数字不受人为限制
  • 数据不是分配的(如电话号码或身份证号码)

它在以下情况下适用:

  • 小数据集
  • 均匀范围(例如,人们的身高)
  • 有固定最小值或最大值的数字

所以虽然它很强大,但它不是魔法——它是一个工具。

6、为什么这感觉如此令人震惊

让Benford's Law引人入胜的不仅仅是它的实用性。

而是这样一个想法:

现实有着我们无法直观理解的模式——但数学可以。

当人们试图伪造现实时,他们不小心暴露了自己……因为他们像人类一样思考,而不是像自然一样思考。

Benford's Law提醒我们一些更深层的东西:

我们生活在一个由隐藏结构支配的世界中。

从股票市场到社会系统,从物理到金融——模式存在于表面之下。

而有时,这些模式成为工具。

能够:

  • 捕捉欺诈
  • 揭示真相
  • 揭露欺骗

所有这些都来自像数字的首位数字这样简单的东西。

7、结束语

下次当你看到满是数字的电子表格时,请记住:

它们不仅仅是数值。

它们是指纹。

如果有人篡改了它们,数学很可能已经知道了。

即使其他人不知道。


原文链接: The Mathematical Signature That Catches Tax Evaders and Election Fraud — Benford's Law

汇智网翻译整理,转载请标明出处