一的力量:如何利用「班佛定律」偵破數字詐欺?

https://www.thenewslens.com/article/90784

文:羅伯特.馬修斯(Robert Matthews)

一的力量
當亞歷克斯請他的小叔幫他處理期末報告時,他完全不知道自己即將揭開一樁黑暗的秘密。亞歷克斯是加拿大哈利法克斯市新斯科舍的聖瑪麗大學的會計系學生,他需要一些商業人士的幫忙,而他小叔的五金行顯然是他可以求助的對象。

從今年的銷售數字看,亞歷克斯認為五金行沒什麼明顯奇怪的地方。不過,他還是為了作業做了他該做的事,並且根據他的會計教授馬克.尼格里尼(Mark Nigrini)的要求,做了一個奇怪的小小例行公事。他把銷售數字全部看過,把以1開頭的數字都記錄下來。結果,1開頭的數字占了整體數字的93%。他把作業交出去後,就沒再想這件事了。

之後尼格里尼批改作業,他看了這數字一眼,發現了一個讓人尷尬的事情。在看過亞歷克斯幫小叔的帳目所做的分析之後,他的疑慮更深了。在這些銷售數字中,沒有一個數字是從2-7開始的,而且只有四個數字是8開頭,二十一個數字是9開頭。經過幾次檢查後,尼格里尼的心裡很篤定:亞歷克斯的小叔是個詐欺犯,他系統性地做假帳,以避免銀行經理和稅務稽查員的注意。

他可真有本事啊!乍看之下,這些銷售數據沒什麼可疑的,沒有會引起稅務當局注意的驟升或驟降。但這也正是問題所在:這些數字太規律了。這就是為什麼這些數字,不符合尼格里尼要求亞歷克斯做的例行公事。

尼格里尼知道的事,顯然是亞歷克斯的小叔不知道的,那就是店裡的銷售數字,應該要符合人們在一百多年前意外發現的數學規則,這規則被稱為「班佛定律」。世上有多到讓人驚嘆的現象都遵循這個定律,從股市價格到人口普查數據,到化學物的熱量都是。即使是從報紙上抽出的數字,也會遵守這個定律,也就是大約有30%的數字會以1開始,18%的數字會以2開始,而以9開始的數字會下降到4.6%。

這是一個讓人意想不到的定律,起初很多人根本不相信這是真的。多年來,在人們視這個定律為數學上的怪事後,現在所有人都相信班佛定律,無論是法醫、會計師還是電腦設計師,他們都認為班佛定律可以幫他們用非常輕鬆的方式,解決一些棘手的問題。

發現這個定律的故事,和這定律本身一樣奇怪。1881年,美國天文學家西蒙.紐康(Simon Newcomb)在《美國數學期刊》發表了一篇文章,文中提到他注意到和對數有關的書籍有個奇怪現象,後來科學家廣泛運用他的發現進行計算——這些書的第一頁,變髒的速度似乎比最後一頁快很多。

顯而易見的解釋,聽起來讓人困惑。由於某些原因,人們對1開頭的數字所進行的計算,比對8和9開頭的數字更多。紐康提出的一個小方程式,很適合用在這個模式:自然界對數字的安排似乎有一個傾向,那就是以D位數為起頭的數字比例,會等於以10為底的1 + (1/D)對數。

紐康在論文裡並沒有提出特別有說服力的理由,說明為什麼這個公式會有用,所以他的文章並未引起人們太多的興趣,而「骯髒頁面效應」(Grubby Pages Effect)則被人們遺忘了半個多世紀。但在1938年,美國通用電氣公司的物理學家法蘭克.班佛(Frank Benford)再次發現了這種效應,並提出與紐康相同的定律。然而,班佛更進一步蒐集了超過兩萬個數字,這些數字從河流排水區列出的數據,到舊雜誌裡文章出現都有。班佛表示,這些數字都遵循了相同的基本定律:大約有30%的數字以1開始,18%的數字以2開始,依此類推。

和紐康一樣,班佛對定律的存在,也沒有任何很好的解釋。即使如此,他因為提供了十分豐富的證據,證明了這種現象的真實性和特殊性,而使得他的名字從那時開始,一直和這個定律連在一起。

必須再等上將近四分之一個世紀,才終於有人對一個關鍵問題提出合理的答案,這個問題是:為什麼這定律適用於來自不同地方許許多多的數字?第一個大進展發生在1961年,當時在新澤西州新布藍茲維羅格斯大學的羅傑.平卡姆(Roger Pinkham)提出了精鍊的水平思考。平卡姆說,假設世界上真有一個用來管理數字的普遍定律,可以用來描述自然現象,像是河流的排水區域和化學物質,那麼無論我們用什麼單位來計算,這樣的定律都必須有效。甚至是左柏(Zob)星球的居民,如果他們用某一種叫做剛帝克斯(grondekis)的單位來衡量面積,那麼我們也必須在那裡的排水區域中,發現與用公頃測量時得到的一模一樣的數字分配。但如果八十七點三三一公頃等於一個剛帝克斯的話,這怎麼可能呢?

平卡姆說,答案是要確保數字的分配不受單位變化的影響。假設有一百萬條不同的河流,你知道它們以公頃為單位計算出的排水面積,而把這些面積轉換成用剛帝克斯來表示,將會改變個別面積的數字。但總體而言,數字的分配仍會和先前一樣。這個特性就是所謂的「標度不變性」。

平卡姆在數學上表示,班佛定律的標度的確是不變的。然而非常重要的是,班佛定律是唯一能將數字分配得具有這種屬性的方法;換句話說,任何一個能描述數字出現頻率的「定律」,若能具有普遍性,那麼它就非班佛定律莫屬了。

平卡姆的研究大大提升了該定律的可信度,促使他人認真思考這個定律以及它可能的應用。但有一個關鍵問題依然存在:哪些數字會遵循班佛定律?有兩個經驗法則很快就出現了。首先,數字的樣本要夠大,讓預測的比例有機會表現出來。第二,數字不該受到人為限制,而是要讓它們想出現什麼數值就出現什麼數值。例如,若我們希望十種不同的啤酒價格符合班佛定律,這顯然是沒有意義的;不只因為樣本太小,更重要的是,啤酒的價格已被市場力量限制在一個狹窄的區間內。

另一方面,真正隨機的數字也不符合班佛定律,因為根據隨機的定義,隨機數字以某個數字開始的比例是相同的。班佛定律適用於占據「中間地帶」的數字,它位居嚴格限制和完全不受約束的數字之間。

直到1996年,班佛定律真正的意涵仍是個謎。當時亞特蘭大喬治亞理工學院的數學家西奧多.希爾(Theodore Hill),發現了另一個洞察班佛定律起源的方法。他意識到,各式各樣的測量往往會自我傳播。最終,我們在宇宙中所能測量的一切,其實是某些過程或其他過程的結果,比方說是原子的隨機抖動,或是遺傳學上的需要。數學家早就知道,每個數值的傳播都遵循一些基本的數學規律。例如銀行經理的身高會符合鐘形的高斯曲線,而每天起起伏伏的氣溫會呈現波浪狀,地震的強度和頻率則以對數法則來相互聯繫。

現在想像一下,如果我們從一鍋大雜燴中隨機抓出一把數據。希爾證明,隨著你抓到的數字越多,這些數字的位數將會越接近一個非常具體的定律。這個定律是一種終極的分配,也就是「分配的分配」。他表示,這個終極分配的數學形式就是……班佛定律。

希爾的定理用了很長的篇幅,解釋班佛定律究竟有多麼無所不在。雖然某些現象的數字會受到單一分配的控制,例如鐘形曲線等等,但是從數據普查到股票市場價格的數字,則是受到各種分配的隨機組合所決定。如果希爾的定理是正確的,就表示這些數據的數字應當會遵循班佛定律,而且就像班佛自己的重大研究及許多其他研究所顯示的,事情確實如此。

先前批改亞歷克斯作業的老師馬克.尼格里尼(Mark Nigrini),現在在悠因的新澤西學院擔任會計學教授,他把希爾的定理視為關鍵性突破:「這可以解釋,為什麼這個重要的數字現象,會出現在這麼多的脈絡裡。」

如此尼格里尼也可以說服別人,班佛定律不只是數學上的小東西。在過去幾年裡,尼格里尼已成為善用這個定律的推手,把它用在偵查詐欺上。

1992年,尼格里尼發表了他開創性的博士論文,文中提出許多關鍵的帳戶數字,從銷售數字到理賠費用,都遵循了班佛定律;而我們可以用標準的統計測試,快速檢測出那些偏離此定律的問題。尼格里尼把這種反詐欺的技術稱為「數字分析」,由於它很成功,所以開始吸引了企業界及其他領域的興趣。

這個定律的部分最早案例,來自尼格里尼要學生寫的作業,包括亞歷克斯那負責管店的小叔的負面案例。不久之後,他用數字分析來揭露更大的詐欺行為。這件事和美國一家休閒旅遊公司有關,這家公司在全美擁有連鎖汽車旅館。該公司的查帳主任在使用了數字分析後,發現公司裡的醫療部門主管提出的理賠要求有些蹊蹺。「我們把健保給付的前兩位數字拿來檢驗,看它是否符合班佛定律,卻發現以6或5開頭的數字很常出現。」尼格里尼說。查帳人員顯示,有十三筆詐欺支票的金額,落在六千五百美金到六千五百九十九美金之間,這些和心臟手術的詐欺賠償均由該主管經手,支票最後都會到她的手中。

儘管這位主管使盡全力讓賠償看起來合情合理,但班佛定律仍把她揪了出來。「她小心翼翼地挑出老年人人數高於平均值的汽車旅館,幫旅館員工提出索賠。」尼格里尼說。此外,分析還發現其他總共價值約一百萬美金的詐欺理賠。

不出所料的是,大企業和中央政府現在也認真對待班佛定律。尼格里尼說:「上市公司、大型私人公司、專業公司和美國與歐洲的政府機構,以及世界上最大的查帳公司,都在使用班佛定律。」

這種技術也吸引了偵查其他詐欺行為的機構之興趣。位於布魯塞爾的國際藥物研究所的馬克.拜瑟(Marc Buyse)和他的同事認為,班佛定律可以在臨床試驗中揭露一些可疑數據;而一些大學的研究人員則認為,數字分析能幫忙他們揭發實驗室筆記型電腦的詐欺事件。

當越來越多人使用數字分析時,不可避免地會讓詐欺者更注意到它的威力。但是,根據尼格里尼的說法,除了對這些詐欺者產生示警效果之外,這方面的知識對他們其實沒什麼幫助。「詐欺者遇到的問題是:在所有數據尚未出現之前,他們無法得知數據的全貌。」尼格里尼說,「詐欺通常只涉及數據集的一部分,但詐欺者不知道這些數據集會被如何分析,比方說是按季、按部門或按區域來分析。要確定整個詐欺永遠符合班佛定律,是件很困難的事;而大部分詐欺者都不是火箭科學家。」

尼格里尼說,無論如何班佛定律能做的不只是追查出詐欺者。就拿儲存數據來說好了,位於德國弗萊貝格技術大學的數學家彼得.謝德(Peter Schatte),提出了優化電腦儲存數據的規則,也就是利用班佛定律指示的比例來分配儲存空間。

喬治亞理工學院的泰德.希爾(Ted Hill)認為,財政部預報員和人口統計學家,需要使用簡單的「現實查核」來檢驗他們的數學模型。那麼,無所不在的班佛定律,也會對他們很有幫助。「尼格里尼最近顯示,美國有三千多個郡的人口非常接近班佛定律。」希爾說,「這表示這個定律可以用來測試預測未來人口的模型:如果預測的數字不接近班佛定律,那麼就得重新思考模型。」

但尼格里尼和希爾都強調說,班佛定律不是反詐欺,或是用來整頓全球數據弊病的靈丹妙藥。例如,偏離該定律預測的現象,可能只不過是因為四捨五入的關係。而且他們都認為,在現實生活有許多情況誤用了這個定律。「每一個數學定理或統計測試都有可能被濫用,我不會擔心這種狀況。」希爾說。

但他們都有一種感覺,認為班佛定律還有一些真正高明的用法正等著人們去實現。希爾說:「對我來說,這個定律是數學上讓每一個人都覺得驚喜的好例子,包括專家在內。」

(請注意,亞歷克斯不是尼格里尼之前那位學生的真實名字。)

這裡、那裡,到處都是
自然特別偏好某些數字和序列,長期以來數學家為此心醉神迷。所謂的黃金比率,大致相當於1.62:1,據說人們已在各式各樣的地方——從貝殼到繩結——發現這種最美觀的長方形尺寸。還有費波那西序列,它是1、1、2、3、5、8……,其中每個數字都是前面兩個數字的總和。我們可以在大自然各處看到這個序列,從植物上的葉子排列,到向日葵上面種子的螺旋形狀皆然。

班佛定律似乎是數學世界的另一個基本特徵,以數字D開頭的數字,其百分比為100乘以底數為10的1+(1/D)對數;換句話說,以「1」開頭的數字,其百分比大約是100乘以log10(1 + 1/1),即30%;以「2」開頭的數字,其百分比大約是有100乘以log10(1 +1/2),即17.6%;以「9」開頭的數字,其百分比大約是100乘以log10(1+1/9),即4.6%。

班佛定律的數學,也進一步預測出其他數字的比例。舉例來說,該定律預測「0」最有可能出現在第二位數,約占所有第二位數的比例的12%,而9則是最不可能出現的,是8.5%。

因此,班佛定律指出,最常見的非隨機數是以「10 ...」開始的數字,它出現的頻率應該比最不可能出現的「99…」高十倍。 

正如人們期望的那樣,班佛定律預測,1、2、3等數字,讓後面位數的數字變得越來越平均,讓每一個大數字最後的那幾個數字,都精準地各占10%。

事實證明,費波那西序列、黃金比例和班佛定律,彼此都是相關的。在費波那西序列中,連續項目的比例趨近於黃金比率,而構成費波那西序列的所有數字則符合班佛定律。

相關書摘 ►人類演化史上的六個關鍵點,造就你這個幸運兒

書籍介紹
本文摘錄自《偶然的科學:好運、隨機及機率背後的秘密》,八旗文化出版

*透過以上連結購書,《關鍵評論網》由此所得將全數捐贈兒福聯盟。

作者:新科學人(New Scientist)
譯者:周群英

從宇宙的誕生,到你完美的下注
偶然性,CHANCE都在幕後扮演影武者,但你卻不知道

你以為偶然只是巧合、運氣和機率
科學家卻利用偶然,達到自己的目的!

宇宙的存在,似乎是個偶然?而生命非得出現嗎?
簡單生命無所不在,但複雜的生命是偶然的結果?
新物種的出現,並非演化而來的,又是偶然的結果?
人真的可以創造出自己的運氣?
為什麼人類深受非預期的巧合吸引,這是錯覺還是某種被掩蓋的真實的揭露?
玩剪刀、石頭、布,如何可以居於不敗之地?
中彩劵領高額獎金,去賭場玩輪盤遊戲,數學家也可以提供好策略?
機率可以幫助你找到好的結婚對象?
科學家不只研究偶然,也會利用偶然來找到新發明,讓自己得到諾貝爾獎?
GPS和網路購物等的出現,剝奪了偶然性從我們生活中出現的機會,這是很大的損失嗎?  
這本書找了各領域權威專家針對偶然發表文章在《新科學人》上,並集結其中26篇文章成書,探討偶然、機率、好運背後的祕密,從如何完美下注,藥物測試,如何找到車鑰匙,到法庭上陪審團如何做出決定,探索了許多人們習以為常但不常思考和注意的事情。每篇都既具深度,也饒富趣味,打開你的眼界,讓你發現許多你認為是偶然的事情,其實不然!