-

同樣是談 Big Data ,今年五月才出版的 Everybody Lies 比起 Weapons of Math Destruction ( WMD 1),好看許多。所謂好看,是指題材震撼、故事好看,作者給讀者提示了更多未來的可能性。WMD 的題材也很吸引人,內容也夠震撼,但是作者 Cathy O’Neil 在書裡面一直不停的說「這個不道德」、「這是懲罰不該懲罰的人」、「我們要小心這是不公不義的」,雖然作者的提醒大部分是對的,但是看故事的樂趣就減了三分,看到書末不免生出「我知道你說的有道理,但是,請不要再說了」的情緒。

Everybody Lies 書裡面的亮點很多,如種族問題之於美國大選、如何預估職業運動員的生涯表現、佛洛伊德的性心理學是不是現代人內心最大的壓抑等等,我猜作者 Seth Stephens-Davidowitz 在選擇題材的時候,對如何設定「鉤子」這件事,是下了大功夫的。

書裡面好幾次提到 Money Ball 和 Nate Silver 的書 The Signal and the Noise,並且從不同角度闡述 Nate Silver 的研究,對職業運動數據分析的影響。 尤其 Nate Silver 發明的 PECOTA 模型,使用尋找分身(DOPPELGANGER)的思維,預測波士頓紅襪隊球星 David Ortiz 的生涯表現,令人印象深刻。

所謂尋找分身(doppelganger),就是從數據母體(population)中,找出和你最相像的人。2009年的老爹 Ortiz,陷入生涯低潮,棒球相關媒體都預言這是他該謝幕的時候,畢竟運動員是「不許英雄見白頭」的,就像 Bill SimmonsESPN 專欄所說

Beefy sluggers are like porn stars, wrestlers, NBA centers and trophy wives: When it goes, it goes.

Nate Silver 從大聯盟球員的生涯攻守資料裡,找出和 David Ortiz 在 34歲之前的表現最相像的幾個球員,比如 Jim ThomeJorge Posada,根據這些「分身」的記錄,Nate Silver 斷定 David Oritz 的職業球員生涯還不到結束的時候。事實證明,Nate Silver 是對的,Seth 說的有趣 But for Ortiz’s doppelgangers, when it went, it came back.

就如作者所說,Doppelganger searches are promising in many fields, not just athletics。尋找分身,不就是推薦系統的文獻裡面,提到「協同過濾」的精髓,常常用的字眼 like-minded 嗎?推薦系統商用化的先驅者 Netflix、Pandora 和 Amazon,都是深知 doppelfanger 威力的好例子啊:

And this is how Netflix figures out the movies you might like. The impact has been so profound that when Amazon engineer Greg Linden originally introduced doppelganger searches to predict readers’ book preferences, the improvement in recommendations was so good that Amazon founder Jeff Bezos got to his knees and shouted, “I’m not worthy!” to Linden.

很巧,今年 IEEE Internet Computing 恰逢 20 週年紀念,選出這二十年來,對網際網路產業影響最深遠的文章, 編輯們把 The Test of Time 殊榮給了 Greg Linden 為協同過濾研究奠基的 Amazon.com Recommendations: Item-to-Item Collaborative Filtering

從 like-minded 到 doppelganger 。同一個思維,不同的闡述方式,在不同的領域得到不同但是一樣耀眼的結果,這就是所謂的萬法歸宗


  1. 作者 Cathy O’Neil 把具有莫大傷害的大數據模型 Weapons of Math Destruction 簡稱為 WMD 
Advertisements