Our (Like-minded) Doppelganger

-

同樣是談 Big Data ,今年五月才出版的 Everybody Lies 比起 Weapons of Math Destruction ( WMD 1),好看許多。所謂好看,是指題材震撼、故事好看,作者給讀者提示了更多未來的可能性。WMD 的題材也很吸引人,內容也夠震撼,但是作者 Cathy O’Neil 在書裡面一直不停的說「這個不道德」、「這是懲罰不該懲罰的人」、「我們要小心這是不公不義的」,雖然作者的提醒大部分是對的,但是看故事的樂趣就減了三分,看到書末不免生出「我知道這是不對的,不要再說了」的情緒。

Everybody Lies 書裡面的亮點很多,如種族問題之於美國大選、如何預估職業運動員的生涯表現、佛洛伊德的性心理學是不是現代人內心最大的壓抑等等,我猜作者 Seth Stephens-Davidowitz 在選擇題材的時候,對如何設定「鉤子」這件事,是下了大功夫的。

書裡面好幾次提到 Money Ball 和 Nate Silver 的書 The Signal and the Noise,並且從不同角度闡述 Nate Silver 的研究,對職業運動數據分析的影響。 尤其 Nate Silver 發明的 PECOTA 模型,使用尋找分身(DOPPELGANGER)的思維,預測波士頓紅襪隊球星 David Ortiz 的生涯表現,令人印象深刻。

所謂尋找分身(doppelganger),就是從數據母體(population)中,找出和你最相像的人。2009年的老爹 Ortiz,陷入生涯低潮,棒球相關媒體都預言這是他該謝幕的時候,畢竟運動員是「不許英雄見白頭」的,就像 Bill SimmonsESPN 專欄所說

Beefy sluggers are like porn stars, wrestlers, NBA centers and trophy wives: When it goes, it goes.

Nate Silver 從大聯盟球員的生涯攻守資料裡,找出和 David Ortiz 在 34歲之前的表現最相像的幾個球員,比如 Jim ThomeJorge Posada,根據這些「分身」的記錄,Nate Silver 斷定 David Oritz 的職業球員生涯還不到結束的時候。事實證明,Nate Silver 是對的,Seth 說的有趣 But for Ortiz’s doppelgangers, when it went, it came back.

就如作者所說,Doppelganger searches are promising in many fields, not just athletics。尋找分身,不就是推薦系統的文獻裡面,提到「協同過濾」的精髓,常常用的字眼 like-minded 嗎?推薦系統商用化的先驅者 Netflix、Pandora 和 Amazon,都是深知 doppelfanger 威力的好例子啊:

And this is how Netflix figures out the movies you might like. The impact has been so profound that when Amazon engineer Greg Linden originally introduced doppelganger searches to predict readers’ book preferences, the improvement in recommendations was so good that Amazon founder Jeff Bezos got to his knees and shouted, “I’m not worthy!” to Linden.

很巧,今年 IEEE Internet Computing 恰逢 20 週年紀念,選出這二十年來,對網際網路產業影響最深遠的文章, 編輯們把 The Test of Time 殊榮給了 Greg Linden 為協同過濾研究奠基的 Amazon.com Recommendations: Item-to-Item Collaborative Filtering

從 like-minded 到 doppelganger 。同一個思維,不同的闡述方式,在不同的領域得到不同但是一樣耀眼的結果,這就是所謂的萬法歸宗


  1. 作者 Cathy O’Neil 把具有莫大傷害的大數據模型 Weapons of Math Destruction 簡稱為 WMD 

很傻很天真

-

私心以為,Weapons of Math Destruction 這本書的基調就是「很傻很天真」,作者 Cathy O’Neil 不惦惦悶聲的做個金領 quant,反而跳出來告訴大家這裏有很多不公不義之事,你們千萬要小心啊。有點 naïve ,不是嗎?

所謂的 naïve,雖沒有貶義,但不免帶點唏噓和遺憾。良藥苦口,中肯實在的話不好聽啊

閱讀這本書的時候,字裏行間彷彿可以看見作者抿嘴不甘的畫面。在遍歷各個「幹壞事」的模型時,常常可以見到「我知道資本主義社會就是這樣運作的,但是我一定要說,這是不對的」,「這樣做,是懲罰貧窮,不是因為他做了什麼」這樣的句子。

尤其「天真」的是,作者在書末《結論》大聲呼籲,大數據分析的從業者一定要記得,設計演算法、建立模型的時候,一定要把公平(fairness )放在效率前面,不能「有意」做不道德的事情。很傻很天真,或許是吧?

另外一方面,作者也不時提醒讀者,你們千萬不要很傻很天真,以為大數據帶給你們的是從此幸福快樂的生活,不論貧富智愚,你們都可能是思慮不清甚至立意做惡的大數據分析模型的受害者啊!

要言不繁,這本書的基調就是 naïve 啊。說到底,這天真是苦的啊。

心理史學與大數據

艾西莫夫(Isaac Asimov)的基地系列(Foundation Series),是一部跨度長達萬年1的壯闊史詩。

小說中一代又一代主人翁們為了追索歷史走向,延續和守護銀河文明,在星系間鬥智鬥力之外,最令人驚異不置目眩神迷的,就是高居神龕的 謝頓博士(Hari Seldon)2 建立的心理史學Psychohistory3了?

依照艾西莫夫的設定,心理史學奠基在人類行為可以簡化為數學方程式的運算這個假設之上,個體行為雖然無從預測,但人類群體的反應卻能以統計方式處理,人類群體的數目越大,心理史學的預測越準確。基地的精神領袖謝頓博士,用心理史學成功預測銀河帝國的滅亡和隨後長達三萬年無可避免的混亂、破敗與蕭條。

既然帝國的覆滅不可避免,人類唯一可做的就是縮短銀河破敗失序的時間,達成任務的唯一途徑,就是掌握心理史學(Psychohistory)的奧義

Psychohistory depends on the idea that, while one cannot foresee the actions of a particular individual, the laws of statistics as applied to large groups of people could predict the general flow of future events. Asimov used the analogy of a gas: an observer has great difficulty in predicting the motion of a single molecule in a gas, but can predict the mass action of the gas to a high level of accuracy. (Physicists know this as the Kinetic theory). Asimov applied this concept to the population of his fictional Galactic Empire, which numbered a quintillion.

艾西莫夫在基地三部曲的第一步《基地》中確立了心理史學的基本,心理史學的研究樣本,是宇宙間唯一的智慧生物 – 人類,而且必須符合兩個假設:

1 – The population whose behaviour was modeled should be sufficiently large ( 研究對象總數必須非常大,作為研究對象的人類,總數必須大到足以用統計的方法來加以處理)

2 – “The population should remain in ignorance of the results of the application of psychohistorical analyses (研究對象必須不知曉本身是心理史學的分析樣本,如此才能確保所有的反應都是真正隨機的)

心理史學和我們今日熟悉的 Predictive Analytics 實在是太像了,同樣是「有所本(理論;模型)」的預測,同樣需要龐大的數據支撐,究竟這兩者有什麼不同?小說真的預言了現實嗎?艾西莫夫真的預言了大數據的到來嗎?心理史學和現在如日中天的預測分析(Predictive Analytics)有什麼關係?

Kenneth Neil CukierViktor Mayer-Schönberger 合著,前幾年將大數據變成今人生活常用字的暢銷書 Big Data: A Revolution That Will Transform How We Live, Work, and Think 裏面提到所謂的大數據三特性

  1. 數據是巨量的 (在大數據時代樣本就是母體 )
  2. 數據是雜亂無章的
  3. 數據的相關性比因果更重要 (只求關聯,不論因果)4,5

Mayer-Schönberger 所揭示的大數據特性,和上面提到心理史學的樣本條件相對照,其間的隱喻(metaphore)和聯繫,實在是讓人很難不浮想聯翩,在某些科幻小說迷心中,艾西莫夫成了大預言者和大數據的教父。有人問大數據這麼火,是不是把艾西莫夫老人家的心裡史學變成真實的東西啦,更有專家(一位遠在布達佩斯的數據科學家 Eszter Windhager-Pokol)歸納出艾西莫夫在小說裏面教了我們那些資料科學的真意

(毫不意外的,艾西莫夫教我們的第一條就是 Huge amount of data is needed to produce reliable results. )

2015 年有個老中 Daniel ZengIEEE Intelligent System 發了一篇短文,文章6從開頭就歷數水晶球、推背圖(tui bei tu),一直到科幻小說迷心中的聖杯 – 心理史學,做為人類對預測未來的癡迷的強力佐證。作者還說從小說面世至今,七十年7過去了,我(該文作者) 和大部分的 Predictive Analytics 研究者都相信,時至今日,心理史學不應該只存在小說裏面。

更樂觀的大有人在,在一個 SAP 贊助的談話節目裏,某位 SAP 高管甚至說,2017 是 Psychohistory 開始成真的一年2017 is the year that Isaac Asimov’s Psychohistory starts becoming real. – Timo Elliott)。

Data Mining Research 主筆 Sandro Saitta 去年(2016)在 Swiss Analytics 發表 Asimov, Psychohistory and Predictive Analytics,總結的很好。拜讀之後,在網上搜了一下,發現對這個問題同樣著迷的人真不少,但不是所有人都毫無保留的樂觀到底,有所保留的樂觀才是主流意見。

認真計較,小說裡的 Pyschohistory 和現實的預測分析運作在不同層面,心理史學預測全人類(全銀河、全宇宙)會發生什麼事件,比如銀河帝國無可避免的消亡,但是心理史學無法預測你明天會不會在亞馬遜買艾西莫夫的小說,而這恰是預測分析擅長的地方。 Eszter Windhager-Pokol 歸納的大數據原則第六條就是 Predictions for individuals are much less reliable。基地迷的精神領袖謝頓博士現身說法如下:

Seldon said, “I’ll be honest. I don’t know. It depends on the Chief Commissioner. I have studied him for years. I have tried to analyze his workings, but you know how risky it is to introduce the

vagaries of an individual in the psychohistoric equations. Yet I have hopes.”

在宏觀與微觀的分野上,Sandro Saitta 簡明扼要的總結非常棒:

There is a major difference between Psychohistory and Predictive Analytics: the target scale. Whereas Psychohistory focuses on predicting behaviour at a population level, Predictive Analytics is applied at an individual level.

實現心理史學的第二個難點,是數據收集問題。雖然 Daniel Zeng 對此樂觀的很,我的看法不同。大家都同意儲存科技的進步和資料收集手段的層出不窮,使得能被人類處理的數據量暴增,但是距離 Hari Seldon 所需要的數據量,還是遠遠不夠。

再者,依照基地系列書中的描述,有心理史學專長的專家們,不論是在天之涯端點星(Termius)的第一基地,或是中隱隱於市的第二基地,都在琢磨精進各種算式和理論。偏安在宇宙邊陲一角的第一基地,如何談得上收集整個銀河系所有人(智慧生物)的資料。這是小說中不明顯的小 bug 。

在現實世界裏面,要談到收集所有人的資料,再樂觀的人恐怕也不敢輕易的把這當做閒話一句的小事吧。從 Chris Anderson 在 2008 年以 End of Theory 攪亂整池春水之後,這麼些年下來,數據還是演算法那個比較重要的爭議差不多有了定論,數據重要,但演算法也很重要(很滑頭也很實際)。

forward-

基地系列從正文三部曲,回溯到前傳 Prelude to FoundationForward the Foundation,故事一條很重要的主線,就是 Hari Seldon 如何完善、精進心理史學的理論架構與演算法。

無獨有偶,Seldon 面臨不知如何處理巨量數據的情形,也考慮過如何降維,用比較少的數據,推算人類的命運。這和今日數據科學家面臨的處境何其相似。

He had extended the laws of probability in a very subtle manner to take into account new complexities and uncertainties and had ended up with elegant equations in innumerable unknowns. —Possibly an infinite number; he couldn’t tell.

….

Surely, psychohistory would have to take into account the actions and reactions and interactions of each world—each and every world. How could one study the history of twenty-five million worlds and consider all their possible interactions?

顯然,能夠預測人類命運的演算法和海量數據,以今日的科技進展,還有一段路要走。

-

我們今日享受技術進步的果實是毋庸置疑的,但是我們現在和未來幾年內即將看到的,仍然不是艾西莫夫那個心理史學的果實。但是大多數人(當然包括筆者)認為心理史學不會永遠只存在於小說裏面。

不過千萬不要忘記人生最厲害就是這個 BUT),不管技術怎麼進步,我們的精神領袖艾西莫夫曾經說過

The saddest aspect of life right now is that science gathers knowledge faster than society gathers wisdom.


  1. 依照百度百科資料,機器人系列+基地系列的時間跨度是兩萬年 
  2. 1988年出版的 Prelude to Foundation 中艾西莫夫提到 Seldon 在後世人的心中猶如 demigod 
  3. 在心理學領域,另有一個也叫心理史學的學術分枝,是由精神分析學說引出,透過社會學的研究方法,嘗試去理解過往及現在的國家或群體的一些社會性及政治性行為的背後情緒因由。這種研究,與主流的歷史學及心理學研究有很大的分別,所以被視為一門獨立的學科(說明來自維基百科)。 
  4. 本書作者接受臺灣媒體訪問,說《大資料問What比Why更重要 
  5. 有人不同意 Mayer-Schönberger 的觀點,比如BuzzFeed 的首席數據科學家Adam KelleherIf Correlation Doesn’t Imply Causation, Then What Does?,中國的《為數據而生》這本書,更火辣的說,不注重因果,是人類的墮落 
  6. D. Zeng, “Crystal Balls, Statistics, Big Data, and Psychohistory: Predictive Analytics and Beyond,” in IEEE Intelligent Systems, vol. 30, no. 2, pp. 2-4, Mar.-Apr. 2015. 
  7. 依照網路上查到資料,基地三部曲第一本書《基地》是 1951 年出版,距離文章發表的 2015 應該是 64 年 

艾西莫夫與大數據

科幻小說三大家之一的艾西莫夫(Isaac Asimov)在他的代表作之一《基地系列》建立的心理史學(Psychohistory),是一門結合數學與統計的理論,用來預測全銀河人類的命運。很多科幻迷認為,小說中的心理史學完美的預言了大數據的發展 。

-

雖然是科幻,也要講求證據。艾西莫夫在 Foundation and Empire 解釋心理史學的特性的這段話,讓眾多科幻迷一口咬定心理史學講的就是大數據。

Psychohistory dealt not with man, but with man-masses. It was the science of mobs; mobs in their billions. It could forecast reactions to stimuli with something of the accuracy that a lesser science could bring to the forecast of a rebound of a billiard ball.

在資訊科技的進步促使大數據應用變成我們日常生活的一部分之後,這個看法一日一日加深(當然也有不同的看法,當撰文另敘之)。

The entire book in itself is built around predicting the future using data and statistics. This branch of science is called “psychohistory” which is basically projecting the faith of humanity. The book is full of hints and principles of how this science can and should be used.

甚至,有資料科學家從艾西莫夫的書中精煉出 7 data science principles introduced in Asimov’s Foundation ,這個由 Eszter Windhager-Pokol 1整理的七大原則是:

  1. Huge amount of data is needed to produce reliable results.
  2. The amount of data implicates that the analysis requires computers, manual computation is impractical.
  3. Simple predictive models could be refined by adding more fields into the analysis.
  4. The results of the predictions are given in percentages.
  5. Use confidence interval.
  6. Predictions for individuals are much less reliable.
  7. Predictions for near future are more accurate than predictions for far future.

  1. Akos SzakalyEszter Windhager-Pokol 都對這七大原則做了出處解釋和闡述,文字大同小益,我也分不出究竟誰才是原創了。