艾西莫夫(Isaac Asimov)的基地系列(Foundation Series),是一部跨度長達萬年1的壯闊史詩。

小說中一代又一代主人翁們為了追索歷史走向,延續和守護銀河文明,在星系間鬥智鬥力之外,最令人驚異不置目眩神迷的,就是高居神龕的 謝頓博士(Hari Seldon)2 建立的心理史學Psychohistory3了?

依照艾西莫夫的設定,心理史學奠基在人類行為可以簡化為數學方程式的運算這個假設之上,個體行為雖然無從預測,但人類群體的反應卻能以統計方式處理,人類群體的數目越大,心理史學的預測越準確。基地的精神領袖謝頓博士,用心理史學成功預測銀河帝國的滅亡和隨後長達三萬年無可避免的混亂、破敗與蕭條。

既然帝國的覆滅不可避免,人類唯一可做的就是縮短銀河破敗失序的時間,達成任務的唯一途徑,就是掌握心理史學(Psychohistory)的奧義

Psychohistory depends on the idea that, while one cannot foresee the actions of a particular individual, the laws of statistics as applied to large groups of people could predict the general flow of future events. Asimov used the analogy of a gas: an observer has great difficulty in predicting the motion of a single molecule in a gas, but can predict the mass action of the gas to a high level of accuracy. (Physicists know this as the Kinetic theory). Asimov applied this concept to the population of his fictional Galactic Empire, which numbered a quintillion.

艾西莫夫在基地三部曲的第一步《基地》中確立了心理史學的基本,心理史學的研究樣本,是宇宙間唯一的智慧生物 – 人類,而且必須符合兩個假設:

1 – The population whose behaviour was modeled should be sufficiently large ( 研究對象總數必須非常大,作為研究對象的人類,總數必須大到足以用統計的方法來加以處理)

2 – “The population should remain in ignorance of the results of the application of psychohistorical analyses (研究對象必須不知曉本身是心理史學的分析樣本,如此才能確保所有的反應都是真正隨機的)

心理史學和我們今日熟悉的 Predictive Analytics 實在是太像了,同樣是「有所本(理論;模型)」的預測,同樣需要龐大的數據支撐,究竟這兩者有什麼不同?小說真的預言了現實嗎?艾西莫夫真的預言了大數據的到來嗎?心理史學和現在如日中天的預測分析(Predictive Analytics)有什麼關係?

Kenneth Neil CukierViktor Mayer-Schönberger 合著,前幾年將大數據變成今人生活常用字的暢銷書 Big Data: A Revolution That Will Transform How We Live, Work, and Think 裏面提到所謂的大數據三特性

  1. 數據是巨量的 (在大數據時代樣本就是母體 )
  2. 數據是雜亂無章的
  3. 數據的相關性比因果更重要 (只求關聯,不論因果)4,5

Mayer-Schönberger 所揭示的大數據特性,和上面提到心理史學的樣本條件相對照,其間的隱喻(metaphore)和聯繫,實在是讓人很難不浮想聯翩,在某些科幻小說迷心中,艾西莫夫成了大預言者和大數據的教父。有人問大數據這麼火,是不是把艾西莫夫老人家的心裡史學變成真實的東西啦,更有專家(一位遠在布達佩斯的數據科學家 Eszter Windhager-Pokol)歸納出艾西莫夫在小說裏面教了我們那些資料科學的真意

(毫不意外的,艾西莫夫教我們的第一條就是 Huge amount of data is needed to produce reliable results. )

2015 年有個老中 Daniel ZengIEEE Intelligent System 發了一篇短文,文章6從開頭就歷數水晶球、推背圖(tui bei tu),一直到科幻小說迷心中的聖杯 – 心理史學,做為人類對預測未來的癡迷的強力佐證。作者還說從小說面世至今,七十年7過去了,我(該文作者) 和大部分的 Predictive Analytics 研究者都相信,時至今日,心理史學不應該只存在小說裏面。

更樂觀的大有人在,在一個 SAP 贊助的談話節目裏,某位 SAP 高管甚至說,2017 是 Psychohistory 開始成真的一年2017 is the year that Isaac Asimov’s Psychohistory starts becoming real. – Timo Elliott)。

Data Mining Research 主筆 Sandro Saitta 去年(2016)在 Swiss Analytics 發表 Asimov, Psychohistory and Predictive Analytics,總結的很好。拜讀之後,在網上搜了一下,發現對這個問題同樣著迷的人真不少,但不是所有人都毫無保留的樂觀到底,有所保留的樂觀才是主流意見。

認真計較,小說裡的 Pyschohistory 和現實的預測分析運作在不同層面,心理史學預測全人類(全銀河、全宇宙)會發生什麼事件,比如銀河帝國無可避免的消亡,但是心理史學無法預測你明天會不會在亞馬遜買艾西莫夫的小說,而這恰是預測分析擅長的地方。 Eszter Windhager-Pokol 歸納的大數據原則第六條就是 Predictions for individuals are much less reliable。基地迷的精神領袖謝頓博士現身說法如下:

Seldon said, “I’ll be honest. I don’t know. It depends on the Chief Commissioner. I have studied him for years. I have tried to analyze his workings, but you know how risky it is to introduce the

vagaries of an individual in the psychohistoric equations. Yet I have hopes.”

在宏觀與微觀的分野上,Sandro Saitta 簡明扼要的總結非常棒:

There is a major difference between Psychohistory and Predictive Analytics: the target scale. Whereas Psychohistory focuses on predicting behaviour at a population level, Predictive Analytics is applied at an individual level.

實現心理史學的第二個難點,是數據收集問題。雖然 Daniel Zeng 對此樂觀的很,我的看法不同。大家都同意儲存科技的進步和資料收集手段的層出不窮,使得能被人類處理的數據量暴增,但是距離 Hari Seldon 所需要的數據量,還是遠遠不夠。

再者,依照基地系列書中的描述,有心理史學專長的專家們,不論是在天之涯端點星(Termius)的第一基地,或是中隱隱於市的第二基地,都在琢磨精進各種算式和理論。偏安在宇宙邊陲一角的第一基地,如何談得上收集整個銀河系所有人(智慧生物)的資料。這是小說中不明顯的小 bug 。

在現實世界裏面,要談到收集所有人的資料,再樂觀的人恐怕也不敢輕易的把這當做閒話一句的小事吧。從 Chris Anderson 在 2008 年以 End of Theory 攪亂整池春水之後,這麼些年下來,數據還是演算法那個比較重要的爭議差不多有了定論,數據重要,但演算法也很重要(很滑頭也很實際)。

forward-

基地系列從正文三部曲,回溯到前傳 Prelude to FoundationForward the Foundation,故事一條很重要的主線,就是 Hari Seldon 如何完善、精進心理史學的理論架構與演算法。

無獨有偶,Seldon 面臨不知如何處理巨量數據的情形,也考慮過如何降維,用比較少的數據,推算人類的命運。這和今日數據科學家面臨的處境何其相似。

He had extended the laws of probability in a very subtle manner to take into account new complexities and uncertainties and had ended up with elegant equations in innumerable unknowns. —Possibly an infinite number; he couldn’t tell.

….

Surely, psychohistory would have to take into account the actions and reactions and interactions of each world—each and every world. How could one study the history of twenty-five million worlds and consider all their possible interactions?

顯然,能夠預測人類命運的演算法和海量數據,以今日的科技進展,還有一段路要走。

-

我們今日享受技術進步的果實是毋庸置疑的,但是我們現在和未來幾年內即將看到的,仍然不是艾西莫夫那個心理史學的果實。但是大多數人(當然包括筆者)認為心理史學不會永遠只存在於小說裏面。

不過千萬不要忘記人生最厲害就是這個 BUT),不管技術怎麼進步,我們的精神領袖艾西莫夫曾經說過

The saddest aspect of life right now is that science gathers knowledge faster than society gathers wisdom.


  1. 依照百度百科資料,機器人系列+基地系列的時間跨度是兩萬年 
  2. 1988年出版的 Prelude to Foundation 中艾西莫夫提到 Seldon 在後世人的心中猶如 demigod 
  3. 在心理學領域,另有一個也叫心理史學的學術分枝,是由精神分析學說引出,透過社會學的研究方法,嘗試去理解過往及現在的國家或群體的一些社會性及政治性行為的背後情緒因由。這種研究,與主流的歷史學及心理學研究有很大的分別,所以被視為一門獨立的學科(說明來自維基百科)。 
  4. 本書作者接受臺灣媒體訪問,說《大資料問What比Why更重要 
  5. 有人不同意 Mayer-Schönberger 的觀點,比如BuzzFeed 的首席數據科學家Adam KelleherIf Correlation Doesn’t Imply Causation, Then What Does?,中國的《為數據而生》這本書,更火辣的說,不注重因果,是人類的墮落 
  6. D. Zeng, “Crystal Balls, Statistics, Big Data, and Psychohistory: Predictive Analytics and Beyond,” in IEEE Intelligent Systems, vol. 30, no. 2, pp. 2-4, Mar.-Apr. 2015. 
  7. 依照網路上查到資料,基地三部曲第一本書《基地》是 1951 年出版,距離文章發表的 2015 應該是 64 年 
Advertisements