MapReduce 圖解法

MapReduce 是兩位谷歌研究員,從 Functional Programming 借鑑的觀念,又是一個典型的分而治之(divide and conquer)技巧的應用,是 Hadoop 的核心觀念。因為 MapReduce 非常適合分佈式運算,被認為是大數據時代的軟體架構,適當的配置之下,就像韓信點兵多多益善,數據再多也不怕。 在這個 「21 天一定要學會點什麼」(Teach Yourself XX in 21 Days 系列書籍就是明證)的年代,快速學會重要的觀念是一定要的,換個角度,如何把重要觀念講的讓人一聽就懂,那是善莫大焉啊!於是,我們就看到一場場說故事比賽的好戲啦。 Hacker News 在 2011 年,有一個(在圈內)很有名的解釋:我來跟你說說我怎樣跟老媽解釋什麼叫 MapReduce… We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That's map. The more people we get, the faster…

心理史學與大數據

艾西莫夫(Isaac Asimov)的基地系列(Foundation Series),是一部跨度長達萬年1的壯闊史詩。 小說中一代又一代主人翁們為了追索歷史走向,延續和守護銀河文明,在星系間鬥智鬥力之外,最令人驚異不置目眩神迷的,就是高居神龕的 謝頓博士(Hari Seldon)2 建立的心理史學(Psychohistory)3了? 依照艾西莫夫的設定,心理史學奠基在人類行為可以簡化為數學方程式的運算這個假設之上,個體行為雖然無從預測,但人類群體的反應卻能以統計方式處理,人類群體的數目越大,心理史學的預測越準確。基地的精神領袖謝頓博士,用心理史學成功預測銀河帝國的滅亡和隨後長達三萬年無可避免的混亂、破敗與蕭條。 既然帝國的覆滅不可避免,人類唯一可做的就是縮短銀河破敗失序的時間,達成任務的唯一途徑,就是掌握心理史學(Psychohistory)的奧義。 Psychohistory depends on the idea that, while one cannot foresee the actions of a particular individual, the laws of statistics as applied to large groups of people could predict the general flow of future events. Asimov used the analogy of a gas: an observer has great…

艾西莫夫與大數據

科幻小說三大家之一的艾西莫夫(Isaac Asimov)在他的代表作之一《基地系列》建立的心理史學(Psychohistory),是一門結合數學與統計的理論,用來預測全銀河人類的命運。很多科幻迷認為,小說中的心理史學完美的預言了大數據的發展 。 雖然是科幻,也要講求證據。艾西莫夫在 Foundation and Empire 解釋心理史學的特性的這段話,讓眾多科幻迷一口咬定心理史學講的就是大數據。 Psychohistory dealt not with man, but with man-masses. It was the science of mobs; mobs in their billions. It could forecast reactions to stimuli with something of the accuracy that a lesser science could bring to the forecast of a rebound of a billiard ball. 在資訊科技的進步促使大數據應用變成我們日常生活的一部分之後,這個看法一日一日加深(當然也有不同的看法,當撰文另敘之)。 The…