樹洞 Tree Hole 2.0

Reading, Caffeine, Alcohol, Peanuts, Cynicism…

從數據中發現自己? — August 25, 2017

從數據中發現自己?

又一個從 data 瞭解人與世界的實驗,如果 Everybody Lies 闡述的是宏觀角度的探索之道,Giorgia Lupi 在影片裡陳述的就是聚焦到一個人的微觀視角。也許,等我有時間看完 Williams Poundstone 的 Rock Breaks Scissors,會有不一樣的想法要說吧,sigh。

 

Advertisements
Our (Like-minded) Doppelganger — August 7, 2017

Our (Like-minded) Doppelganger

-

同樣是談 Big Data ,今年五月才出版的 Everybody Lies 比起 Weapons of Math Destruction ( WMD 1),好看許多。所謂好看,是指題材震撼、故事好看,作者給讀者提示了更多未來的可能性。WMD 的題材也很吸引人,內容也夠震撼,但是作者 Cathy O’Neil 在書裡面一直不停的說「這個不道德」、「這是懲罰不該懲罰的人」、「我們要小心這是不公不義的」,雖然作者的提醒大部分是對的,但是看故事的樂趣就減了三分,看到書末不免生出「我知道你說的有道理,但是,請不要再說了」的情緒。

Everybody Lies 書裡面的亮點很多,如種族問題之於美國大選、如何預估職業運動員的生涯表現、佛洛伊德的性心理學是不是現代人內心最大的壓抑等等,我猜作者 Seth Stephens-Davidowitz 在選擇題材的時候,對如何設定「鉤子」這件事,是下了大功夫的。

書裡面好幾次提到 Money Ball 和 Nate Silver 的書 The Signal and the Noise,並且從不同角度闡述 Nate Silver 的研究,對職業運動數據分析的影響。 尤其 Nate Silver 發明的 PECOTA 模型,使用尋找分身(DOPPELGANGER)的思維,預測波士頓紅襪隊球星 David Ortiz 的生涯表現,令人印象深刻。

所謂尋找分身(doppelganger),就是從數據母體(population)中,找出和你最相像的人。2009年的老爹 Ortiz,陷入生涯低潮,棒球相關媒體都預言這是他該謝幕的時候,畢竟運動員是「不許英雄見白頭」的,就像 Bill SimmonsESPN 專欄所說

Beefy sluggers are like porn stars, wrestlers, NBA centers and trophy wives: When it goes, it goes.

Nate Silver 從大聯盟球員的生涯攻守資料裡,找出和 David Ortiz 在 34歲之前的表現最相像的幾個球員,比如 Jim ThomeJorge Posada,根據這些「分身」的記錄,Nate Silver 斷定 David Oritz 的職業球員生涯還不到結束的時候。事實證明,Nate Silver 是對的,Seth 說的有趣 But for Ortiz’s doppelgangers, when it went, it came back.

就如作者所說,Doppelganger searches are promising in many fields, not just athletics。尋找分身,不就是推薦系統的文獻裡面,提到「協同過濾」的精髓,常常用的字眼 like-minded 嗎?推薦系統商用化的先驅者 Netflix、Pandora 和 Amazon,都是深知 doppelfanger 威力的好例子啊:

And this is how Netflix figures out the movies you might like. The impact has been so profound that when Amazon engineer Greg Linden originally introduced doppelganger searches to predict readers’ book preferences, the improvement in recommendations was so good that Amazon founder Jeff Bezos got to his knees and shouted, “I’m not worthy!” to Linden.

很巧,今年 IEEE Internet Computing 恰逢 20 週年紀念,選出這二十年來,對網際網路產業影響最深遠的文章, 編輯們把 The Test of Time 殊榮給了 Greg Linden 為協同過濾研究奠基的 Amazon.com Recommendations: Item-to-Item Collaborative Filtering

從 like-minded 到 doppelganger 。同一個思維,不同的闡述方式,在不同的領域得到不同但是一樣耀眼的結果,這就是所謂的萬法歸宗


  1. 作者 Cathy O’Neil 把具有莫大傷害的大數據模型 Weapons of Math Destruction 簡稱為 WMD 
很傻很天真 — August 2, 2017

很傻很天真

-

私心以為,Weapons of Math Destruction 這本書的基調就是「很傻很天真」,作者 Cathy O’Neil 不惦惦悶聲的做個金領 quant,反而跳出來告訴大家這裏有很多不公不義之事,你們千萬要小心啊。有點 naïve ,不是嗎?

所謂的 naïve,雖沒有貶義,但不免帶點唏噓和遺憾。良藥苦口,中肯實在的話不好聽啊

閱讀這本書的時候,字裏行間彷彿可以看見作者抿嘴不甘的畫面。在遍歷各個「幹壞事」的模型時,常常可以見到「我知道資本主義社會就是這樣運作的,但是我一定要說,這是不對的」,「這樣做,是懲罰貧窮,不是因為他做了什麼」這樣的句子。

尤其「天真」的是,作者在書末《結論》大聲呼籲,大數據分析的從業者一定要記得,設計演算法、建立模型的時候,一定要把公平(fairness )放在效率前面,不能「有意」做不道德的事情。很傻很天真,或許是吧?

另外一方面,作者也不時提醒讀者,你們千萬不要很傻很天真,以為大數據帶給你們的是從此幸福快樂的生活,不論貧富智愚,你們都可能是思慮不清甚至立意做惡的大數據分析模型的受害者啊!

要言不繁,這本書的基調就是 naïve 啊。說到底,這天真是苦的啊。

他們比我們快樂? — May 28, 2017

他們比我們快樂?

Martin Lindstrom 的《小數據獵人》,從 context、causality、insight 入手,和 Kenneth Neil CukierViktor Mayer-Schönberger 強調的「只求關聯,不論因果」的說法恰成對比或者互補(看讀者怎麼想啦)。

作者說故事的能力還行,有些設問也確實夠犀利,但也僅僅止於「有些」,有些個案的故事實在是不大接地氣,就標準的「行銷腔」,雲裡來霧裡去。

雖然對書的整體成績不是很滿意,但第七章《建立品牌價值》開篇的一段話,真是不能同意更多啊。每回見到這種「雖然他們的物質生活不如我們…..,但是他們比我們快樂」的說法,不管被描述比較快樂的是瓜地馬拉還是蘭嶼、綠島,我就覺得反胃,馬丁(或許是譯者的看法)說「牛頭不對馬嘴」還是婉轉客氣了,若依我不客氣的說法,持這種說法的人真是偽善、做作、噁心啊。

-

幾乎沒有例外的是,到第三世界旅行的西方人都是帶著相同的印象回家。他們表示,比起住在西方國家的人,瓜地馬拉、祕魯或菲律賓等地的居民儘管擁有的資源與物質財富較少,卻似乎非常「快樂」 – 比較親切、友善、慷慨與好客在我看來,對於住在第一世界以外的任何人來說,恰巧透露了西方的「快樂」概念有多麼地牛頭不對馬嘴假如你問出生時就一無所有的人快不快樂,大部分的人會會回答既不「快樂」也不「難過」。他們就是在過日子

MapReduce 圖解法 — April 4, 2017

MapReduce 圖解法

MapReduce 是兩位谷歌研究員,從 Functional Programming 借鑑的觀念,又是一個典型的分而治之(divide and conquer)技巧的應用,是 Hadoop 的核心觀念。因為 MapReduce 非常適合分佈式運算,被認為是大數據時代的軟體架構,適當的配置之下,就像韓信點兵多多益善,數據再多也不怕。

在這個 「21 天一定要學會點什麼」(Teach Yourself XX in 21 Days 系列書籍就是明證)的年代,快速學會重要的觀念是一定要的,換個角度,如何把重要觀念講的讓人一聽就懂,那是善莫大焉啊!於是,我們就看到一場場說故事比賽的好戲啦。

Hacker News 在 2011 年,有一個(在圈內)很有名的解釋:我來跟你說說我怎樣跟老媽解釋什麼叫 MapReduce…

We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That's map. The more people we get, the faster it goes.
Now we get together and add our individual counts. That's reduce.

可能還有人嫌這樣的解釋還不夠家長里短,白居易以老媼解詩不夠淺白,用廚房裡做菜、做辣椒醬的做法來解釋,這樣就更親民易解了。既然大家都說有一一圖解千言,圖說比文字厲害多了,Data Science Central 前幾天乾脆把 2014 在網上流傳的一張圖片翻出來,讓大家明白什麼叫 MapReduce。

-

明白了嗎? 說實話,我是似懂非懂,不求甚解啦。