Our (Like-minded) Doppelganger

-

同樣是談 Big Data ,今年五月才出版的 Everybody Lies 比起 Weapons of Math Destruction ( WMD 1),好看許多。所謂好看,是指題材震撼、故事好看,作者給讀者提示了更多未來的可能性。WMD 的題材也很吸引人,內容也夠震撼,但是作者 Cathy O’Neil 在書裡面一直不停的說「這個不道德」、「這是懲罰不該懲罰的人」、「我們要小心這是不公不義的」,雖然作者的提醒大部分是對的,但是看故事的樂趣就減了三分,看到書末不免生出「我知道這是不對的,不要再說了」的情緒。

Everybody Lies 書裡面的亮點很多,如種族問題之於美國大選、如何預估職業運動員的生涯表現、佛洛伊德的性心理學是不是現代人內心最大的壓抑等等,我猜作者 Seth Stephens-Davidowitz 在選擇題材的時候,對如何設定「鉤子」這件事,是下了大功夫的。

書裡面好幾次提到 Money Ball 和 Nate Silver 的書 The Signal and the Noise,並且從不同角度闡述 Nate Silver 的研究,對職業運動數據分析的影響。 尤其 Nate Silver 發明的 PECOTA 模型,使用尋找分身(DOPPELGANGER)的思維,預測波士頓紅襪隊球星 David Ortiz 的生涯表現,令人印象深刻。

所謂尋找分身(doppelganger),就是從數據母體(population)中,找出和你最相像的人。2009年的老爹 Ortiz,陷入生涯低潮,棒球相關媒體都預言這是他該謝幕的時候,畢竟運動員是「不許英雄見白頭」的,就像 Bill SimmonsESPN 專欄所說

Beefy sluggers are like porn stars, wrestlers, NBA centers and trophy wives: When it goes, it goes.

Nate Silver 從大聯盟球員的生涯攻守資料裡,找出和 David Ortiz 在 34歲之前的表現最相像的幾個球員,比如 Jim ThomeJorge Posada,根據這些「分身」的記錄,Nate Silver 斷定 David Oritz 的職業球員生涯還不到結束的時候。事實證明,Nate Silver 是對的,Seth 說的有趣 But for Ortiz’s doppelgangers, when it went, it came back.

就如作者所說,Doppelganger searches are promising in many fields, not just athletics。尋找分身,不就是推薦系統的文獻裡面,提到「協同過濾」的精髓,常常用的字眼 like-minded 嗎?推薦系統商用化的先驅者 Netflix、Pandora 和 Amazon,都是深知 doppelfanger 威力的好例子啊:

And this is how Netflix figures out the movies you might like. The impact has been so profound that when Amazon engineer Greg Linden originally introduced doppelganger searches to predict readers’ book preferences, the improvement in recommendations was so good that Amazon founder Jeff Bezos got to his knees and shouted, “I’m not worthy!” to Linden.

很巧,今年 IEEE Internet Computing 恰逢 20 週年紀念,選出這二十年來,對網際網路產業影響最深遠的文章, 編輯們把 The Test of Time 殊榮給了 Greg Linden 為協同過濾研究奠基的 Amazon.com Recommendations: Item-to-Item Collaborative Filtering

從 like-minded 到 doppelganger 。同一個思維,不同的闡述方式,在不同的領域得到不同但是一樣耀眼的結果,這就是所謂的萬法歸宗


  1. 作者 Cathy O’Neil 把具有莫大傷害的大數據模型 Weapons of Math Destruction 簡稱為 WMD 

哪個比較難?

不知道出於什麼原因(我想應該不是某個 Weapons of Math Destruction ,嗯哼),一個去年提出問題浮現在我的 Quora 首頁,「究竟是取得博士學位,還是全程跑完馬拉松比較難?」不出意外的,這個問題釣出不少學霸。

跑去搞醫療問題的大牛 Xavier Amatriain 說:

I have run maybe around 30 marathons, 6 of them this year (2016). I have only done a PhD and most likely won’t be doing another one in my life. So, in that sense, a PhD is “harder” than a marathon. However, the word “harder” is a bit vague, so it really depends on what “hard” means to you.

接著一位 UCDavis 的物理系助理教授,自稱跑了二十幾次馬拉松,在 2014 年的里程數是 3700 英里,她直接了當的說,幸好我這輩子只唸了一次博士,何者難度較高不言可喻。

I have done both, fortunately just once for the PhD.

總之,整個頁面的基調就是 I’ve done both and the PhD is far more difficult to complete

至於我的答案,還是不說也罷…..

縫合碎片 #3

下載羅輯思維思維團隊製作的《得到》App 已經三個月,一年過去四分之一。這三個月,試著每天早上聽每天的免費音頻節目知識新聞和「羅輯思維專欄」,也買了十來本「每天聽本書」系列的「長書摘」音頻。

除此外,這幾個月也看了不少讚揚、批評《得到》的文章,從文字的內容和語氣,很容易就分別出哪些人是出於「公心」,哪些人滿腔的「羨慕嫉妒恨」。

不管別人怎麼說,我的看法三個月來一直沒怎麼變,每天的知識新聞,即使多了萬學鋼加持,還是水水的,「乾」貨比例不大夠。至於長書摘,品質有點起伏,但是品質多半還可以,都不算太差。

但是我個人期盼許久的全本有聲書,一直沒有在中文互聯網圈子看到任何「火苗」出現。在「縫合碎片 #2」 的筆記裡,就記錄了當時我對得到團隊戰略的判斷,我想是八九不離十吧。

其實我更希望中文市場裡,能有真正的「全本」有聲書,若是得到團隊願意在這個市場試水溫,那是再好不過。不過,既然得到以「善用碎片時間學習」做為主訴求,長書摘才是他們的主戰場,我猜他們是不會碰全本有聲書這個市場的(希望我是錯的)。

不過這兩個星期,倒是找到一個「曲線救國」的方式,掌閱科技的電子書閱讀器 iReader 有朗讀功能,,雖然比不了 Audible 出品有聲書真人錄製的品質,勉強還可接受。

-

簡而言之,洗碗拖地,除了聽 Podcast 之外,又多了一個選擇。