十年前的今日

十年前,Web 2.0 的熱潮方興未艾,於是也湊熱鬧的開了一個部落格,那時剛接觸 Data Mining 這門學問,一邊整理文獻,一邊做筆記,一時腦熱,拍拍腦袋就把筆記稍作修整,放上部落格

現在應該沒人在乎 1989 的 IJCAI 有什麼歷史意義了,那時的傻勁,真可愛

Data Mining is the evolution of a filed with long history, the term “data mining” emerged in late ’80s and the researches of data mining flourished since 1990s. Many believed that the birth of data mining (or knowledge discovery) should trace back to the 1989 IJCAI workshop on Knowledge Discovery in Databases took pace in Detroit, Michigan, USA. The report was published in AI magazine and the bibex can be found at ACM digital library. The context of the document can be found at KDnuggets. (The Proceedings of the conference may be of interest).

過去生了現在的我

非常愛這句「然而我還是愛著過去 因為過去生了現在的我」,翻出來重貼,提醒自己。

~ original published at blurkerlab.blogspot.tw on February 9, 2008


 

(2008) 年假期間,聽到許久沒有聯絡朋友、故舊、家族親友這幾年間發生的「故事」,有些不愉快的事雖然早在意料中,但是驟然聽到這麼多不同親朋的離合悲歡,還有他們各自的心情,一時間沒有辦法調適過來,總覺得心裡堵著些東西。

恰好讀到2008聯合報副刊2月4日發表的《甦》,心有所感,抄錄於後。過去生了現在的我,但是你喜歡現在的你嗎?

-

Two Cups A Day

唸書的時候,和實驗室裡同樣喜歡喝咖啡的同學,常常到校園外的咖啡廳喝咖啡聊是非,還仿 Two Apples A Day 的諺語,喊出 Two Cups A Day 的口號。那時在 Flickr 上找到下面這張圖,一杯抵兩杯,喝上一杯就符合一天兩杯的主旨,於是截圖加註,做為我們的 Logo。

畢業之後,雖然不能說天各一方,但是大家各忙各的,儘管大夥都盡可能配合挪時間,但是要湊到一起喝兩杯,仍然不是件容易的事。

~original published on blurkerlab.blogspot.com at Apr 4, 2010

 

但是有人說了,一天兩杯再翻倍,一天四杯更好…

Component in Coffee Enhances Protection Against Alzheimer’s Disease

Image via: Component in Coffee Enhances Protection Against Alzheimer’s Disease

戒慎恐懼

上禮拜翻出舊文,想起之前等期刊回覆時的心情,那時 John Battelle 在部落格提到谷歌創辦人 Larry Page & Brin Sergey 離校之前,投論文的結果也是非常不順。一時間,煎熬翻騰的情緒有了出口,心情大好,阿Q 的處世態度,對心理健康確實有好處啊(呵呵)。

… when Larry and Sergey first presented Google, they couldn’t even get their paper accepted (it took three tries, if I recall correctly. Someone should write a book about that…).

-

沒想到,SEO by the Sea 的老大 Bill Slawski,竟然在愚人節那天,翻出當年兩位創辦人在校期間寫的論文,還找出可以正常下載的超連結。甚至還有人從 Web Archive 翻出那時候 Stanford 大學的網頁 1,看到這麼多年前的網頁,不知說什麼好

看到這些出土「古董」,有兩個想法,一是在這個時代,掌握搜索技能真是生存必備,許多人提過這件事了,此處不多說;第二個想法比較恐怖,我突然想到《刪除:大數據取捨之道》這本書所說的,在這個信息時代,你曾經幹過的事,都會留下痕跡。不管是好事壞事,不管你希望別人怎麼看怎麼想,只要是有心人,一定能挖掘到你「曾走過的痕跡」,而且你不知道別人怎麼解讀詮釋這些痕跡!

-

除了戒慎恐懼,夫復何言!

They call you a sucker

本想找些奮力一博 1.0 時代的文章,重新改寫。農曆年期間,認真檢視從前寫的東西,發現值得再花時間的東西實在不多。有些是早已失去時效的「時事」,有些文章裡面太多情緒性的文字, 再則有些當初看過的論文,已經是 obsolete 的東西,改寫沒有任何意義。

少數值得再撿起來好好琢磨的東西,除了 recommender vs. long tail 這個需要好好讀書重新來過的題材1之外,當初寫論文時焦躁心情寫的一些自我解嘲的東西,倒是蠻有意思的。

那陣子,Thomas Basbøll 以學術寫作、學術倫理和學術界生態為主題的部落格 Research as a second language,談研究生涯的 Mentoring 與 Coaching 議題 ,說他認為「痛苦」是從事研究不可缺少不可分割的一部分。

I do believe that “suffering” is an important part of research (in Danish, as Kierkegaard pointed out, suffering rhymes with science).

那時正處在等待期刊回覆的煎熬中,看到 Thomas Basbøll 如此 cynical 的按語,實在五味雜陳,倍感挫折。所幸同個時間我看到米國著名記者和作家,The Search 的作者 John Battelle ,在他的個人部落格提到,對搜尋技術和商業模式都有里程碑意義的谷歌,創辦人 Larry Page & Brin Sergey 在創辦谷歌前,論文屢屢被退。心情好過許多:

when Larry and Sergey first presented Google, they couldn’t even get their paper accepted (it took three tries, if I recall correctly. Someone should write a book about that…).

總之,就像 PHD Comics 在 2010 年發表的一幅單格漫畫 ,那陣子不才在下鄙人我,從裡到外,就是不折不扣的 SUCKER 啊…

-


  1. 我必須說,這絕對不是一個承諾 

掌握費米問題的技巧

前幾天一時手滑,下載了羅輯思維團隊的 App – 得到,充值一小筆錢,買了幾個音頻產品聽聽。

得到裡面的音頻產品有幾類,第一種是付費專欄的解說音頻;第二種是《XX說書》,用 20 ~40 分鐘解說一本政經社科類的書籍,將重點精髓用盡可能最少的時間勾勒出來,讓聽者可以快速的拿來應用在生活與學習中(拿來顯擺無疑也是應用之一);第三種是企劃式的系列,比如介紹小吃的《吃貨系列》;最後一種,是每天早晨五、六則的知識新聞,用大陸互聯網圈子的用詞,我認為沒什麼乾貨,水水的。

-

首本嘗試的是 Superforecasting 的中譯本《超預測1》的解說,350 頁的書濃縮在 25 分鐘裡,整理的還可以2。知乎上有同學說,這種實用乾貨類的東西,得到團隊整理的不差,算是公允之論。當然,把一本書認真老實 from cover to cover 的讀完,和花個 30 分鐘囫圇下肚,效果是一定不同的。就像先前說的,這只是起點,如果你把這個當做終點,怪得誰來

超預測這本書,與其說是教人如何預測 (forecast),還不如老老實實的說,這是一本教人如何 estimate and measure 的書,若從這個觀點來看,不失為一本好書。Amazon 網站上產品介紹頁的廣告辭 The most important book on decision making since Daniel Kahneman’s Thinking, Fast and Slow. 那就真是溢美之辭了。

書中談到面對評估(誒,或者說預測吧)問題時,有那些技巧可以應用時,第一個談到的技巧是費米問題的處理思維,依照維基百科解釋費米問題的精神,是將問題拆解成可以執行簡易計算的小塊,然後以分而治之(divide and conquer)的方式,把問題組合起來,得到完整答案。

…is an estimation problem designed to teach dimensional analysis, approximation, and such a problem is usually a back-of-the-envelope calculation.

這個思路的最佳範例,除了費米本人幾次在原子物理領域的幾次精彩表演之外,最有名的應該是他在課堂上要求學生估算芝加哥有幾個鋼琴調音師這個問題了。得到說書音頻的文稿,是這樣說鋼琴調音師問題的:

比如說現在有這麽一道題,問芝加哥有多少個鋼琴調音師,在不借助任何工具的情況下我們來猜一下。很多人看到這個問題的第一反應就是,我靠,這怎麽猜,完全沒有一個參考標準,要麽就是隨便猜一個數字,一千、一萬,不知道,隨便猜的。那預測家他就不會這麽做,他們會試著去解答這個問題,首先就是要把這個問題拆開。問一下要解決這個問題我需要知道哪些條件,就拿這個問題來說,鋼琴調音師的數量取決於鋼琴調音拿到的總工作量和雇傭一位鋼琴師可以做的工作量。第一個,芝加哥總的鋼琴數量。第二個,每年給這些鋼琴平均的調音次數;第三個,給每臺鋼琴調音所需要的時間;而第四個,鋼琴調音師每年平均工作的時間。有一點數量基礎的人都知道,用前三個數值除以最後一個數值就可以算出芝加哥有多少位鋼琴調音師了。

最後我們可以得到一個公式:芝加哥調音師人數 =(人口數/每戶平均人數)╳平均每年調音次數÷(每名調音師每天可調的鋼琴架數╳一年的工作天數),依照這個公式得出的調音師人數是 63 位,經過求證,和真正的數字相去不遠。

其實,我對費米問題,一點都不陌生。在初入社會的前幾年,擔任工程師的職位,有一次要估算某個電信設備的全省需求,那時的總經理用 divide and conquer 的技巧,精彩的示範一個不懂電信的人,如何估算設備與頻寬的需求。有一點懵懂,有一點開竅,但是還沒全部掌握其中精髓,但是能夠交差,還是很快樂的。

後來,從工程師角色轉到一般的管理職,那時的直屬主管,也是我職涯的 mentor,下馬威似的問了我和部門內負責行銷的同仁幾個問題,「你怎麼估計開喜烏龍茶一年的銷售量是多少?」, 「臺北市租用影印機的市場有多大?」, 他對著面面相覤的我們,細細的把如何拆分問題,divide and conquer 的精義,如何估算市場需求的技巧娓娓道來。 當時的我,就像被電擊一樣,把之前鑿穿一半的竅門,徹底弄通了。

那次震撼教育我最大的收獲,不是掌握一件事、一種問題的解題技巧,而是徹底打開一方天地,掌握解決題目的思路原則,也更有自信自己可以對跨入任何一個新領域。

衷心感謝職場路上的引路人和教我如何在叢林裡生存的前輩們,謝謝你們

最後,得到諸君給超預測這本書的總結如下:預測家用的方法用一句話來概括就是,先把問題分解找出已知條件和未知條件,對未知條件各個擊破,然後找出各種觀察視角,確定一個大的基礎概率。在這個基礎上持續關注相關信息的最新動態,做出頻繁的小浮動調整,最後得到一個概率值。


  1. 超預測是 Philip Tetlock 和 Dan Gardner 合著的 Superforecasting 的簡體中譯版書名 
  2. 後來看到,在知乎上有人反應,不同的總結者,總結的品質高下不同,在聽了兩三本書之後,有相同感受 

[咖啡臥遊] 記得那年初見 Yirgacheffe

傳說中咖啡原鄉衣索比亞西南部小鎮耶加雪夫 (Yirgachefe),大概是繼上一代臺灣飲者耳熟能詳的巴西曼特寧之後,在新一代臺灣咖啡飲者中心目中,知名度最高的咖啡產地了。

約莫十來年前,耶加雪夫的柑橘香氣和香甜果酸味道,讓臺灣消費者體味和曼特寧的焦苦完全不一樣的風味,耶加雪夫幾乎變成精品咖啡的代名詞。

十年過去,臺灣咖啡產業和消費習慣改變的速度飛快,現在我們知道,這世界上不僅東非有高品質的咖啡豆,南美洲也有價格高昂風味迷人的精品,甚至連過去以茶文化聞名的區域,比如臺灣的阿里山、中國的雲南都有性價比不錯的咖啡豆。

咖啡原鄉

國際咖啡組織(International Coffee Organization)今年初公佈的統計,伊索比亞是世界第五大咖啡出口國,去年(2016)出口數量佔所有咖啡出口國家出口總數的 4.3%。

傳說中,約莫西元 750 年前後(也有人說是西元850年左右),衣索比亞的牧羊童 Kaldi 因為看見羊群吃了一種紅色莓果而舞動聯翩(Kaldi and The Dancing Goat),因此發現了咖啡。所以位在東非的衣索比亞,成了人們口中的咖啡原鄉。

 

語言學家王了一的小品文集《龍蟲並雕齋瑣語》收錄了他在對日抗戰期間(1942年)寫的幾篇小品,其中談到咖啡的起源。70年前,剛開始學喝咖啡沒有很久的中國人都津津樂道這故事,可見這個故事流傳之廣和深入人心的程度。

從前亞比西尼亞有一個牧羊人,他看見他的羊群忽然精神興奮,大跳大跑。他仔細研究原因,才知道它們嚙食了某一種樹的葉子和果實,以致如此。他采了些果實回家煎湯吃下去,果然他自己也精神興奮起來。吃上了癮,就常常煎來吃。後來人們把制法改良了,就成為今日的咖啡。

雖然有人說跳舞的羊群是為了傳播咖啡文化所編出來的故事1,但是生活需要意義,人們需要故事,所以…

We have a habit of spreading myths about coffee, and sometimes we debunk them, but to evaluate these stories as folklore gives us the chance to gain valuable insight into what drives us as coffee people, what makes coffee valuable to us, and how we might better develop our (and our customers’) understanding of what coffee is in our culture.

安身立命的耶加雪夫

1974 年在伊索比亞挖掘出來的露西,和 2015 年最新的考古發現,使得許多人認為伊索比亞是極可能是人類的發源地,加上十、五六世紀傳下來的咖啡傳說,伊索比亞儼然就是被上帝賜福之地。

但非洲幾個世紀來的動盪不安,讓人不得不質疑,賜福之地究竟是真是假。所以耶加雪夫的地名傳說,讓人覺得特別療癒和撫慰。

據說耶加(Yirga)的意思是安頓下來,雪夫(Cheffe)則是指溼地,因此耶加雪夫 Yirgacheffe 的意思是「讓我們在這塊溼地安頓下來」。或許是因為水土得天獨厚,這個海拔約 1800-2000 公尺的小鎮,成了世界上最有名的咖啡產地。

耶加雪夫是伊索比亞地理中心偏西南一點點的蓋迪奧區 Gedeo Zone 轄下一個小鎮(woreda2,依照當地政府人口統計資料,2005 的人口數只有兩萬出頭,但是因為咖啡豆的關係,名氣比起衣索比亞首府,甚或上一兩級的行政區有過之而無不及。

伊索比亞在 1995 和 2015 年改過行政區域,所以網上關於伊索比亞的地理與國情的資料極其紊亂,維基百科不同條目對於行政區域隸屬的說明互相矛盾,很難明白那個是對的。目前只能確定 Gedeo Zone 和谷歌地圖上的經緯度應該是正確的。

-

Image Source – Google Map

人生若只如初見

最早喝到耶加雪夫產的豆子,是十五年前在淡江大學側門水源路巷子裡面一家叫做「陽光小鎮」的咖啡簡餐店,老闆有一手用虹吸壺沖煮咖啡的好手藝,簡餐也相當可口怡人,我和實驗室學弟們極愛在晚餐時間去那兒吃晚餐,喝杯咖啡,聊聊是非,然後各自回該回的地方。

-

某次在陽光小鎮喝完咖啡後拍的照片,當時自我解嘲是
等閒白了少念頭,空「杯」切

十五年過去,水源路冷清許多,陽光小鎮歇業,我離開淡水,不在淡水地區走動了。這些年喝過的耶加雪夫產區咖啡,也不只區區一種了。現在的豆商,在耶加雪夫之後,都要加上後綴,耶加儼然成立一個品牌傘,後綴也許是耶加產區附近的咖啡合作社,也許是有地緣關係的咖啡豆處理廠,也許是合作社旗下的單一小農。但是多半店家的標示都語焉不詳,若不深究,不知道後綴指的是什麼,總之,看起來就像一個個耶加品牌傘下的副品牌。網路上隨便搜一下,就找到下面幾個耶加「品牌」:

  • Banko Gotitii 果丁丁村
  • Chelba 查爾巴
  • Kochere 科契爾
  • Reko 瑞可
  • Kebel Aricha 艾瑞嘉
  • Beloya 碧洛雅
  • Kokanna 可可娜
  • Idido Misty Valley 迷霧山谷
  • Alemayehu 阿洛默
  • Harfusa 荷芙莎
  • Adame Gorbota 亞達玫
  • Wonago 瓦納果
  • Worka 沃卡
  • Hambela 罕貝拉
  • Gedeb 歌迪貝

領導的最愛

最近半年,家裡的領導愛上耶加雪夫西邊4公里的 Kebel Aricha Mill 產的豆子,一位經營自家烘焙的朋友說,他為領導準備了 20 公斤生豆。別人是保證「菜管飽,酒管夠」,這又是那招…..

-

This coffee comes from a mill in the Gedeo zone, which is an area that we’ve been lucky enough to enjoy coffee from before. It’s situated about four kilometres west of the town of Yirgacheffe, in the Guji area of Ethiopia. The mill is called Kerbal Aricha, and it’s owned by Surafel Birhanu.

卻道故人心易變,最愛是有保鮮期的,誰知道下個月領導的最愛會不會變成 Beloya 或是 Worka 呢?


  1. 韓懷宗先生下了很大的功夫考證這個故事的真偽,考證的結論收錄在他 2017 年與中國出版的《世界咖啡學》裡面 
  2. woreda 是衣索比亞第三級行政區域