十年前的今日

十年前,Web 2.0 的熱潮方興未艾,於是也湊熱鬧的開了一個部落格,那時剛接觸 Data Mining 這門學問,一邊整理文獻,一邊做筆記,一時腦熱,拍拍腦袋就把筆記稍作修整,放上部落格。 現在應該沒人在乎 1989 的 IJCAI 有什麼歷史意義了,那時的傻勁,真可愛。 Data Mining is the evolution of a filed with long history, the term “data mining” emerged in late ’80s and the researches of data mining flourished since 1990s. Many believed that the birth of data mining (or knowledge discovery) should trace back to the…

機器學習 vs. 統計

機器學習越發受到大眾矚目之後,比較機器學習和統計有什麼不同的各種說法越來越多,我自己也在各種資料上,和各種討論(打嘴炮)場合,見過和聽說過各種偏見和意見。有一點小意外, Data Mining 圈大名鼎鼎的 KDNuggets ,竟然找了投資銀行出身的 Astash Shah 來說說機器學習和統計有什麼不同? 從教科書抄出來的定義,和一般大眾的印象,得到的總結是這樣的: Machine learning is all about predictions, supervised learning, unsupervised learning, etc. Statistics is about sample, population, hypothesis, etc. 然後 Astash Shah 說統計是數學的分枝科目,而機器學習的理論技術則是源自人工智慧。 Machine learning is a subfield of computer science and artificial intelligence. It deals with building systems that can learn from data, instead of explicitly programmed instructions. A statistical model,…

我們應該擔心嗎

前幾天 MIT Technology Review 網站有文章談到深度學習大牛 Yann LeCun 認為機器可以利用機器視覺技術從大量影片中提取「常識」等級的知識,還有篇文章談如何利用機器學習技術,協助法官判案。 光看這兩篇文章的標題,就讓我渾身冷颼颼,在人工智慧技術進展迅速的今日, John Markoff 的書Machines of Loving Grace 裡面所說 IA (intelligence augmentation) vs. AI (artificial intelligence) 的天平,似乎擺盪頻率愈發的高,擺盪幅度也愈發的大了。 看了上面這兩篇文章,我不禁懷疑,IA 和 AI 兩個取向,天平擺盪會有贏家輸家嗎?誰贏誰輸,最終對人類的影響究竟有什麼不同? AlphaGo 初次露臉之後,李開復寫了一篇《人工智慧對人類真正的威脅是什麼?》,我覺得他對人工智慧議題的觀點是稍偏 IA 這一側的。但機器若能從大量影片裡面觀察到事物的特色與限制(真的邁向 common sense 了?),那可真的是「學習」路上一大步,不是 augmentation 或 amplification ,而是 intelligence 了。 One of the things we really want to do is get machines to acquire…

都不是真的

下圖是 2009 年某產品白皮書裡面的插圖,原始出處不明。此圖深意,歷久彌新。 Datalligence: Profiling your Customers! via kwout 根據數據分析,住在我那個社區裡的人都喜歡不辣的食物,喜歡網球勝過高爾夫,訂閱至少一本新聞類的雜誌, 擁有30來條領帶, 從來不買檸檬香味的產品,而且在我的地下室有一個重型機床。 這些都不是真的,下面這個才是真的,ha ha ha… Cartoon: Perfect Valentine’s Dates Found With Data Analysis via kwout

Data Mining Doesn’t Cure Stupidity

2007 年底,在部落格 Data Strategy 看到 Data mining doesn’t cure stupidity ,文章很短,但是標題實在是太給力,至今印象深刻,常常拿這句話提醒自己。 Data mining, when done correctly, can improve understanding and provide insight, but data mining just doesn’t work under stupid assumptions. 那年底,當然把這件事寫進那年的年終檢討,文章結尾,我下了結論: 愚者千慮,個人認為,今年度最有意義文章,首選應是 Data Strategy 的 Data Mining doesn’t cure stupidity,這篇文章不長,第一段就簡要地闡明腦筋清楚比技術更重要的真諦: ….. 這段文字裡的 Data mining 換成任何名詞,都說得通,不管排行榜再多,檢討再繁,腦袋清楚才是最重要的。時值歲末,展望來年,這才是最要緊的心得,切記,切記。 ~ original published at blurkerlab.blogspot.com at Dec 16,2007 要言不繁,再重複一次,不管幹什麼,腦袋清楚才是最重要的!…