數據收集比數據挖掘有意義

不禁想起所謂“費米悖論”(Fermi Paradox)。1950年的一天,諾貝爾獎獲得者、物理學家費米在和別人討論飛碟及外星人問題時,突然冒出一句:“如果有外星人,他們爲什麼沒在這裏?”這句看似簡單的問話,就是著名的“費米悖論”。如果認爲在如此廣闊的宇宙中(上百億光年的空間,約700萬億億顆恆星),在如此漫長的時間裏(100億~160億年),全宇宙總共只誕生了太陽系的地球這唯一的文明,這聽起來無論如何總是極端武斷的。那麼,總該有一個兩個外星文明被我們發現,或到地球來訪問過了吧?爲什麼它們至今仍然是沉默的呢?人類能用100萬年的`時間飛往銀河系各個星球,那麼,外星人只要比人類早進化100萬年,現在就應該來到地球了。迄今爲止,仍然缺乏任何被科學共同體接受的證據,能夠證明地外文明的存在;另一方面,科學共同體也無法提出任何令人信服的證據,能夠證明外星文明不存在,這就使得“費米悖論”成爲一個極端開放的問題。

數據收集比數據挖掘有意義

我們學偏微分方程的時候,總是要先論證某一類方程解的存在性。知道解的存在,才能去求解。可是,不求出解來,怎麼知道解是存在的呢?這就是一個悖論。對存在的數據集應用算法過去是產生新發現的有效方法,而現在新知識可以使用可用的材料資源創造財富,比累積新資源更有效。過去,生物學家、天文學家和宇宙學家從歷史數據中找發現,考古學家艱難地去挖掘。現在,他們可以重建所有的廢墟和人工製品,從衛星和航拍圖像偵察到的表面跟蹤想象出來。研究就真成了重新搜索。

聯想到馬航MH370失聯事件,2014年3月8日凌晨1時20分,由馬來西亞吉隆坡飛往中國北京的馬來西亞航空公司MH370航班與地面失去聯繫,機上239人中有154名中國籍乘客。此事已經過去30多天,先後26個國家參加搜索,出動幾百架次飛機和軍艦、商船,花費超過5000萬美元。先說在南海,折騰了10多天一無所獲;有人根據衛星圖像,說是在吉爾吉斯斯坦西北部的塔拉斯州州府以南約30公里處的山谷裏;後來又說是在印度洋……反覆折騰,試圖收集MH370的數據,但是,至今沒有找到。

按理說,有關的數據多得是,即使是這30多天的衛星數據、搜索飛機得到的數據,不可謂不大,不管你怎麼去挖掘這些數據,你也得不到任何MH370的數據。這個例子說明,在某些情況下,數據收集比數據挖掘更難、更有意義,因爲這種數據收集就是發現。

《新聞聯播》每天都播報MH370搜索的消息。《新聞聯播》1分鐘值多少錢?做過廣告的公司也許知道,反正很貴。也許會說,那是因爲機上有154名同胞。這問題很複雜。即使黑匣子找到了,各國都有自己的祕密,只能用各國都能接受的方式作報道。所以,這裏的數據分析是和政治有關的,甚至說,數據收集的過程也與政治有關。