2020年4月6日

《數據、謊言與真相》閱讀筆記


圖片來源:TAAZE讀冊生活


《數據、謊言與真相》是一本建構於「大數據」之上的書。作者以深入淺出的方式,讓讀者理解大數據的威力及其限制。以下為讀後筆記,共六項。


首先,若能慎選資料來源,便能得到誠實的數據。儘管大家都認同填問卷、抽樣是個好方法,但人在寫相關問題的問卷時會在社會脈絡下思考,寫出不是那麼誠實的答案,這點就算是不計成本地全部抽樣,也無法得出人的真正想法。拜電腦演算技術發達之賜,作者運用了人們在google以及色情網站搜尋的關鍵字,研究人們心中最真實的想法,而這也使得統計結果更具有價值。


再者,大數據可以得到新領域的資訊。原本無意義的數字,在電腦系統技術成熟下,可以得出有意義的統計結果。不過作者也提醒我們,大數據的重要性不在於數字集的「大」,而在於解釋。


第三,大數據的另一項優點是可以在研究邊界中放大與縮小。例如我們可以縮小到每個城鎮,觀察城鎮中的某些特質。若收集的資料量夠多,或許甚至可以在大數據中找一個「分身」,藉由比對資料庫中一個最符合的樣本,進而預測個案的結果或可能的未來。


第四,大數據可以很容易的找出兩件事件的相關性,但這不代表兩者必有因果。一般而言,證實事件的因果關係需要經過「對照組」及「實驗組」實證後才能確定。而通常的科學研究程序,多半是提出假設、設計實驗、比較結果這樣的流程;而大數據的實驗則不同,研究者會先看到一堆數據,而他們需要回頭去想這些數據可能是由那些原因造成,進一步再思考要取用並比較那些數據才符合自然實驗。換句話說,大數據研究者無法完全的主導實驗,只能用所有的數據來講話。


第五,大數據在過往未數據化的領域會有強大發展,例如醫療領域;但對於已高度數據化的領域,則幫助有限(例如金融領域)。此外,變數太多的領域,要需要更多數據才能解釋,但實務上其實根本無法達成(作者在書中是說維度太高,例如樂透號碼)。


最後,和所有科學一樣,大數據一樣也存在所謂的「道德邊界」。就算經過嚴格的論證,得知了兩件事情的因果,我們是否能依照這個結果主動去遏止犯罪?又我們要如何在連續的數字中界定行動的域值?(例如現實中警察對於在google搜尋100次的「殺人」還可以不用去找他,但搜尋101次就要去關心?)這些作為很有可能會產生人權(特別是隱私權)侵害。此外,夜深人靜在色情網站前搜尋的資料,能夠任意地被人拿去做研究,甚至被有心人拿去利用(例如商業行為)嗎?這些都是值得深思的問題。


就我而言,這本書和《橘子蘋果經濟學》的閱讀體驗很類似,這兩本書閱讀完都有一種「原來是這樣啊」的感覺,也可以在書中感受到作者要讀者摒棄以直覺為主的思考模式--就算是面對同一事實,也不要輕易或武斷地認為是某一種原因所造成。不過兩書還是有些差異。以《橘子蘋果經濟學》來說,該書是以經濟學出發,作者主要是希望讀者在閱讀之後能夠培養經濟學的思維,落實於日常。而本書則是向大眾揭開大數據(或稱數據科學)的面紗,告訴我們此領域的強項與困境,期待讀者對這項新興科學有正確的認識。對於大數據好奇的朋友,本書可以作為一本入門書,值得一讀。

沒有留言:

張貼留言

近日垃圾留言頗多,因此將留言改為審核制。這裡依然歡迎各方留言,並請多使用非匿名留言的方式留話。假設您若無google等相關帳號,可使用[名稱/網址]留話。

請您注意,採用匿名留言或廣告的訪客,留言將不會通過審核。