Àm-Kong Pue Lo̍h Hái: 《數據、謊言與真相》閱讀筆記

《數據、謊言與真相》是一本建構於「大數據」之上的書。作者以深入淺出的方式，讓讀者理解大數據的威力及其限制。以下為讀後筆記，共六項。

首先，若能慎選資料來源，便能得到誠實的數據。儘管大家都認同填問卷、抽樣是個好方法，但人在寫相關問題的問卷時會在社會脈絡下思考，寫出不是那麼誠實的答案，這點就算是不計成本地全部抽樣，也無法得出人的真正想法。拜電腦演算技術發達之賜，作者運用了人們在google以及色情網站搜尋的關鍵字，研究人們心中最真實的想法，而這也使得統計結果更具有價值。

再者，大數據可以得到新領域的資訊。原本無意義的數字，在電腦系統技術成熟下，可以得出有意義的統計結果。不過作者也提醒我們，大數據的重要性不在於數字集的「大」，而在於解釋。

第三，大數據的另一項優點是可以在研究邊界中放大與縮小。例如我們可以縮小到每個城鎮，觀察城鎮中的某些特質。若收集的資料量夠多，或許甚至可以在大數據中找一個「分身」，藉由比對資料庫中一個最符合的樣本，進而預測個案的結果或可能的未來。

第四，大數據可以很容易的找出兩件事件的相關性，但這不代表兩者必有因果。一般而言，證實事件的因果關係需要經過「對照組」及「實驗組」實證後才能確定。而通常的科學研究程序，多半是提出假設、設計實驗、比較結果這樣的流程；而大數據的實驗則不同，研究者會先看到一堆數據，而他們需要回頭去想這些數據可能是由那些原因造成，進一步再思考要取用並比較那些數據才符合自然實驗。換句話說，大數據研究者無法完全的主導實驗，只能用所有的數據來講話。

第五，大數據在過往未數據化的領域會有強大發展，例如醫療領域；但對於已高度數據化的領域，則幫助有限（例如金融領域）。此外，變數太多的領域，要需要更多數據才能解釋，但實務上其實根本無法達成（作者在書中是說維度太高，例如樂透號碼）。

最後，和所有科學一樣，大數據一樣也存在所謂的「道德邊界」。就算經過嚴格的論證，得知了兩件事情的因果，我們是否能依照這個結果主動去遏止犯罪？又我們要如何在連續的數字中界定行動的域值？（例如現實中警察對於在google搜尋100次的「殺人」還可以不用去找他，但搜尋101次就要去關心？）這些作為很有可能會產生人權（特別是隱私權）侵害。此外，夜深人靜在色情網站前搜尋的資料，能夠任意地被人拿去做研究，甚至被有心人拿去利用（例如商業行為）嗎？這些都是值得深思的問題。

就我而言，這本書和《橘子蘋果經濟學》的閱讀體驗很類似，這兩本書閱讀完都有一種「原來是這樣啊」的感覺，也可以在書中感受到作者要讀者摒棄以直覺為主的思考模式－－就算是面對同一事實，也不要輕易或武斷地認為是某一種原因所造成。不過兩書還是有些差異。以《橘子蘋果經濟學》來說，該書是以經濟學出發，作者主要是希望讀者在閱讀之後能夠培養經濟學的思維，落實於日常。而本書則是向大眾揭開大數據（或稱數據科學）的面紗，告訴我們此領域的強項與困境，期待讀者對這項新興科學有正確的認識。對於大數據好奇的朋友，本書可以作為一本入門書，值得一讀。

Àm-Kong Pue Lo̍h Hái

2020年4月6日

《數據、謊言與真相》閱讀筆記

沒有留言:

張貼留言