大數據對我們的生活影響有多大？

2016-12-23
加入好友隨時分享有用經驗！

一、信息及通訊科技的進步

「數碼化」、「互聯網」和「資訊及通訊科技」不斷的進步，可以輕易有效地創造、收集、儲存、連結及分析大量數據，帶來「大數據」現象。

二、內容數據與情境數據

這些大數據大多是從我們在網上的社交聯繫、與機構的往來、及使用智能裝置而產生的個人資料。這些數據包括具「內容」的，例如Twitter訊自、短訊、電郵、電話、社交網路貼文、相片及短片。同時，通訊裝置及服務供應商亦可產生及保留一些與這些通訊有關的「情境」數據（稱為元數據），例如時間、地點、收發訊息者的資料及通訊長短等。

用互聯網提供服務的企業能夠檢視我們具「內容」的數據。眾所皆知，Google可細閱Gmail用戶的電郵內容，再根據內容而發送相關廣告。有所不知的是元數據比通訊內容可以揭示更多私隱。元數據可描述誰與誰在何時通訊、有多頻密、維時多久；發送人與接收者的所在地；誰與他們有聯繫等詳細及全面的資料。因此，這些數據揭示了我們在個人、政治、社交、財務及工作多方面的資料，可以說是巨細無遺。

究竟網路搜尋、購物及瀏覽紀錄只屬於「內容」數據，還是「元數據」呢? 這隻屬學術性的區別。更重要的是，互聯網公司可從這些紀錄中追溯個人非常私密及具揭示性的資料。正如Google行政總裁EricSchmidt於2010年所說：「我們知道你身在何方、你到過甚麼地方，甚至知道你在想甚麼。」

三、利益與私隱風險的對比

無容置疑，大數據可以帶來龐大的經濟及社會效益，因為公司和政府可以利用這些數據進行高效率的分析。他們從不同的來源把數據連繫起來，從而確認客戶(或市民)的行為及事物互動的模式，併發掘新見解，以改善與客戶(或市民)的關係，投其所好發出相關的廣告、打擊犯罪活動、改善醫療服務，及應用於其他生活不同的範疇。

大數據的分析工作，主要是拆解數據之間的相互關係。例如，2009年推出的Google流感趨勢指標 (Google FluTrends)，目的是追蹤世界各地的流感爆髮狀況：某地區愈多人透過Google搜尋流感的資料，便可推算出該地區愈多人感染流感病毒。同樣地，零售巨企Target透過分析顧客的購物模式，可識別出24種貨品（例如無香味潤膚露、營養補充品等）來推測顧客可能懷孕，因而可以向目標顧客發出相關的優惠券。

雖然這些做法有其可取之處；但是從私隱及資料保障的角度來看，卻有潛在的負面影響。

四、相互關係不等同因果關係

首先，相互關係並不一定意味有因果關係，充其量只可當為調查因果的引子。故此，雖然一些臨床研究發現不吃早餐與過度肥胖有關係，但如果作出吃早餐可以「減肥」的結論，卻是太妄斷了

1、參與研究的人士可能缺少運動，因此在早上不感到肚餓，而體重仍會增加。他們亦有可能習慣晚睡，因而沒有時間吃早餐，但進餐時卻常吃「垃圾食物」;在這些情況下，鼓勵他們吃早餐只會導致愈發肥胖，弄巧反拙。

同樣地，Google 流感趨勢指標屢受批評不能準確預測流感

2、高估了流感的散播，原因是大多數以為自己患上流感而在Google搜尋有關流感資料的人，其實並無患上流感；常出現的情況是流感癥狀原來是因其他病毒所引致。

大數據可造成誤導的另一個例子，是美國波士頓於2012年推出一項社區計劃，原意是協助居民改善街道路面的坑窪情況。義工在街上駕駛時利用流動應用程序可自動記錄路面凹凸的位置，提供實時信息，協助當局儘快作出修補，並有助長遠規劃。但有關紀錄傾向為較富有的地區提供修補道路的服務，因為該區智能電話滲透率較高。若這些偏差的數據沒加以調整，社會資源的分配便會出現扭曲。

五、利用大數據的資料作歸類

其次，利用大數據的資料來把個人歸類亦帶風險。例如，有些保險公司嘗試利用信貸報告及生活模式資料，代替驗血驗尿，以決定投保人是否符合資格及保單條款。這做法的優點是可以為顧客提供較方便及便宜的服務，顧客只需在網上回答一些與健康狀況無甚因果關係的問題，便可省卻到代驗所測試的皮肉之苦和昂貴費用，而完成投保。然而，依賴這些數據肯定會出錯。高風險的顧客可能會僥倖而受保；而健康正常的申請人卻可能被拒，或莫名其妙地要繳付較高的保險金才能夠投保，而他們在不知情下亦不能查閱及改正有關具誤導性的的資料。

同樣地，在打擊恐怖主義方面，根據統計而推斷出來的黑名單，無可避免地會出現漏誤。一些恐怖分子不會被攔截，成為漏網之魚，而無辜的乘客卻可能會錯誤地被拒登機。你唯有希望自己不會有天倒霉地成為後者。

今天的美國，充斥著以「大數據」而得出的評分。這些評分是依據金融、人口、族裔、種族、醫療、社交、消費及其他資料編纂而成，用作把個人歸成不同的類別以預測其行為及狀況，例如消費模式、健康狀況、誠信度、學業表現、就業及晉陞潛力。這些評分可以是正確的，亦可以是不準確或誤導的，值得關注的是這些評分往往缺乏透明度。受影響人士未必知道這些評分的存在、使用、背後因素及資料來源。因此，他們不能夠提出異議、改正有關資料、或拒絕成為被評分的當事人。因此，有關評分的使用可以是帶有歧視性、不公平及有偏見的。

六、侵犯私隱

大數據的使用可以有秘密監控之嫌。在上述提及的預測懷孕例子，Target「挖空心思」地鑽研顧客數據來作分析，明顯侵犯了私隱。事件的父親是因收到Target寄來大量與懷孕有關的廣告，而向Target作出投訴，因而才揭發其未成年女兒原來已懷孕三個月，弄得當事人非常尷尬。

最具啟發性的例子可能莫過於2013年的斯諾登事件，揭露有關政府如何利用大數據對國民以至全球進行大規模監察，極度侵犯民眾日常生活的私隱。美國國家安全局與世界各地的情報機構，利用程序從美國電話公司收集電話元數據，並監察各地民眾在互聯網上往來。這令我們記起SunMicrosystems行政總裁Scott McNealy於1999年的一席話：「你再沒有私隱的了，接受吧!」

七、「去識別化」的資料

大數據的使用者，或會說他們只使用去識別化的資料，即沒有姓名及其他個人身份代號的資料。他們認為把資料匿名化，私隱問題便不成立。然而，這推斷值得商榷。

智能電話或個人計算機可因應手機的識別碼、IP地址及「裝置的個人獨特設定」等資料被識認。由於這些個人通訊裝置與我們幾乎是形影不離，只要可追蹤該些裝置便等同可追蹤我們。

此外，大數據可以增加身份再識別的風險。在某些情況下，去識別化的資料可被人不經意地立即還原。萬一資料外泄，後果可以十分嚴重。

在2006年，互聯網巨企AOL因推出新的研究網站，公開了六十五萬八千名用戶的二千萬個搜尋查詢。雖然在列出搜尋紀錄時，只用代號而不是真實姓名、用戶名稱或IP地址，但關注私隱的人士依然擔心，仍可透過搜尋紀錄，識別出個別用戶的身份。事實上，在數日內，紐約時報便根據一些搜尋查詢字眼，例如「六十名單身漢」、「健康的茶」及「喬治亞州Lillburn庭園設計師」，而可以無誤地識別出其中一名用戶是來自喬治亞州Lillburn的六十二歲寡婦。當別人檢視她的搜尋查詢（包括「尼古丁影響」、「口乾」、「手震」及「躁鬱症」），她的私生活便赤裸裸地暴露於人前。經公眾強烈抗議最終導致AOL要公開道歉，並在十日內移除所有搜尋紀錄。

結語

明智地使用大數據，可以豐富生活質素及提升生產力。然而，保障顧客的私隱及資料仍必須是優先考慮。我們面對的挑戰，是要充分利用大數據的潛能，但同時又要減低其弊端，締造雙贏。

公署就這課題將於2015年6月10日舉辦半天研討會4，期望國際專家可與我們分享寶貴的見解和經驗。講者包括規管機關的執法者、學者，以及來自智庫和跨國企業的保障私隱專家；講題涵蓋法律規管、以風險利益分析為本的嶄新策略，及合乎專業操守的資料管治。我們希望這研討會可激發本港相關界別再進一步探討這課題。

你可能會喜歡