大數據對我們的生活影響有多大?

一、信息及通訊科技的進步

「數碼化」、「互聯網」和「資訊及通訊科技」不斷的進步,可以輕易有效地創造、收集、儲存、連結及分析大量數據,帶來「大數據」現象。

二、內容數據與情境數據

這些大數據大多是從我們在網上的社交聯繫、與機構的往來、及使用智能裝置而產生的個人資料。這些數據包括具「內容」的,例如Twitter訊自、短訊、電郵、電話、社交網路貼文、相片及短片。同時,通訊裝置及服務供應商亦可產生及保留一些與這些通訊有關的「情境」數據(稱為元數據),例如時間、地點、收發訊息者的資料及通訊長短等。

用互聯網提供服務的企業能夠檢視我們具「內容」的數據。眾所皆知,Google可細閱Gmail用戶的電郵內容,再根據內容而發送相關廣告。有所不知的是元數據比通訊內容可以揭示更多私隱。元數據可描述誰與誰在何時通訊、有多頻密、維時多久;發送人與接收者的所在地;誰與他們有聯繫等詳細及全面的資料。因此,這些數據揭示了我們在個人、政治、社交、財務及工作多方面的資料,可以說是巨細無遺。

究竟網路搜尋、購物及瀏覽紀錄只屬於「內容」數據,還是「元數據」呢? 這隻屬學術性的區別。更重要的是,互聯網公司可從這些紀錄中追溯個人非常私密及具揭示性的資料。正如Google行政總裁EricSchmidt於2010年所說:「我們知道你身在何方、你到過甚麼地方,甚至知道你在想甚麼。」

三、利益與私隱風險的對比

無容置疑,大數據可以帶來龐大的經濟及社會效益,因為公司和政府可以利用這些數據進行高效率的分析。他們從不同的來源把數據連繫起來,從而確認客戶(或市民)的行為及事物互動的模式,併發掘新見解,以改善與客戶(或市民)的關係,投其所好發出相關的廣告、打擊犯罪活動、改善醫療服務,及應用於其他生活不同的範疇。

大數據的分析工作,主要是拆解數據之間的相互關係。例如,2009年推出的Google流感趨勢指標 (Google FluTrends),目的是追蹤世界各地的流感爆髮狀況:某地區愈多人透過Google搜尋流感的資料,便可推算出該地區愈多人感染流感病毒。同樣地,零售巨企Target透過分析顧客的購物模式,可識別出24種貨品(例如無香味潤膚露、營養補充品等)來推測顧客可能懷孕,因而可以向目標顧客發出相關的優惠券。

雖然這些做法有其可取之處;但是從私隱及資料保障的角度來看,卻有潛在的負面影響。

四、相互關係不等同因果關係

首先,相互關係並不一定意味有因果關係,充其量只可當為調查因果的引子。故此,雖然一些臨床研究發現不吃早餐與過度肥胖有關係,但如果作出吃早餐可以「減肥」的結論,卻是太妄斷了

1、參與研究的人士可能缺少運動,因此在早上不感到肚餓,而體重仍會增加。他們亦有可能習慣晚睡,因而沒有時間吃早餐,但進餐時卻常吃「垃圾食物」;在這些情況下,鼓勵他們吃早餐只會導致愈發肥胖,弄巧反拙。

同樣地,Google 流感趨勢指標屢受批評不能準確預測流感

2、高估了流感的散播,原因是大多數以為自己患上流感而在Google搜尋有關流感資料的人,其實並無患上流感;常出現的情況是流感癥狀原來是因其他病毒所引致。

大數據可造成誤導的另一個例子,是美國波士頓於2012年推出一項社區計劃,原意是協助居民改善街道路面的坑窪情況。義工在街上駕駛時利用流動應用程序可自動記錄路面凹凸的位置,提供實時信息,協助當局儘快作出修補,並有助長遠規劃。但有關紀錄傾向為較富有的地區提供修補道路的服務,因為該區智能電話滲透率較高。若這些偏差的數據沒加以調整,社會資源的分配便會出現扭曲。

五、利用大數據的資料作歸類

其次,利用大數據的資料來把個人歸類亦帶風險。例如,有些保險公司嘗試利用信貸報告及生活模式資料,代替驗血驗尿,以決定投保人是否符合資格及保單條款。這做法的優點是可以為顧客提供較方便及便宜的服務,顧客只需在網上回答一些與健康狀況無甚因果關係的問題,便可省卻到代驗所測試的皮肉之苦和昂貴費用,而完成投保。然而,依賴這些數據肯定會出錯。高風險的顧客可能會僥倖而受保;而健康正常的申請人卻可能被拒,或莫名其妙地要繳付較高的保險金才能夠投保,而他們在不知情下亦不能查閱及改正有關具誤導性的的資料。

同樣地,在打擊恐怖主義方面,根據統計而推斷出來的黑名單,無可避免地會出現漏誤。一些恐怖分子不會被攔截,成為漏網之魚,而無辜的乘客卻可能會錯誤地被拒登機。你唯有希望自己不會有天倒霉地成為後者。

今天的美國,充斥著以「大數據」而得出的評分。這些評分是依據金融、人口、族裔、種族、醫療、社交、消費及其他資料編纂而成,用作把個人歸成不同的類別以預測其行為及狀況,例如消費模式、健康狀況、誠信度、學業表現、就業及晉陞潛力。這些評分可以是正確的,亦可以是不準確或誤導的,值得關注的是這些評分往往缺乏透明度。受影響人士未必知道這些評分的存在、使用、背後因素及資料來源。因此,他們不能夠提出異議、改正有關資料、或拒絕成為被評分的當事人。因此,有關評分的使用可以是帶有歧視性、不公平及有偏見的。

六、侵犯私隱

大數據的使用可以有秘密監控之嫌。在上述提及的預測懷孕例子,Target「挖空心思」地鑽研顧客數據來作分析,明顯侵犯了私隱。事件的父親是因收到Target寄來大量與懷孕有關的廣告,而向Target作出投訴,因而才揭發其未成年女兒原來已懷孕三個月,弄得當事人非常尷尬。

最具啟發性的例子可能莫過於2013年的斯諾登事件,揭露有關政府如何利用大數據對國民以至全球進行大規模監察,極度侵犯民眾日常生活的私隱。美國國家安全局與世界各地的情報機構,利用程序從美國電話公司收集電話元數據,並監察各地民眾在互聯網上往來。這令我們記起SunMicrosystems行政總裁Scott McNealy於1999年的一席話:「你再沒有私隱的了,接受吧!」

七、「去識別化」的資料

大數據的使用者,或會說他們只使用去識別化的資料,即沒有姓名及其他個人身份代號的資料。他們認為把資料匿名化,私隱問題便不成立。然而,這推斷值得商榷。

智能電話或個人計算機可因應手機的識別碼、IP地址及「裝置的個人獨特設定」等資料被識認。由於這些個人通訊裝置與我們幾乎是形影不離,只要可追蹤該些裝置便等同可追蹤我們。

此外,大數據可以增加身份再識別的風險。在某些情況下,去識別化的資料可被人不經意地立即還原。萬一資料外泄,後果可以十分嚴重。

在2006年,互聯網巨企AOL因推出新的研究網站,公開了六十五萬八千名用戶的二千萬個搜尋查詢。雖然在列出搜尋紀錄時,只用代號而不是真實姓名、用戶名稱或IP地址,但關注私隱的人士依然擔心,仍可透過搜尋紀錄,識別出個別用戶的身份。事實上,在數日內,紐約時報便根據一些搜尋查詢字眼,例如「六十名單身漢」、「健康的茶」及「喬治亞州Lillburn庭園設計師」,而可以無誤地識別出其中一名用戶是來自喬治亞州Lillburn的六十二歲寡婦。當別人檢視她的搜尋查詢(包括「尼古丁影響」、「口乾」、「手震」及「躁鬱症」),她的私生活便赤裸裸地暴露於人前。經公眾強烈抗議最終導致AOL要公開道歉,並在十日內移除所有搜尋紀錄。

結語

明智地使用大數據,可以豐富生活質素及提升生產力。然而,保障顧客的私隱及資料仍必須是優先考慮。我們面對的挑戰,是要充分利用大數據的潛能,但同時又要減低其弊端,締造雙贏。

公署就這課題將於2015年6月10日舉辦半天研討會4,期望國際專家可與我們分享寶貴的見解和經驗。講者包括規管機關的執法者、學者,以及來自智庫和跨國企業的保障私隱專家;講題涵蓋法律規管、以風險利益分析為本的嶄新策略,及合乎專業操守的資料管治。我們希望這研討會可激發本港相關界別再進一步探討這課題。

你可能會喜歡