close

Google利用大數據,協助美國疾病管制局預測疫情

麥爾荀伯格在「BIG DATA」一書,提到Google幫助美國疾管局自2009年成功預測流感的例子。Google工程師利用民眾上網搜尋有關流感資料,挑出前5千萬個字眼,再與2003至2008年美國疾管局流感資料比對,從字眼搜尋的頻率與當時流感傳播的時間、區域等,找出之間相關性。他們試了4.5億種模型,以不同的搜尋字眼組合,最後找出一組45個搜尋字眼,建立最適模型。並利用2007年與2008年資料進行實證預測,預測結果與官方發布的流行資料十分吻合,有高度相關性。所以在2009年,新型流感病毒H1N1,在短短幾星期內迅速蔓延,當時傳言可能爆發如1918年西班牙流感,最後奪走數千萬人的性命。當時就是利用Google系統,提供最即時流感資訊,先一步防止疫情擴散。

傳統預測模型建構方法

一般傳統統計模型為:流感流行=f(代表各種可能原因的解釋變數),但是模型f,是要靠過去經驗設定,譬如那些原因導致是流感發生,只要因果之間關係建立,就可以從各種原因當中,成功預測流感是否正在流行。模型完成之前的實證過程,會不斷的修改因變數,或調整模型架構,直到找出解釋力最高的模型。

無須先驗假設的大數據預測模型應用

可是如果過去並無類似經驗,就無法用傳統方式找出合理的預測模型,所以也無法進行預測。大數據預測模式與傳統預測不同之處,在於無須利用過去的經驗法則,預先人為建構模型的因果關係。只需要將大數據中,無論有關或無關的變數,通通視為解釋變數,用強大的電腦運算能力,以一定的模式重複篩選因變數,直到找出滿意的解釋因子為止。所以因果關係模型,不是用經驗建立,而是用篩選方式建構。此舉,有利於幫助人們,建立對於新事物的認知,不必再像過去,花長時間的人力與物力去摸索,才能找到適合的預測模型。

arrow
arrow

    lung 發表在 痞客邦 留言(0) 人氣()