字級:
小字級
中字級
大字級

[知新]Open data?Big data?Crowdsourcing?這些東西相互之間有什麼關係?這些東西和GIS之間又有什麼關係?在GIS上又發揮了什麼功能?

       其實open data(開放資料)是從2009年的美國就開始紅到全世界了,而big data(巨量資料)更早,19世紀就開始發現有資料量過大的問題,一直到2001年big data就開始有了3Vs (volume, velocity, and variety)的最初定義。這兩個迄今至少6年前的東西,嚴格來說稱為「新知」是有點牽強。但是,若以一般人對於「新知」的概念來說,大概只要不是很久以前新聞上炒熱過、很久以前大家就有所耳聞的知識,歸類為「新知」似乎也無不妥。再者,「新聞」和「新知」所以不一樣,就在於「新聞」只是提到某個東西讓大家知道有這種東西,「新知」是要讓大家除了知道有這種東西以外,還要大家多少瞭解這東西怎麼來的、能拿來做什麼,甚至讓大家能舉例說明類似的東西有什麼差異啊!

       Open data和big data這兩種東西,其實就是這樣有些類似、又不太一樣的東西。Open data是開放資料,如果是國際級或國家級的資料那就很可能是巨量資料了;另一方面big data要處理的是傳統資料庫無法處理的資料,如果這種資料是開放釋出的資料話就用到open data了。這兩種東西容易混淆到「資訊的官員. . .連big data 和open data的差別、關鍵意義都分不清楚」(引述今週刊【朱敬一專欄】內容)。至於兩者之間的差異,其實這篇文章裡面說得挺清楚的。簡化再簡化的說,兩者的差異就是:open data是「給」資料的事情,big data是「用」資料的事情。兩者之所以會混淆,是因為一開始發現資料量過大的問題,才會想用big data的技術來處理;但是資料量過大這件事情,傳統上卻是給資料的單位需要面對克服的。又,傳統的資訊部門大多沒在區分給資料的單位和用資料的單位,基本上就是幫忙把資料收集好、建置一些應用程式來解決問題,最後該出的報表、該顯示在螢幕上的資訊都顯示出來就行了。

       那為什麼big data和open data好像同時之間突然出現在新聞上呢?捨棄政治的因素不談,如果用資料的人和給資料的人是不同的人的話,用資料的人跟給資料的人拿資料,結果給資料的人給了一些很難處理的資料、或是沒辦法在時限內給出來,造成表面上看起來材料有了、方法有了,最後東拖西拖做很久才做出來或是甚至做不出來,當老闆的自然就不得不出來說說話了--尤其是別人家做得出來的東西,自己材料方法什麼的都有卻變不出個子來實在是很丟臉。如果只是公司之間的競爭就算了,當事情變成自己的國家體系輸給別人的國家體系、甚至是整個國家體系輸給一般市民組成的團體,那新聞性實在是很高啊!

       所以最關鍵的問題,就是給資料的人給的資料,用資料的人馬上能用就行了嘛!這說起來簡單,實際上卻是許多國際組織(ISO、W3C、OGC等等制定國際標準的組織)一直在努力的事情,而他們制定的標準除了open data可以使用,不那麼open的data也可以使用。而且除了資料標準以外,還有行政效率、資料保密等等的關卡,並不是完全用科技可以造就的東西。關於資料標準和open data的關聯,以及open data可以怎樣相互串連起來等等,這些說明需要比較長的篇幅,就先留待以後再來談了。

       話說回來,用資料的人如果想用某種自己沒有的資料,給資料的卻龜龜毛毛的不肯給或是故意給個很難處理的資料,那東西就不用做了啊!那也未必。事實上,big data的資料來源,還有一個叫做crowdsourcing(眾包)的方法。Crowdsourcing,照字面上的意思來說就是尋求群眾的(人力)資源來幫忙,也就是把工作設計成很多很多的小工作,分給認識或不認識的人做,最後再彙整眾人做好的東西成為自己的東西或公開的資訊。G0V、Open Street Map等等的網站,都是crowdsourcing的經典案例,甚至像是Google Maps的路況功能,即使沒用到路口流量監視器,靠著每一位使用Google Maps手機板的手機使用者位置的更新,就可以算出每個路段的平均車流速度了。

       這麼說來傳統資訊應用搞不定的問題,只要open data加上crowdsourcing就好了啊,big data都在做什麼?這麼說好了,有一個農場,裡面充滿著各式各樣超新鮮營養健康的食材,而且農場主人很受尊重,只要喊一聲,農場裡缺的食材都有人自己送進來。這樣就代表這個農場可以創造出許多營養健康好吃又有創意的餐點嗎?當然不是。至少還要有一位廚師、甚至是一個料理團隊,或是另外一個企業集團,才能產出最後的成品。Big data方法裡,NoSQL、MapReduce、各種text mining、semantic search等等的技術,才是「用」資料的人所需要掌握,用來料理open data和crowdsourcing收集來的資料的關鍵。

       所以說,open data、big data、crowdsourcing這些東西,和GIS之間是怎樣的關係?簡單的說,只要是和位置相關,或是資料連來連去可以和位置找出相關性的,都屬於GIS的範疇。Open data裡面的各級行政區調查資料、水位資料、空汙資料、土壤質地、土地利用、房價公開資料、空拍資料、地震資料,說來說去八成以上幾乎都和位置相關。Big data的應用只要是用到和位置相關的巨量資料,像是高解析遙測影像、Google Maps上的搜尋關鍵字,甚至是BBS討論版裡鄉民們提到要在哪邊做什麼的地點名稱,都和GIS相關。Crowdsourcing裡只要是眾人收到的題目或回饋的結果裡有包含位置相關的資訊,例如Open Street Map的圖層編輯、Facebook打卡地點等,也都和GIS相關。

       至於這些東西在GIS上又發揮了什麼功能?分開來說的話open data的資料中許多是政府單位的資料,可以告訴民眾在該單位的業務管轄下哪些地方有什麼樣的東西。換句話說,也就是告訴大家政府從民眾這邊收集來的資料、或是花大家的稅金用儀器測量出來的資料,在各地是怎樣的變化情形。Big data根據GIS想要達成的功能,設計使用傳統和非傳統資料的分析方法,發揮創意與熱情,產出GIS的成品。而GIS想要達成的功能中,如果有貼近民眾卻很難從政府或企業團體收集到的資料,甚至有些需要大量肉眼辨識才能產生的資料,就使用crowdsourcing來進行。

       以上大致把open data、big data和crowdsourcing聊了一遍。至於這三者分別的最新技術細節(環境怎麼建、程式怎麼寫之類的),以及怎樣可以把這三者結合起來做出一個有創意的應用,就留到日後再聊了。

推薦給朋友

2015 財團法人台灣地理資訊中心Copyright © . All Rights Reserved
台北市中正區羅斯福路一段七號六樓
TEL:+886-2-2393-1122 FAX:+886-2-2321-5954
TOP