跳至主要內容

[政府資料應用] (巨量)資料分析研究成果發表會心得

今天參與了科技部和工研院的巨量資料成果發表會,那是一場很學術但時間不足的成果發表會,也曝露出:有資源、有關係拿到的資料更齊全的真實狀況。

同樣做空污與健康的研究,同樣是健保資料庫+開放的氣相資料+空污資料,元智大學有資本可以拿到更完整的資料,也因為他們本身是醫事相關學校、願意投入資源,再配合自己的資料庫,做出來的東西更容易令人印象深刻。 另一個案子的成員(學生)在發表前在旁邊碎碎念,念人家拿完整的資料,他們得從零開始,還冒出一句值得深思的話:『他們(元智)也不可能分享出來。』 

在學術研究的角度,當然不可能,但站在為人民的立場呢?如果是為了全國的健康呢?就像Theranos的創辦人Elizabeth Holmes將研究出來的技術都申請了專利,以商業立場來看是應該的,但能救人、改善醫療檢驗的技術申請專利似乎哪裡『不太清爽』。 

Open Street Map的應用和國際案例都被提到了幾次。

另外在台灣的1999因為技術問題一直無法放出資料。 在圖像辨識、文字探勘都提到共通問題-人工作業。為了避免法律責任、網站阻擋或是讓資料定位更準確,所以都會再透過人工再分類、定位。在期望的定義裡, 可透過『人力』解決/清理/定義的資料都不能叫『巨量資料』。 

最後一組是講犯罪資料,有三個子題。其中一個是常看到的犯罪地圖,在英美是透過報案資料來分析,中正大學直接和新北市府合作,結合司法院的開放資料同時直接取得獄政資料庫(校長曾有相關警政背景實在太方便了),在『合法』、不違反個資法的前提下也做了一些犯罪行為的分析,這個資料很敏感,可能還分析家庭背景、精神疾病狀態。 

不過,這些都讓我看到了:政府開放資料並不是同步的。 除非部會機關願意,不然民間人士只能拿到垃圾資料,零散、破碎,還要耗費時間清理;但只要進行研究計畫,相關的人員就有『方法』可以拿更齊全的資料。 

離開前,做犯罪行為研究的學生(剛好坐在附近)私底下問:『以後還拿得到獄政資料嗎?』看似老師的人回:『…繼續再配合的意願不高,再加上政局轉換……』老師搖搖頭。 

今天發表的成果裡,都用了一些時間在講述進行研究前與法務人員確認相關的法律責任,但要講法律責任的話時間依然不足,而成果就只能摘要式的報告了。 

最後,對於資料內容的不同步或是取得資料的方式有差異、政局的轉換也影響了各部會、各政策執行的意願,尤其是政府開放資料,這些都讓人感到氣餒。

歡迎參與相關討論:Taipei.io Google group 

留言

此網誌的熱門文章

為什麼我支持《數位中介服務法》草案

在經歷許多次反抗台灣政府所立的網路相關法案後,我其實沒想過除了《數位通傳法》草案外,我還會再支持另一部法律草案,雖然 《數位通傳法》草案還壓在某處,但如果有人讀過《數位通傳法》的草案,再讀這部《數位中介服務法》草案,就會知道這部草案的重要性,而且也可以顯示台灣網路使用者的成熟度,更重要的,這是我第一次看到引入國際網路治理多方利害關係人機制的法律草案,而且是用在正確的地方。 有興趣想知道我在讀法條時的筆記和當下的感想,可以看我這則  Tweet 。這篇不使用逐條讀法條的方式來寫,因為那會讓人昏昏欲睡,我也不去比對歐盟《數位服務法》,因為我在讀《數位服務法》草案時,該草案特別強調是加強歐盟 E-Commerce Directive  ,而不是取代它,而且更多著重在預防盜版、仿冒,保護消費者的法案。所以當有輿論提到參考自《數位服務法》的《數位中介服務法》草案限縮言論自由時,我其實是一頭問號的,但一直到今天我才有時間讀《數位中介服務法》草案,這篇文章出自於我的個人經驗和閱讀法案的心得,與擔任的職務無關。 如果最近注意一下網路的資訊,有幾件事該注意一下: 有許多人在社群平台,如Facebook或是其他網路看到一些廣告,而這些廣告可能是要你支持台灣農產品、台灣製的產品,結果你收到時,上面還寫著簡體字,通常這是所謂的一頁式廣告詐騙,而行政院的消費者保護會在 2019 年時就有新聞稿在警告「 一頁式廣告詐騙多 小心查證保障多 」,之後像公視或是其他單位都有相關的活動在提醒大家小心這類廣告。但目前這些廣告其實多數不易處理,因為不容易取證、保留證據,等到追查到時已經找不到對方了。 有不少親密照片與影片在情侶分手後,被報復性的上傳到情色網站或透過即時通訊傳到親友的帳號裡,或是被洩露個資,遭到公開的霸凌。 之前有一個專題:「 青春煉獄:網路獵騙性私密影像事件簿 」,光是讀完這個專題報導我就覺得受傷。 有人使用 Deep Fake 把台灣名人的臉部照片合成至色情影片再上傳至色情影片平台,今年 7 月才被判刑。 還有許多創作者藉由網路分享作品時,被人盜用,甚至有國外的使用者修改台灣人的作品去參與比賽還獲獎。 有一次打電話問某個部會,如果消費者在國外電子商務平台買東西,但資料被外洩怎麼辦?雖然政府願意協助,但衡量至國外打官司的時間和成本,就會讓人卻步。 有些行為在現實世界裡有法...

2024年的閱讀報告,還有電子閱讀器心得

與往年一樣,在年底或年初分享自己過往一年的閱讀記錄。較以往不同的地方在於,閱讀的媒介變多了。以往我把 Google Playbook定位在讀工作上的報告PDF,所以打開它的機會只有在讀報告的時候,但今年在平板上用 Google Playbook 上閱讀完 《巴別塔學院》 後,決定之後都使用電子閱讀器讀電子書。 目前所有的電子書閱讀器 除工作用的平板電腦被我拿來閱讀小說外,我原本就有一台MooInk、Kindle,今年多採購一台 Kobo 的Libra Colour,希望開啟彩色電子書的開始。買Kobo的電子閱讀器還有另一個原因,Kobo平台上可以購買英文電子書,有時我希望在車程上讀英文書或讀中文書時,不希望身上有太多電子產品,Kobo是一個很好的選擇。所以我在 Kobo 上的第一本英文書是 《WEB 3》 。 所以這些工具的定位是: mooInk:單色,閱讀中文電子書。 Kobo Libra Colour:彩色,閱讀中英文電子書。 平板:用 Google Playbook 閱讀中英文PDF、電子書、電子雜誌,同時有 Readmoo與 Kobo APP。 Kindle:單色,英文電子書,目前已無法使用,但這是當時主管送給大家的禮物,每個人都有一台,開啟我英文電子書的使用經驗,也讓我在去Vanuatu的路上有書可讀。這台對我具紀念意義,所以留著。 但我現在沒有出國開會的機會,也很少去港澳,所以多在通勤時、剪髮時、休息時閱讀電子書。 在使用心得上,每次讀完平板都非常累,PDF的限制也無法在上面做太多記錄,電子書則受限於DRM,所以就算有劃線,也只留下空白。 Kobo的軟體整合做得最好,也可以購買中英文書籍,外出時也不用帶太多機器,如果有 Pocket 的帳號,還可以把網路上的文章存入Pocket,再用Kobo慢慢閱讀。Kobo同時也可以連結 Google Drive、Dropbox,讓使用者閱讀PDF文件,但我自己的感受是不佳,尤其是英文PDF的效果真的不好。另外,我很難把Kobo上的畫線分享出來,只能在自己的閱讀器上瀏覽,相較之下,mooInk 的分享機制做得很不錯。 在經過最近一次更新後,mooInk 的網路連線功能好很多,不像以前在休眠後就得重開機連網路。我現在還是會在 Readmoo 上買書,因為它的閱讀獎勵機制對喜歡閱讀的我是有吸引力的,只要點數足夠,就可以再兌...

To Regulate or Not to Regulate? About AI technology

I borrowed the title of the forum this afternoon . Actually, I attended two webinars about AI today.  One forum focused on the debate about regulating AI development in Taiwan. The discussion was fruitful, as the panellists shared their experiences and knowledge about different AI regulations across various countries. Besides Taiwan, they discussed the European Union, the US, Korea, and China. Korea, for instance, published their "Act on the Development of Artificial Intelligence and Establishment of Trust" (AI Basic Act) at the end of 2024. However, before this, the Korean government had already established good data governance through three essential acts: the Personal Information Protection Act, the Network Promotion Act, and the Credit Information Act. These laws, along with their MyData applications, built a strong foundation for strategies like the Data Dam, a centralized platform for securely collecting, storing, and processing large-scale data, which supports AI devel...