Hacking Democracy Conference
歷史文件X數位科技:如何打造不當黨產處理委員會的文本分析系統與數位敘事專題
在12月9日的「給民主與人權倡議工作者的資料運用訓練工作坊 」舉辦之前,讓我們來聽聽與談人分享他們如何建立不當黨產處理委員會的文本分析系統與數位敘事專題計畫!想要聽他們親自講述這些經驗嗎?可以點擊這邊報名工作坊喔!
本專案緣起於D4SG(Data for Social Good)資料英雄計畫,這個計畫是DSP智庫驅動基於「用資料力做公益」所策劃,邀請來自不同領域的志工組成資料科學團隊,透過數據來解決非營利組織與公部門的問題。
此專案的團隊成員來自學術界、產業界以及媒體界,與不當黨產處理委員會共同提出建立探索資料的視覺化文本分析系統,以及製作優化閱讀體驗的數位專題報導。本專案系統性呈現地原本零散龐雜的文史資料,讓研究者更有效率地探索歷史;當研究者完成一份專案調查報告後,我們將其轉化為生動且能使讀者參與互動的數位專題報導,以期增進大眾對轉型正義的理解與興趣。
黨產會想解決的問題:史料零散龐雜、調查報告傳播效果有限
不當黨產處理委員會成立於2016年,隸屬於行政院的任務編組機關。其目標為調查並處理政黨、附隨組織及其受託管理人不當取得之財產,建立政黨公平競爭環境與健全民主政治,以落實轉型正義。為此,黨產會蒐集萬千筆的歷史資料,並以人工登打方式將部分史料電子化,由研究員分析解讀,並製作調查報告公諸於眾。
研究員需花費大量時間閱讀史料,在零散的史料海中串起彼此的關聯性,以釐清人、組織的關係與主題脈絡。然而,每位研究員擅長的主題不盡相同,雖然大家對自己的主題已有深入且透徹的理解,但建構完整的論述需要博大的學識與經驗,若能強化各領域史料的連結,將有助於深度且全面地描繪、剖析黨國時代的歷史。
此外,雖然黨產會定期公開調查報告與史料故事,但受限於黨產會報告格式與用字須嚴謹,且需引述大量用字艱澀的史料,加上內文多為專業用語,導致一般民眾較難吸收資訊、理解黨產會工作成果與目標,甚至對其有所誤解。
為解決上述問題,我們歸納出本次專案合作的2大方向:
-
縮減研究員探索資料的時間,減輕閱讀、串連龐大史料的負擔,甚至能運用簡易的資料科學工具探索特定主題中人物間的關係與事件脈絡。
-
將嚴謹冗長的調查報告轉譯成更多人容易理解的形式,優化一般民眾的閱讀體驗。
對內建置搜尋優化的支援系統:斷詞與實體辨識、社會網絡分析、文章推薦系統
為了建立系統性的史料分析工具,我們首先引入黨產會官網釋出的298篇電子化史料,利用中央研究院中文詞知識庫小組(Chinese Knowledge and Information Processing, CKIP)開發的斷詞系統,以其斷詞(Word Segmentation)與實體辨識(Named Entity Recognition)技術,判斷文章中的用詞及其詞性,並進一步找出人名與組織。
需要留意的是,中央研究院中文詞知識庫小組的斷詞系統以通用性為設計考量所開發的,針對特定領域的用詞分析,則需要有該領域的專家協助強化;換言之,我們需要建構與不當黨產相關的專有名詞字典。此外,斷詞系統並無法預先整合同義詞,舉例來說,不當黨產史料中同一人會以不同名詞出現,如蔣介石、蔣中正和蔣委員長皆是指同一人。因此,我們與研究員共同建置專屬黨產會的字典並定義同義詞,以提升斷詞的精準度。並在系統中設計「新增字詞」功能,保留研究員後續能夠彈性新增字詞。
其次,我們建構文章間的詞向量矩陣(Word Vector Matrix),並計算文章間的相關性。當2篇文章所使用的詞語越接近,代表文章間的關聯度越高,藉此形成文章推薦系統。
我們也採用社會網絡分析方法(Social Network Analysis, SNA)來呈現人物或機構在特定主題下的關聯。社會網絡分析既是一種以關係為核心的分析技術,也是一種資料視覺化的工具。我們利用前述的字典建立人物與機構清單,爬梳這些名單在文章庫中出現的情況,共同出現在同一篇文章即視為有關係/連結,藉此繪製出社會網絡圖。以下是在「中華民國婦女聯合會(婦聯會)」主題文章庫中的機構網絡關係圖。
在網絡圖中,有兩個重要元素:節點(node)與關係線段(edge),節點代表人物或機構,線段則是連結兩節點共同出現於文章當中。我們將節點分群,使圖形大小得以反應該節點在主題文章庫中的重要性,圓圈越大表示越重要;而連結的強弱也利用關係線的粗細進行呈現,共同出現的文章數越多,線條越粗,這些使得資料視覺化的過程中富含充裕的資訊。最後,為了使網絡分析與文章庫有效地結合,我們也提供節點、連結對應的文章清單,讓研究員們在探索網絡關係時得以便捷地閱讀相關文章。
對外建置友善簡潔知識視窗:影像素材、資料視覺化、互動圖表工具、網頁模版
許多調查報告篇幅上萬字且用字正式艱澀,因此在閱讀體驗優化上,我們的改造分為文字內容、網頁功能兩大塊。
文字內容面,需聚焦在特定的面向並掌握資訊份量,避免主題發散。題材定調後,需做資訊摘要、轉譯,擷取重要資訊與吸引人的故事,並將法律/會計/政治術語轉為白話文。另外,人類的注意力非常容易受視覺主導跟影響,我們發現聽證會、史料中有非常多獨特的影音、圖像素材,將這些素材加工、再利用,就可以發揮畫龍點睛的效果。
網頁功能面,資料視覺化非常重要,黨產會的調查報告盤點許多單位的財產、土地資料,我們將其轉為地圖或互動式的統計圖表,就能讓讀者一眼看出資料故事,也可以逐一探索單筆資料。另外,以導覽列(Topbar)或目錄(Menu)呈現資訊架構,可以讓讀者從而預知概略的內容,隨時控制閱讀進度,可以減少讀者失去耐心或分神的機率。
結語
史料往往令人感到沈悶且無趣,從史料中孜孜不倦所挖掘出的吉光片羽,都是黨產會研究員們照亮民主道路的歷史微光。然而,轉型正義不但要從龐雜的歷史中找出真相,更需以適切的方法讓社會大眾得以親近與理解,方能凝聚共識、落實轉型正義的推動。這次的專案不僅有賴於智庫驅動的媒合,也是因為有一群追求轉型正義、勇於嘗試多元方法的行動者,藉由引入中研院中文詞知識庫小組(CKIP)的斷詞與實體辨識技術,以及社會網絡分析方法,使得史料之間的關聯性能夠以圖像呈現出來。在面對大量的歷史文件時,這樣的分析方式能夠輔助研究員更有效率地爬梳史料文件。同時,在研究員整理成調查報告後,也運用數位專題推廣研究成果,降低大眾接觸轉型正義議題的知識門檻。大抵而言,我們期待台灣與世界上正在推動轉型正義的夥伴們,透過當前資料科學發展出的技術,在轉型正義研究與推廣的道路上,能有更好的利器可以使用。
附錄
若您對於本專案的成果有興趣,可以參考以下連結:
*本文由林聰賢(不當黨產處理委員會專任委員)、簡毅慧(資料記者)、李俊穎(中央研究院社會學研究所研究助理)與蘇彥庭(資料科學家)共同撰寫。