Text Data Mining
Abstract
在大量的文字中以data mining的方式來從中獲取所需的資訊是一種相當有發展前景的技術,但實際上卻在近幾年間才慢慢受到人們的重視。文字雖然可以透露很多的資訊,但假如將文字中的資訊以某種型式隱藏起來時,要自動的從中將這些資訊擷取出來是相當困難的。也許基於這個理由,到目前為止大部分的人在討論text data mining時常常會將它和information retrieval混為一談,而造成一些誤解。因此在本篇文章中會重新為data mining、information retrieval、還有corpus-based computational linguistics下定義,然後再探討它們和text data mining之間的關係。希望藉由這些比較讓我們了解到目前在計算語言學上有那些有趣的問題值得我們去做深入的探討。
Introduction
在早期幾乎沒有任何人在text data mining(TDM)這個領域中做研究,也許是因為大部分的人們都認為TDM只是data mining(DM)的一種自然延伸,所以很直覺的認為若能將DM的技術發展好,那TDM技術上發展的問題自然也就迎刃而解了,但事實上卻不是如此。目前DM的技術大部分是應用在從資料庫中大量的資訊裡自動去擷取出一些有用的資訊以幫助我們做決策的動作;而TDM大部分是應用在大量的文字資料庫上,最常見的是和詞彙的出現頻率與出現篇數有關。簡單來說兩者最大的差異是在於:DM專門用於處理一些可結構化(structured)的資料 - 即每筆資料間有相同屬性的資料欄位,讓它們可以被分類並在資料庫中將其紀錄下來;TDM則是用來處理非結構化(unstructured)資料 - 即表每筆資料間沒有共通的結構性可言,經常為長短不一、記載訊息的自由文字。所以在做TDM的處理時常常需要應用到統計上面的方法。
TDM vs. Information Retrieval
區分TDM和information retrieval(IR)的不同是相當重要的。IR的目的是在於幫助使用者找到他們所需要的文件或資料,透過IR的方式來收集資訊時,會連帶的將使用者所要搜尋的主題的相關資訊也一併的傳送回來。例如當使用者需要找一些有關貓熊的資料而非兩岸關係的資訊時,並不代表兩岸間關係的資訊對於這個使用者來說是沒有價值的(因為兩岸間的關係可能會影響這個在台灣的使用者是否能在台灣看到貓熊的機會),因此IR系統會將這些文件和附帶的資料完整的回傳給使用者參考。DM的目的在於從資料庫中的資料去做一些分析以取得資訊 - 這些資訊可能是原本的資料庫中沒有的,是從一些取得的資訊中所歸納衍生出來的新資訊(TDM的特色亦為從舊的資料中歸結出新的資訊);而IR系統則是將包含使用者所需資料的文件回傳給使用者,有可能會附帶一些額外的資訊,但卻只是把原本有的資料做呈現,並不會從中得出一些本來就不存在的新資訊。
許多人在談論到TDM時,都會將其認定為一種「讓使用者更容易在Web上搜尋到所需資訊」的方式。而在做Web的data mining時有兩個主要的挑戰,第一個是幫助使用者在Web上找尋有用的資訊;第二個是分析在Web系統上的資訊傳輸情況,藉此來對系統效能做最佳化以及得到使用者使用系統的資訊。但這種以資料搜尋為主要考量的方式就失去了我們希望在做data mining時所希望達到的目標 - 得到新的資訊,由此可知這種定義方式是不恰當的。
TDM and Computational Linguistics
假如是將data mining的方式應用於大量的文字資料上,則這種方法是屬於TDM中的一個領域,稱為corpus-based computational linguistics。這種以經驗為依據的計算語言學方式是將大量的文字資料做統計的處理後,再從中去取得有用的patterns。利用這些patterns所得到的資訊來形成一些自然語言處理的演算法。從這裡我們可以發現一個相當有趣的現象,例如『prices、prescription、patent』這三個字常常會在正常的醫療行為下和『drug』這個字一起出現;相反的,『abuse、paraphernalia、illicit』則常常在違法的醫療行為時出現。然而,這些被找出來以及應用在計算語言學上的patterns可能仍然不足以被稱做text data mining。
TDM and Category Metadata
一些研究中宣稱text categorization就是TDM,這種說法是一種對TDM的誤解。Text categorization是一種根據文件本身的內容,將尚未分類的文件歸類到事先定義類別中的過程。很顯然的,這種方式並沒有能夠分析或歸納出任何新的資訊,它只是將某些已知的資訊歸納出來並做總結。然而最近有一個關於使用text categorization來做更廣泛用途的研究。這個研究是採取「text category labels」的方式去找出文章中的unexpected patterns,它所採用的方法是比較文件中的不同種類的文字的分布方式,藉此來得到一些額外的資訊。
A classification of data mining and text data mining applications
|
|
Finding patterns |
Finding nuggets |
|
|
Novel |
Non-novel |
||
|
Non-textual data |
Standard data mining |
Logical inference |
Database queries |
|
Textual data |
Computational linguistics |
Real TDM |
Information retrieval |
Text Data Mining as Exploratory Data Analysis
另一個看待TDM的方式是將它視為一種資料探勘的分析過程,可以藉由這個方式得到一些未知的新資訊或是回答一些目前資料庫中還不存在答案的問題。
結論
自然語言的自動化分析是相當重要的,因為目前日常生活中所存在的資訊大部分都是以非結構化的形式存在著,所以若能將text data mining的技術發展成功的話,就可以藉由電腦的幫助來使我們能很迅速的將這些龐大的資訊做分析處理,並做為我們下決策時的依據。在考慮到text data mining相關最普遍的應用時,首先,我們希望機器能夠自動地抽取一段文字的意義,以簡單明瞭並列出其中最重要概念的方式來儲存分析結果。這個應用程序將提供一個新而有效的機制來瀏覽文章,自動產生文件的摘要、文字的分類和文字的比較,同時擷取出自然語言中內含的資訊。當達成這些功能時就能將這個技術完全應用在日常處理語文資訊的作業上。
也因此我們可以說,自動化的資訊擷取能力是可以幫助人類的資訊時代邁向一個新紀元的里程碑。當有了自動化資訊擷取能力的技術之後,希望完全細讀整個文件之前先有精確摘要的人可以使用文章自動化摘要的功能,這可以幫助使用者很快的知道所閱讀的文件是否有他所需的資訊,讓學習以及知識的獲取上更有效率;而當使用者在有效率地瀏覽文件資料庫時,也同時做文字的分類,透過這個方式可以強化在大型文件資料庫運作的效果,包含學術資料(對學者),電子新聞訊息(對市場投資者)以及電子郵件系統(對所有人);透過到來訊息的內容分析,將訊息自動分類到各不同優先順序主題群組下的功能,若有效擷取則能提高我們處理電子郵件的速度;在資料庫中或網路上搜尋時增加關聯性和精準性的語義資訊擷取能力,可節省數以百萬計的人力以及時間;將表達最新市場狀況迅速反應的收集文件並分類後聚集起來,可做為公司在行銷管理策略決策上的依據。這些都是在text data mining發展成熟後所希望能夠做到的應用方向。然而上述願景雖然看起來前途光明,但問題是所有嚐試建立自動化分析自然語言的實用系統,目前都無法產生出令人滿意的結果。製作出來的系統通常只能被應用在某些特定領域中,也因此在text data mining這個領域中還有待更多人去為它做出研究和貢獻。
就技術上來說,text data mining在運作上有兩個很重要的步驟,一個是『Preprocessing』,另一個就是『Renormalization』。需要做Preprocessing的原因在於理想上我們希望去除所有不具有語意的單字。而且我們也希望當分離了字首字尾和句尾後,可以辨識出整個單字中的詞幹。這個分離過程即為Preprocessing。所有進一步的分析工作只會針對文件的詞幹執行,因此改善了分析品質。例如“mean”和“meaningful”將被此系統辨識成有相同的詞幹。事實上獲得有效的前處理機制需要針對特殊語言微調系統,以有效率地過濾掉此語言原始的補充單字。我們可以利用相同的階層式類神經網路去建立用來過濾不需要的元素。當處理多樣主題、補充單字等大量文字素材時,語素是在文件中最常出現的段落。藉由以不同單字的段落來運作,這個階層式類神經網路讓我們能同時自動擷取補充單字和語素。而Renormalization所做的工作在於調整個別單字以及在它們之間關係的統計權重以提供一致的文件表達。這些與文件中其它常見單字強烈相關的單字權重應該被提高,反之則降低。Renormalization後的單字及其間關係的權重稱為語義權重,而且製造出再成形的圖表類似結構被稱為語義網路(文件中最重要單字與其間組合的列表)。因為已經執行的文件分析並不依賴對於與其主題有相關的任何背景知識,在製造出語義網路中的單字意義完全是由它與其它網路中單字的關係所定義的。語義網路代表文件分析語言學方面精確和簡明的描述。這個網路加上使用者需要的文件處理功能,可以作為許多進階分析技巧的基礎。
感想
在讀完本篇文章後,發現裡面只是對text data mining的定義做介紹,以及它和其他幾種技術間在本質上的不同處,而在比較細節的部分則講得很籠統,所以我後來又繼續找了一些有關text data mining的資料,才對這部分的內容有比較完整的認識。
因為在發展好了text data mining的技術後,可以使我們現在在自動化分析以及處理文件上的效率大幅度的提升,當然也就可以幫助我們更容易的去做台文的保存和處理。但即使TDM成熟後,在台文的處理方面還是具有相當高的挑戰性。畢竟現在台文的書寫方式有很多,雖然羅馬字是呼聲最高的一種,卻還是沒有一種統一的規範。另一方面,台文的結構相當複雜,而且相同的詞在不同的句子中有不同的意思,也有可能有不同的念法,因此要找出其中各個詞之間的關聯性也不是那麼的容易,這個部分的問題也有待我們去解決。
希望在不久的將來能看到更成熟的技術來幫助台文的保存,因為語言代表了一種文化,用來傳承了先人的智慧和經驗。目前在台灣會講台文的人雖然不在少數,但會將它應用在日常生活中的人越來越少,我們這一代的人已經很少在講台文了,到下一代就更不用說。如果照這種情形發展下去,不用多少年,台文就會完全消失在這個世界上。試想想,如果沒有了台文,我們怎麼告訴下一代歌仔戲和布袋戲這些屬於我們的傳統文化內含的趣味性在那裡,我實在不敢想像歌仔戲如果是用國語來演出的話,能有什麼樣的呈現方式。最後也謝謝老師和助教帶給了我們一個學期台語文的課程,在這門課裡學到而別堂課裡學不到的,就是對本土文化的認同感,也看到了很多不同領域的人在為台文的保存做出努力和貢獻,心裡真的是相當感動,希望還有機會能再修習相關的課程,對這方面的知識和研究有更深入的了解。