分類問題探討
Study of Classification Problems
楊允言*
Ungian Iun *
摘要
分類問題之所以重要,是因為分類建構了人對萬事萬物的認知,且分類讓人所理解的世界變得有條理。本文中,我們將要討論分類問題,列舉一些分類的例子,討論分類的方法以及檢視分類的矛盾與種種問題,釐清我們對分類的瞭解。
關鍵詞:分類,認知,階層分類,群集。
ABSTRACT
Classfication is important, because it builds the
cognition of the world for people and makes world reasonable. In this paper, we
will discuss classification problems, give some examples, discuss the method of
classification, and overlook the contradiction and doubts in classification,
for the purpose that we can clear about the classification problems.
Keyword :
classification, cognition, hierarchical classification, cluster.
一、緣起
1991至1993年,我就讀清華大學資訊科學研究所,主要的研究方向是中文自然語言處理(Natural
Language Processing),因為這個機會,接觸到中文文件自動分類這個題目。當時所採用的分類方式,完全是以電腦的角度(因為要取代人工),利用詞彙的次數、集中度和廣度做為度量,而為了要算出「正確率(Recall
rate)」,電腦分類的結果拿來與人工分類的結果做比較。電腦分類的「正確率」,當時算出來約為67%[Yang93]。
分類「錯誤」的部分怎麼辦?無疑地,電腦運用繁複的計算,會得到一個結果,不管人們覺得滿不滿意。如果覺得不滿意,就設法調一下參數再去做做看,看能不能調高分類的「正確率」。後來研讀相關論文,也發現即使是受過訓練的分類者,不同的兩位分類者做出的分類結果只有約60%是相同的。所以電腦做出的結果還算差強人意。
錯誤分析是一件麻煩的問題,但也唯有設法做出錯誤分析,我們才有機會提高正確率,或者證明無法再提高,不必再努力了。有些文件感覺起來模稜兩可,也可以在A類,也可以在B類,所以重覆分類也許可以提高正確率;或者,我們覺得人工所訂出的類別不妥,重新訂定類別可能就可以使正確率提高;或者,電腦的分類結果,只要能夠滿足其用途(儲存資料、供使用者查詢、…)就好了,沒有必要與人工分類結果做比較,反正一般的檢索總是要在精確率(Precision
Rate)與召回率(Recall Rate,正確率)之間取得一個使用者可以接受的平衡點[Salt89];或者,「正確率」根本是無意義的。
回頭來想現實生活中的情境,我們看電視節目,可能會急於想知道誰是好人誰是壞人,在一個劇情較簡單的節目裡,導演似乎也急著要把這個訊息傳遞給觀眾,以便觀眾不至於錯亂,而觀眾預設的立場就是:壞人的下場是不好的。
或者我們生活周遭的人,多半我們會給對方一個評價:這個人是好人、這個人很有心機、那個人大嘴巴、...,這樣的印象,可能經由自己的接觸與判斷,也可能是得自別人傳遞給你的訊息,這些建構起我們對周遭朋友的認知。而這些認知會不會改變?通常經歷某些事件後會。例如,假設A君在你的心目中是個壞人,有一天,你看到他去捐血,你可能開始改變你對A君的印象,把他在你心中的位置,往「有愛心」這邊調整。印象較深的是,以前看電視節目,有一個台語演員,每次看到他,都是演壞人,有一次,報上揭露他為善不欲人知的事蹟,之後他就都演好人,顯然導演把這個人的定位,在導演心中調整了,影響到他所演出的角色。
看起來,分類是個很有趣的課題,人對世間事物的認知,似乎就是透過分類架構起來的。我們希望從各個角度,來探討分類問題。
二、分類的例子
除了之前提到電視節目及現實生活中的例子,以下我們來看一些分類的例子。
圖書分類
一般在圖書館借還書籍,都有機會接觸到圖書分類,中文圖書採用中國圖書分類法,如果我們常常借閱某些類別的書籍,很自然地我們會知道要往書架的哪個地方走,例如要找原住民的資料,可能是536.29,找台灣史到673,找台語的資料就到802.3...等等。
這個分類是不是讓大家都很熟悉?應該是沒有,如果檢索的需求越高,表示一般人對此分類越不熟悉,這部分是查詢者本身的問題。
至於結構上的問題,第一個問題是,如果以台灣主體性的角度看這個中國圖書分類法,就出現了問題,歷史的類別中,台灣史是「中國邊疆史」的一部份,於是,台灣史之於現在台灣社會是顯學,出版品很多,卻得擠在很小的分類號之中,同一小類擠太多東西,不是一個好的分類方式;此外,因為分類的標準不是以台灣主體為考量,有些書籍會被編到其它類別,造成查詢的負擔。因此,張炎憲等人在編台灣史關係文獻書目時,就自行訂定出分類方式,以便把台灣史這個主題交代清楚。此分類系統表包括:1.總類/2.族群與人群關係/3.人物、家族/4.區域發展/5.歷史發展/6.史料、文獻/7.涉外關係/8.社政關係/9.經濟發展/10.社會運動/11.政治、文化評論/12.民眾生活/13.語言/14.文學/15.建築、古蹟/16.音樂、戲曲/17.書畫、雕刻共十七大類,每大類之下還有小類[ZLW89]。
類似的例子,洪惟仁在做台灣漢語方面的整理,也遇到相同的問題,於是也只得自行訂定分類方式,分成A.相關書目、專業雜誌、研究概況介紹、文集/B.概述整個閩南語客家語、對一特定方言區方言點做描寫介紹/C.語言描寫與分析/D.傳統韻書、同音字表/E.詞彙集、語詞研究/F.字典、辭典及其研究/G.語言源流、發展之歷史、語言研究史、研究者傳記/H.語源學、字源考證/I.文字化論、拼音方案、漢字選用、台語文學論/J.俚諺、慣用語、歇後語/K.歌謠、童謠、謎語、聖詩、新詩/L.教科書、會話/M.戲文、劇本、故事、小說、文章/N.語法/O.語言問題、語言政策、語言事件、社會語言學/P.比較語言學、古今語比較、方言比較、方言網狀調查、方言分區、方言地圖[Ang89]。
以上的兩個例子說明,分類會因為實際需要而必須將原先的分類方式再做調整;但是這兩種分類方式並非已成標準,只是制訂的人都在其領域學有專精。此外,這兩個例子,也有重覆分類的情形。
重覆分類引出另一個問題:如果跨兩個領域該怎麼處理?舉例來說,計算語言學是一門較新的學科,牽涉到計算機科學(統計、機率、...等)與語言學,所以,圖書館員要把計算語言學的書放在哪呢,也許我們先找找電腦的圖書,萬一找不到,退而求其次,再找找語言學的架子上看能否找到,事實上,計算語言學的相關資料被分散在兩邊。跨領域是學界的趨勢,這個問題未來短時間內,都還會不斷發生,而目前的圖書分類,似乎也還沒有開始設法處理此問題。
台灣原住民族的分類
台灣是非常特殊的,在如此小的面積之中,就有如此多的族群生活在這裡。我們會這樣說,因為除了漢人之外,主要就是原住民,現在我們來探討原住民的分類,這個問題似乎十分複雜。
一般而言,台灣的原住民族可分為兩大類,不同時期對其有不同的稱呼,我們用下表來說明:[Pan96,p15-27][Sen94,p37]
|
出處、時期 |
原住民(高山族) |
平埔族 |
|
明鄭 |
土民 |
|
|
郁永河:稗海記遊 |
野番 |
土番 |
|
藍鼎元 |
土番(分生、熟) |
|
|
清國(康熙) |
生番 |
熟番 |
|
日本 |
高砂族 |
平埔族 |
|
國民政府 |
高山族、山胞、原住民 |
(消失) |
平埔族在國民政府時期會「消失」,只能說是離譜,不過平埔族研究已日漸成為顯學,也許不久的未來可被國民政府承認。
「生蕃」與「熟蕃」的分類是以漢化與否為分類標準,這樣的分類流露出強烈的沙文主義氣息,日人小川尚義(語言學家)與宮本延人(民族學家)也都認為這樣的劃分是不妥當的[Gong92,p67],然而仍然被日本官方沿用,國民政府把平埔族摃掉,就連討論的餘地也沒有了。高山族與平埔族交界的某些族群,自然也成為分類上的小麻煩,最明顯的例子是日月潭的邵族(Thao),清國時期已經將之歸類為「化蕃」,化番就是「歸化的生蕃」,處於半生不熟要過渡到「熟蕃」的尷尬地位,森丑之助認為是曹族(Tsou)的一支,國民政府已經不承認這個族;另一個例子是賽夏族,森丑之助認為原來是平埔族道卡斯族的一支,因為環境因素而「野化」[Sen94,p21]。
如果以現在的角度重新檢視,這些原住民族顯然都應該被視為「熟蕃」了。
根據內政部的版本,在選舉時,原住民被分為兩類:平地山胞[1]及山地山胞;而一般的說法是九族,包括泰雅族、賽夏族、鄒族、阿美族、布農族、排灣族、魯凱族、卑南族、達悟(雅美)族,這樣的分類也許不夠精確,以致於把一些族群忽略了,至少邵族、噶瑪蘭族、西拉雅族等等都不見了。
這樣對劃分的理解有沒有問題?好像有,被稱為高山族就預設「他們是住在山上未開化的人」這樣的立場,可是,住在平地的阿美族和雅美族被分在「生蕃」。那麼,是不是我們的理解有偏差?也許是,或者,根本就是因為清國政府對於「化外之地」的人民沒有概念,以致於分類錯誤。用生活方式(狩獵/農耕)劃分會有問題(有的生蕃是農耕),用「文明程度」(獵人頭與否)劃分也有問題(有的生蕃不獵人頭),若硬要說這個分類是有意義的,也許只能用「漢化程度」這種較籠統的概念,才比較不會受質疑吧。
日治時期對原住民展開有系統的調查,也在那時建立了較清楚的分類系統,不過在確定之前(或者說,到目前為止尚未完全確認),還是令人眼花撩亂。
先看看我們比較熟悉的高山族,請參看下表:[Sen94,p20-21,p38-39][Gong92,p68-69, p73]
|
|
Tayal |
Saisiyat |
Bunun |
Thao* |
Tsou |
Rukai |
Paiwan |
Puyuma |
Ami |
Yami |
|||||||
|
伊能嘉矩1898 |
泰雅 |
布農 |
曹 |
澤利先 |
斯排灣 |
卑南 |
阿美 |
─ |
|||||||||
|
鳥居龍藏1910 |
泰雅 |
布農 |
邵 |
新高 |
澤利先 |
排灣 |
卑南 |
阿美 |
雅美 |
||||||||
|
森丑之助1915 |
泰雅 |
布農 |
曹 |
排灣 |
阿美 |
雅美 |
|||||||||||
|
佐山融吉1921 |
太么 |
紗績 |
獅設 |
武崙 |
─ |
曹 |
排灣 |
卑南 |
阿眉 |
─ |
|||||||
|
小島由道1922 |
泰雅 |
獅設 |
武崙 |
─ |
曹 |
排灣 |
阿眉 |
雅美 |
|||||||||
|
移川子之藏1935 |
泰雅 |
賽夏 |
布農 |
─ |
曹 |
魯凱 |
排灣 |
拍拿拍拿揚 |
邦則 |
雅美 |
|||||||
|
小川尚義1935 |
泰雅 |
賽德克 |
賽夏 |
布農 |
─ |
曹 |
卡那布 |
沙阿魯阿 |
魯凱 |
排灣 |
卑南 |
阿美 |
雅美 |
||||
|
鹿野忠雄 |
泰雅 |
賽夏 |
布農 |
─ |
曹 |
排灣 |
卑南 |
阿美 |
雅美 |
||||||||
分類的標準有哪些?大致是語言、民俗、體質與傳說[Sen94,p20]。漢字的名稱僅供參考,因為有的名稱是用日文,且漢字是譯音,附帶一提,當時台灣不是華語的天下,所以華語唸起來如果怪怪的話,請用台語(如Saisiyat寫成「獅設」,華語是shi-she,台語是sai-siat)。
其中,雅美族也許是因為在離島,又被日本當局刻意隔離,所以分類上似乎偶而被忽略。另外,邵族也備受爭議,有時被分到布農族,有時被分到曹族,如果我們以習俗來檢視,布農有八部合音邵族沒有,邵族有杵歌曹族沒有,確實歸在任何一邊都怪怪的,現在的說法似乎傾向將之歸為平埔族。還有就是魯凱、排灣、卑南,有時被分開,有時被合在一起,如果以居住地分,卑南很容易被分出,而魯凱與排灣的分別主要是語言,而非體質、民俗;而卑南族本身卻又有石生、竹生的不同傳說,差異也頗大。
至於近年來的正名問題,如雅美要求改成達悟,曹改成鄒,或有的阿美族要求改成邦查,與本文較無關連,不擬多做討論,曹/鄒純粹是漢語譯音的問題,用台語唸差不多,華語卻差比較多,而目前華語是台灣當局唯一承認的官方語言。大體上說,這些族名並不是原住民族本身的分類單位,那是外人要理解他們時所採取的分類方式與名稱,而現在反過來成為原住民族的認同標準。
再來討論平埔族分類,請參看下表:[Pan1996,p35-37][Guo1998,p18]
|
|
Siraya |
Hoanya |
Babuza |
Pazeh |
Papora |
Taokas |
Ketagalan |
Kavalan |
Thao |
||||
|
伊能嘉矩1904 |
西拉雅 |
馬卡道 |
阿里坤 |
魯羅阿 |
巴布拉 |
巴則海 |
貓霧栜 |
道卡斯 |
凱達格蘭 |
噶瑪蘭 |
─ |
||
|
移川子之藏1930 |
西拉雅 |
馬卡道 |
|||||||||||