「 台語語法結構樹建置(1/3) 」是國科會支持的個別型計畫,此計畫預計在三年後建立台語語法結構樹(tree bank),以便做進一步的研究及應用,第一年計畫,主要的工作為台語文斷詞及自動標記。

     全羅文本沒有斷詞問題,漢羅文本的部分我們利用台華辭典6萬多詞條、使用者詞庫及Backward Maximal Matching (BMM,逆向最大匹配)演算法斷詞。

     如果同時有漢羅及全羅文本,本計畫使用一支對齊程式,將兩種文本逐詞對齊。格式如 培養[poe5-iuN2] 照顧[chiau3-kou3],詞間以space分隔,全羅加上中括號。

     依照此格式,輸入可以是全羅、漢羅或兩種文本逐詞對齊,得到華語候選詞。格式如 小妹[Sio2-moe7]{小妹;妹子;妹妹} 每[mui2]{每} 日[jit8]{天;日} 倩[chhiaN3]{倩;雇},華語候選詞加上大刮號。以上程式由劉杰岳開發。

     輸入華語候選詞,以中研院詞庫小組所開發的現代漢語平衡語料庫為訓練資料,利用Hidden Markov Model(HMM),挑選最適當的華語詞,並利用詞庫的中文詞標記系統做詞性標記。以上程式由戴嘉宏開發。

     欲使用本系統,請點選框架頁上面的step1, step2 和step3。

     本計畫之計畫主持人為大漢技術學院資訊工程系助理教授楊允言,共同計畫主持人為台東大學華語文學系副教授張學謙,協同計畫主持人為中研院資訊所研究院陳克健及交通大學講座教授鄭良偉。

     計畫工作人員,除了上述的程式開發者之外,陳德樺負責台語文資料對齊及校對。

     若有任何相關問題,請試著與相關負責人聯繫。