統計方法

大綱

統計方法是現代著手自然語言處理的主流作法。數學上的統計可被應用於語言的模型問題上,例如:hidden Markov和maximun entropy model。閱讀本章可讓你詳細瞭解它。

1.          介紹

Data-driven的方法在現今自然語言的處理應用上非常普遍,以致於它們必須被考慮成為研究計算語言學的主流方法。它們也被應用於各各相關的領域,包含part-of-speech tagging, syntactic parsing, semantic interpretation, machine translation, information retrieval等方面。

這些方法由許多的系統和技術組成異質的集合,並且在數學統計下呈現廣大的變動程度。我們真正要從training data取得的是頻率的數目,甚至在某些情況下我們必須選擇什麼型態的頻率數目才是我們該取得的,以建構更為實際的模型。

我們將會探討統計的基礎原理並學習兩種非常普遍的統計方法:hidden Markov model和maximum-entropy model。它們常被應用於研究語言的各項工作。

2.          MATHEMATICAL STATISTIC

數學統計設計的主要理念相當簡單直覺,但卻被一堆複雜的數學技巧所蓋飾。一開始我們先定義:

A probability measure P is a function from the set of subsets of the sample space Ω to the set of real number in [0,1] with the properties

                            i.                ,

                          ii.               

                        iii.               

樣本空間Ω代表所有可能的集合。以甩一個骰子為例,樣本空間Ω為{1,2,3,4,5,6}。考慮Ω的兩個子集,A={1,3,5}和B={5,6},則AB的交集事件寫作A,B;在我們的例子中,而AB兩者一起發生的機率稱做AB的joint probability。那麼,從邏輯觀點來說,假設A先發生伴隨著機率,接著B發生伴隨著機率或是

這裡的B在給定A下的條件機率,定義為

根據之前的公式可得到Bayes著名的反轉公式:

若已知A事件發生不影響B事件發生的機率,換句話說就是,那麼,我們會得到

先定義AB事件獨立的定義:

AB事件為獨立iff

我們再介紹一個隨機變數X,它是一個由樣本空間Ω轉換為實數R集合的一個函數,i.e.,對每一個,我們定義機率函數為X選取的機率:

機率必須不為負數且總和為1:

Bernoulli distribution,我們得到

我們可以計算隨機變數X選取一個集合中的一個值:

是離散的則式子的表現很好,若它是不可數的,必須另外建立probability density function

同樣的方法允許我們可以計算期望值。因為X是數值的,我們可以計算期望值

()

最後一個觀念即entropyEntropy 在於測量預測結果的困難度且需要一個平均位元長度來報告它。平均的位元數為的期望值:

()

3.          HIDDEN MARKOV MODELS

我們典型將一個句子或一篇文章思考成一堆文字的集合。舉一個句子為例:John seeks a unicorn,假設我們先將生字V中的各個字上標數字,從1到M並加上句子始和末的標記#當作0,i.e. ,結果我們的句子可能被看成像

表示John在我們的列舉字中是第42個字,seeks是第123個字。面對機率問題時

我們利用條件機率的的定義可知

重複應用這個概念可得

為觀察第一個字POS(part-of-speech)tag的動作,為觀察第二個字的動作。可利用Markov來建構,i.e.tag bigram model:

接下來,考慮產生被tag的句子:先根據先前字的POS tag隨機選擇一個POS tag並使用Markov process,接著只根據現在的POS tag隨機選擇一個字。這個結果稱為Markov model:

現在假設我們只可以觀察文字的順序,而非tag的順序,結果於hidden Markov model(HMM),因為tag變數是隱藏的,它們的結果不能被觀察。在HMM-based tagging中,目標為尋找最有可能的tag順序。

4.          MAXIMUM-ENTROPY MODELS

下列兩個需求為總結maximum-entropy modelling的哲理:

                            i.                我們希望用來平均地預測feature 的機率模型就如同在training data中般被觸發。

                          ii.                我們不希望加入任何其他的基準進入我們的模型

empirical distribution底下,feature function  的期望值就是:

在我們的模型分佈底下,feature function  的期望值就是:

利用條件機率的定義,我們瞭解,所以如果要我們評估,我們要使用empirical distribution

所以第一個需求可簡化成

i.e.

這兩個需求因此產生下列受限最佳化問題:

為了解決受限最佳化問題,我們採用Lagrange multiplier,可得唯一解