The Language of the Internet
by Naomi S. Baron
摘要
本文”The Language of the Internet?/span>為Stanford大學的語言資訊研究中心(CLSI)所出版的”Handbook for Language Engineers?/span>之一個章節. 其內容主要介紹網際網路上自然語言之使用,並探討網際網路的技術對自然語言的影響.另外也介紹與網際網路相關的機器語言.
對文字書籍如何進行檢索和分析來取出所需的內容一直是人類文字文明發展以來的重要課題. 過去人們對資訊的檢索是靠著一些人為建立的目錄表來進行. 這些目錄表基本上是照一些基準來分類以便檢索. 這產生了幾個問題: (1)分類的判定會受人主觀意識之不同而有所不同,(2)許多東西是涵蓋許多不同的層面,很難用一特定的項目來分類,(3)更重要是隨內容的增加,以人力來進行分類越來越不可能.
在現代,有越來越多的資訊內容在網際網路上流通. 這些內容反映了人類現今的文明活動與知識. 由於網路上的資訊數量爆炸性的成長, 我們不可能用人力去進行網路資訊的檢索和分析,而必須藉助電腦機器來達成. 由於這些資訊大多是由人類的自然語言文字所組成的, 所以研究人們在網路上的自然語言模式便成為我們如何設計電腦機器來進行自動資訊檢索分析的重要課題.
在網際網路上的自然語言研究必須考慮到以下幾個差異性的因素: (1)書面語和口語的不同,(2)技術對語言的影響和(3)跨文化與語言的影響.
傳統語言學的研究偏向口語, 書面語被認為只是口語的文字記載形式. 但實際上書面語和口語是有差異的, 除了歷史上所謂文言文與口語的差異外, 我們可以從形式與內容兩方面來區別書面語與口語的差異.
在形式方面, 書面語主要是針對多數讀者的單方面發表, 一般具有一定的內容格式,撰寫時必須考慮讀者閱讀的時間與撰寫時間的差異. 口語則剛好相反, 多是對談的形式,可即時反映交談雙方的變化.
書面語和口語在內容方面的差別主要在書面語一般強調表達撰寫者的意識, 所以內容會充滿較多的資訊, 語法會較為正式. 反之, 口語常包含許多非正式的社交性言詞.
本文舉了幾個有趣的例子來說明技術對語言的影響. 例如當電話出現後, 人們首次可以不用直接面對面進行交談. 在此種狀況下, 所使用的言詞往往會較為直接. 而這些語言表達的方式又會影響到我們平常的溝通方式. 造成現代人的語言較為坦白直接.
另外像打字機的出現, 促成長篇文章的大量出現. 而印刷產業促成書本由以往多人言論記述累積的型式轉變為單一作者的形式. 但是Web Blog的出現又再使這種多人言論記述累積的文章形式再現.
不同文化的接觸會對語言產生某種程度的影響, 例如日本對台灣的統治時期,就讓一些日語詞彙成為台語的一部份. 而現在Internet促成跨地域的一種連結對語言的發展也勢必會產生巨大的影響.
以英語為例,由於Internet是以美國為主發展推動起來的. 英語成為在Internet上跨國溝通的重要媒介語言. 許多組織和公司的對外網站是以英語作成; 另外在國際性的Email與網路論壇上, 英語也是標準語言. 由於許多在Internet上使用英語的人士並非是以英語為母語, 他們對英語的文法, 口語和書面語用詞的差異以及禮貌型等用法可能不是很理解. 所以我們可以想像在Internet上的英語語言材料會和從傳統英語國家所收集的語言材料有很大的不同.
值得注意的是這些不正規的英語用法如果大量普及, 也可能促使以英語為母語的人士接受並使用它們.
如同書面語與口語的差別, 在Internet上的自然語言也會因為使用的方式產生差異. 一般我們可以從語言運用的時間性,方向性,匿名性等特徵來區別這些差異產生的因素, 而這些差異也會影響到我們如何用機器來進行這些語料的分析.
電子郵件Email是Internet上的電腦媒介通訊(CMC)方法中歷史最為久遠的方法. 人們將自然語言運用在Email上有很大的差異性; 從標準近似傳統的書信格式到非常口語話的格式. 這種差異性是受到使用者的教育,年齡與使用場合等因素影響. 不過Email原則上只會使用在私人的通信而不會公開, 所以在一般機器的自然語言檢索分析上是不被納入考慮. 但是在Email的語言運用經驗會影響到我們平常使用語言的方式.
從早期的ICQ到現在流行的Yahoo Messenger與MSN Messenger都是提供網路上即時性通訊的最佳代表. 由於及時性與雙向性,所以人們在這些工具上使用語言的方式就非常接近平常口語的對談. 另外由於必須藉由鍵盤輸入, 為了加快訊息輸入的速度, 所以人們發展了許多辭彙的縮寫形式來加快溝通的速度.
ICQ,MSN這類?/span>即時通?/span>工具如同Email主要是提供私密性的溝通管道. 但是由於?/span>即時通?/span>除了快速即時外,也可提供多人討論的機能. 所以有越來越多的公司組織利用?/span>即時通?/span>或架設自己的專屬?/span>即時通?/span>系統來達成組織溝通的目的. 在此情況下, 公司會希望能分析了解這些內容的資訊.
SMS是指行動電話的?/span>簡訊?/span>功能, 現在從Internet上也有商業服務提供SMS與Internet間訊息的交換. SMS由於主要從手機發送, 因為手機的鍵盤上按鍵極為有限, 所以很多人會用一些簡單的縮寫去代替常用的字眼. 而這些用法也會擴散影響到人們平常使用語言的方法.
Newsgroup提供一個一對多的非即時的公開溝通管道. Newsgroup會根據所討論的主題內容劃分不同的Newsgroup名稱. 一般Newsgroup上的內容是公開的, 人們只要透過簡單的註冊便可取個別名以匿名在上面發言. 由於是公開的內容, 所以成為許多機器語言分析的研究材料. 但是由於參予者沒有限制, 裡面的語言運用方式的差異會非常大. 此外因為匿名的特性, 也很難根據發言者的屬性來對內容作一先期的處理分析.
聊天室如同Newsgroup也提供匿名溝通的一種管道. 由於即時的特性, 所以裡面的語言內容與格式接近於類似?/span>即時通?/span>的屬性.
Web網頁應該是機器自然語言研究最熱門的題目. 因為Web網頁的檢索是目前各種網路搜尋引擎的競爭重點. 傳統的網頁是由網頁提供者提供單向的資訊的發布, 使用者無法改變其內容; 最多只能根據網頁提供者所提供的輸入來作一些輸出內容的設定.
但是隨著所謂Blog與Wiki的出現, 現在網頁的內容也可接受網頁瀏覽者將自己的資訊或感想反映在網頁內容上. 所以這種型態的網頁相較以往單向式的網頁在內容上會出現較多口語形式的語言成分.
對Internet上自然語言的分析, 除了從之前所提的傳播工具的角度來看外, 我們可以用系統化的角度來作整體性的分析: 例如語言變異性的因素和語言特徵等方面.
造成網路上自然語言的變數原因主要有 (1)訊息的功能, (2)工具的限制, (3)特殊語意符號和(4)參與者的特徵.
在訊息的功能部分, 在網路的語言傳播會受到訊息的目的產生顯著的不同. 例如在公事的用途, 大家會以較正式的語法去表達. 反之,如果是比較軟性的用途上, 人們便會使用較口語的非正式語法和詞彙.
工具的特性也會造成語言使用的差異, 例如非即時性的工具如Email, 會使人使用像傳統書信的方式來使用語言. 反之項MSN等即時通訊介面會讓使用者用近似口語的語言來對談. 另外像PDA與手機的鍵盤都很小, 則會造成使用者嘗試用各種縮寫來簡化語言輸入的過程.
另外一種很有趣的現象便是在網路上用一些文字符號來組成代表心情意義的語言符號(Emoticons); 例如用:-) 來代表高興的含意. 這對機器語言處理形成了一個很大的挑戰, 因為這些符號與傳統語言定義不同,而且在不同的族群間的內容意義可能有很大的不同.
最後根據參與者的特性, 也可對語言內容的特性產生影響. 例如隨者使用者年齡與教育的不同, 所用的語言自然大有不同.
當人們大量使用Internet後, 自然Internet會對我們的語言開始產生影響. 例如人們會直接用google來代表從網路檢索的動詞. 另外Internet上的聊天室與即時通的口語化簡短書寫語言的流行, 會促使許多人在平常運用這些語言形式在其它方面.
根據研究, 一般人瀏覽網頁時往往會像看電視選台, 如果沒能立刻讓他們產生吸引力便會立刻促使用戶換台. 所以網頁設計者必須設計非常淺顯易懂的內容來抓住使用者的目光, 這種現象會影響人們平常的書寫語言變的更簡化.
今天的網際網路充滿大量的資訊, 如何有效的檢索網路的資訊成為一個非常重要的技術. 本節介紹搜尋引擎的相關技術發展.
網路上的搜尋技術的發展, 最初是使用人工進行登錄分類. 但隨著網路內容的急劇膨脹, 如今的搜尋技術是利用電腦搜尋引擎來進行, 人工頂多扮演輔助的腳色.
自動化的搜尋引擎的工作可分為三部份: (1)Crawler(爬蟲)的網頁收集軟體, 它定期經由網址與連結來檢索Internet上的網頁, 並讀取到搜尋引擎的資料庫內. (2)Index(索引)資料庫, 所有的網頁以某種壓縮編碼的形式來存放. (3)檢索引擎, 根據使用者輸入的搜尋目標, 檢索Index資料庫內的資料, 並將符合使用者需求的網頁連結輸出到使用者的網頁瀏覽器.
網頁搜尋引擎會根據某種規則將符合使用者的搜尋目標的網頁連結依重要性排序輸出到使用者的瀏覽器上. 基於商業或宣傳的目的, 大部分的網頁擁有者都希望他的網站能排序在前面, 以增加被瀏覽的機會.
將自己網頁排序在前的方法有(1)追加適當的網頁附註標記讓搜尋引擎很容易取出關鍵字, (2)盡量設法讓自己的網頁連結出現在別的網頁上, (3)自行登錄網頁連結在搜尋引擎內等各種方法. 事實上現在也有各種商業軟體協助網頁設計者達成以上目標.
隨著網際網路的日益普及, 會有越來越多的人以自己的母語來設計自己的網站. 如何將網路的搜尋分析技術達到跨語言的境界將是一個極大的挑戰.
要達成跨語言的搜尋必需解決幾個重要課題例如語言的機器翻譯, 相同語言文化在不同區域的辭彙與文字的差異等. 目前這些技術還有非常多的研究題材可以進行.
記的兩三年前公司來了個剛從學校畢業的新同事, 他所寄出的Email裏充斥著大量奇怪的縮寫, 報告內容的格式也不會有明確的體系. 當時感覺非常不習慣, 也很困惑. 看了這篇文章後, 首先讓我能從比較宏觀的角度去思考這種Internet所帶來語言的變化.
另外經由這篇文章可以得知在Internet上的自然語言的研究還有非常多的發展機會, 因為Internet的應用技術的不斷發展會帶來新的自然語言特徵, 另外跨語言的研究分析會是非常重要的一個促進不同種族互相了解的動力.