雙單位 (bigram) 就是1且有2个單位的資料,比論講2个字母 (letter), 2个音節 (syllable),猶是2个字 (word)。用來分析文本 (text) 簡單閣有事使。當做語言模式 (language model) 來做語音辨識 (speech recognition) 嘛屆讚 (Collins, 1996)。雙單位算是N單位 (N-gram) 的1个特例。
分類[修改]
閬縫雙單位 (Gappy bigram,skipping bigram) 指2个單位中央有閬縫,像講閬過連接二 (connecting word),猶是講知倚賴文法 (dependency grammar) 內底欲模仿倚賴的關係。
頭二雙單位 (Head word bigram) 就是1種有明確倚賴關係的閬縫雙單位。
路用[修改]
佇密碼學 (cryptography) 有1種雙單位頻率攻擊 (bigram frequency attack),利用頻率分析 (frequency analysis) 來解phòa暗碼 (cryptogram)。
理論[修改]
若知影雙單位的機率佮頭前彼个單位的機率,咱就會得用Bayes定理 (Bayes' theorem) 來算後壁彼个單位的條件機率:
也就是講,若知影 的機率,按呢 的機率 道是雙單位的機率 去除以頭前單位 的機率。
相關文章[修改]