则该随机过 程 Xn 为血液溶浆机离散时 间的 Markov链。随机过 程有两层 含义:第一,它是 一个时 间函 数,随时间的改变而改变;第二,每个时刻上的函数值是不确定的,是按照一定的概率随机分 布的。实际上,自然语言中每个字母或音素的 出现 随着 时间的 改变 而改变,是 时间 的函数, 而在每个时刻上出现什么字母(或音 素)则有一定 的概率性,是 随机的。1913 年,Markov就 注意到语言符号出现概率的相互影响,指出自然语言就是一个由有记忆 信源发出 的 Markov 链,在这一 Markov链中,前面的语言符号对后面的语言符号是有影响的。 如果只考虑前面一个语言符号对后面一个语 言符 号出现 概率 的影 响,这 样得 出的 语言 成分的链称做一阶马尔科夫链;如果考虑前面 两个语 言符 号对后 面一 个语言 符号 出现 概率 的影响,
则称做二阶马尔科夫链,以此类推,当考虑前面 n个 语言符号 对后面 一个语言 符号 出现概率的影响,则称做 n阶马尔 科夫 链。随着 马尔 科夫 链阶 数的 增大,随机 试验 所得 出 的语言符号链愈来愈接近有意 义的语 言文 本。然而,正 像语 言学 家乔 姆 斯基(Chomsky)所 指出的,描述自然语言的马尔科夫链的阶数并不是无穷增加的,它的极限就是语法上和语义 上成立的自然语言句子的集合,这样,就有理由将自然语言的句子看成是重数很大的马尔科 夫链了。 n-gram 模型是近年来最流行的语 言模 型,它是这 样定 义的:如 果用 变量 S代 表文 本 中一个任意的符号(字、词、词 性标 记 或义 类 标记 符 号)序列,它由 顺 序排 列 的 n 个 符号 组 成,即 S= W1 W2… Wi… Wn,则 S在文本中的出现概率 P(W1W2… Wi… Wn)可以用 下式 表示: P(S)= P(W1 W2… Wi… Wn) = P(W1)P(W2/W1)…P(Wn/W1W2… Wn-1) 其中,P(Wn/W1W2… Wn-1)表示在给定上下文 信息 W1 W2… Wn-1的条件 下,Wn 的 出现 的概率,即要考虑前面的 n-1 个符 号对 当前符 号出 现情况 的 影响。 这种 模型 由于
假设 当 前词的出现只 与前面 n-1 个词有关,而 与其他词 无关,可以看 做满足 Markov模型的 无后 效性条件,也就可以将其看做是一个广义的 n-1阶 Markov模型。 274 第七章 自然语言理解 (2) 隐 Markov模型 隐 Markov模型是由 Baum 首先提出的,后被广泛地应用于语音识别和词性标注。 它包 含了双重随机过程,一个是系统状态变化的过 程,状态 变化所 形成 的状 态序列 叫做 状态链; 另一个是由状态决定观察的随机过程,是一个 输出 的过 程,所 得到 的输 出序列 称做 输出链。 “隐”的意思就是输出链是可观察到的,但 状态 链却 是“隐藏”的、看不 见的。 一个隐 Markov 模型的形式描述为 λ=(A,B,π),其中,A={aij}为状态转移概率矩阵,且0≤aij



