英文 篇章分析万博体育登录手机版越来越受到关注

当前位置:万博man手机客户端 > 万博体育登录手机版 > 英文 篇章分析万博体育登录手机版越来越受到关注
作者: 万博man手机客户端|来源: http://www.builderaff.com|栏目:万博体育登录手机版

文章关键词:万博man手机客户端,篇章分析

  汉语显式篇章关系分析。汉语显式篇章关系分析 丁 彬,孔 芳,李 生,周国栋 【摘 要】 篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单 元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别 和

  汉语显式篇章关系分析 丁 彬,孔 芳,李 生,周国栋 【摘 要】 篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单 元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别 和 篇 章 关 系 分 类 的 显 式 篇 章 关 系 分 析 平 台 。 该 文 选 取 汉 语 宾 州 树 库 (Chinese Penn Treebank, CTB)中的 500 篇文本进行了汉语显式篇章关系标注;结合连 接词的中心词,采用最大熵分类器构建了汉语连接词识别模块,其性能 F1 值 达到了 66.79%;基于连接词及其词性等上下文特征,构建了篇章关系分类器, 其在最顶层 4 大类语义关系上的分类性能的 F1 值为 91.92%。 【期刊名称】中文信息学报 【年(卷),期】2014(028)006 【总页数】6 【关键词】关键词: 连接词识别;语义关系分类;最大熵分类器 1 引言 篇章是指由一系列连续的从句、复句或句群构成,传达一个完整信息、前后衔 接、语义连贯的语言单位。篇章分析的主要任务包括研究篇章的内在结构,理 解文本单元间承接的语义关系等。篇章分析是自然语言领域至关重要的一部分, 对自然语言处理的许多应用,例如,问答系统、指代消解和篇章连贯性评价等 有着重要的作用。 近年来,随着宾州篇章树库(Penn Discourse TreeBank, PDTB)的发布,英文 篇章分析越来越受到关注,许多基于它的研究工作陆续展开。 本文借鉴 PTB 和 RST 英文篇章标注体系,选取汉语树库(Chinese Treebank, CTB)中的 500 篇文本进行了汉语显式篇章关系的标注,并基于这一语料分析了 词法和句法特征对汉语显式篇章关系的作用。 本文组织结构如下: 第 2 节介绍了显式篇章分析的相关工作;第 3 节介绍了汉 语显式篇章关系语料;第 4 节给出了一个基于词法和句法特征的汉语篇章分析 平台,具体介绍了连接词识别和篇章语义关系分类这两个子任务的具体实现; 第 5 节详细分析了实验结果;最后总结全文并指出下一步工作。 2 相关工作 随着 PDTB 的发布出现了很多英文篇章关系分析的相关研究。基于 PDTB 语料 库的篇章分析工作主要包括连接词识别、论元标注、语义关系的分类以及隐式 篇章关系识别等。其中显式篇章关系研究的代表性工作包括以下几点。 在连接词识别方面,Pitler 和 Nenkova(2009)使用最大熵模型,第一次将句法 方面的特征(这些句法特征已经广泛应用于论元分类等任务中)应用到连接词识 别任务中。在只有句法特征的情况下,连接词识别的 F1 值达到了 88.19%。在 此基础上,他们将连接词与句法特征相组合,获得了 94.19%的连接词识别 F1 值。Lin 等(2012)在 P&N 的基础上新增了词法特征(包括连接词的词性和词与 词性之间的组合)和两种句法路径作为特征。实验结果表明词法特征的加入进一 步提高了英文连接词识别的性能,F1 值达到了 95.36%。 在篇章关系识别方面,PDTB 将篇章关系分为 4 大类[1]。P&N 使用上述句法 特征对英文显式关系的语义分类进行了研究,在 PDTB 上使用朴素贝叶斯分类 器进行 10 倍交叉验证。实验结果表明只有连接词作为特征时,4 类篇章关系的 识别精度为 93.67%。加入句法特征后,识别精度提高到 94.15%。 与英文相比,其他语言或非新闻领域也有一些相关研究,典型工作包括: Alsaif 和 Markert(2011)[2]依照 PDTB 的标注框架对 APT(Arabic Penn Treebank)进 行标注,并在此基础上研究阿拉伯语篇章中显式连接词的自动识别和篇章关系 的分类。其中连接词识别的精度达到了 92.4%。Ramesh 等(2010)研究了在 PDTB 和生物语料库(BioDRB)上连接词识别的差异。他们使用条件随机场模型 (CRFs)在 PDTB 上训练分类器,在 PDTB 和生物语料库上测试的 F1 值分别为 84%和 55%。在生物语料上进行交叉验证的 F1 值达到了 69%。 相比之下,对汉语显式篇章关系的研究相对较少,这主要是因为缺乏汉语篇章 级别语料。我们依照 PDTB 框架[3],选取 500 篇 CTB 文本进行了显式篇章关 系的标注。汉语表达形式多样,篇章连接词的构成比英文复杂,这都给汉语显 式关系分析造成了一定的困难。本文使用最大熵模型,结合词法、句法等特征, 构建了汉语显式篇章关系分析平台,并通过实验分析了汉语篇章关系的复杂性。 3 汉语显式篇章关系语料库 目前可供研究的英文语料库主要有 RST Discourse Treebank(RST-DT)和 PDTB。 RST-DT 由 美 国 南 加利 福 尼亚 大学 和华 盛顿 国 防部 联合 标注 , 2002 年 由 LDC(Linguistic Data Consortium)发布。万博体育登录手机版它先利用 RST-Tool 工具对文本进行 预标注,主要包括文本的切割(生成小句)和初始修辞关系的生成,然后人工验 证预标注的结果,判断文本的切分是否正确,万博体育登录手机版并为功能语句对标注一个可能性 最大的修辞关系。 PDTB 由 LDC 于 2008 年发布,是目前规模最大的英文篇章级别的语料库。 PDTB 共标注了以下几种类型 : (1)显式和隐式关系连接词; (2)Alternative Lexicalization(AltLex) ; (3)Entity-based Coherence Relation(EntRel) ; (4)No Relation(NoRel)。PDTB 还定义了一个三级层次的语义结构,第 1 层包 括 Temporal、Contingency、Comparison 和 Expansion 4 类语义,万博体育登录手机版第 2 层 包括 16 类语义,第 3 层包括 23 类语义。 与英文相比,汉语表达上更具多样性。参考 RST 理论,借

网友评论

我的2016年度评论盘点
还没有评论,快来抢沙发吧!