秦兵
- 作品数:177 被引量:1,903H指数:19
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划哈尔滨工业大学校基金资助更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>
- 基于边权重的主题核心术语抽取
- 2015年
- 术语抽取是层次体系构建的首要子任务。目前的术语抽取研究主要集中在文本语料并且混合多个主题,存在知识获取的瓶颈和术语表述的模糊与歧义的问题。为了解决这些问题,本文提出一种基于边权重的主题核心术语抽取方法,从社会化标签中抽取主题核心术语。考虑到社会化标签丰富的语义关联特征,本文提出结合具体主题的局部共现和资源集合中所有主题的全局语义相似度的边权重。新颖的边权重将传统的随机游走方法分解成多个主题相关的随机游走,并针对每个具体主题排序相关的候选术语。排序靠前的术语被抽取作为主题核心术语。实验结果表明本文提出的方法显著优于前人的相关工作。
- 薛涵秦兵刘挺
- 关键词:术语抽取社会化标签
- 开放式实体及其类型识别方法
- 开放式实体及其类型识别方法,涉及一种实体及其类型识别方法,为了解决目前采用弱指导方法的实体识别方法存在一些缺陷的问题。它包括:一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;二:利用训练语料的有效特征训练条...
- 秦兵付瑞吉刘挺
- 基于多特征融合的句子相似度计算
- 句子相似度计算在中文自然语言处理领域有着非常广泛的应用背景。本文通过对句子的深入分析,在分别对基于词特征,词义特征以及句法特征的句子相似度计算的基础上,提出一种基于多特征融合的句子相似度的计算方法。该方法通过对不同的特征...
- 赵妍妍秦兵刘挺张俐苏中
- 关键词:句子相似度计算多特征融合权值
- 一种基于图卷积神经网络的生成式会议摘要方法
- 一种基于图卷积神经网络的生成式会议摘要方法,本发明涉及基于图卷积神经网络的生成式会议摘要方法。本发明的目的是为了解决现有方法仅仅使用句子和词语的序列结构建模会议文本,忽略了会议丰富的对话篇章结构信息的问题。过程为:一:得...
- 冯骁骋秦兵冯夏冲刘挺
- 中文篇章级句间语义关系体系及标注被引量:24
- 2014年
- 篇章句间关系(Discourse Relation)是篇章级语义分析的重要内容,该文在英文篇章句间关系研究的基础上分析了中英文间的差异,总结了中文篇章级语义分析的特点,并在此基础上提出面向中文篇章句间关系的层次化语义关系体系,对句间关系类型进行详细描述。为了验证体系的合理性和完备性,我们在互联网新闻语料上进行了标注实践,分析了标注中遇到的难点并给出解决方案,为进一步的中文篇章级语义分析工作奠定基础。
- 张牧宇秦兵刘挺
- 音乐领域典型事件抽取方法研究被引量:24
- 2011年
- 事件抽取是信息抽取领域一个重要的研究方向。该文从音乐领域的事件抽取出发,通过领域事件词聚类的方法自动发现音乐领域具有代表性的事件,然后采用基于关键词与触发词相结合的过滤方法简化了事件类型的识别过程。在事件元素识别中,该文采用了基于最大熵的事件元素识别方法。在该文构建的语料库下,最终事件类型识别的平均F值达到82.82%,事件元素识别的平均F值达到75.79%。
- 丁效宋凡秦兵刘挺
- 关键词:事件抽取
- 一种基于自训练与噪声模型的因果事件抽取方法
- 一种基于自训练与噪声模型的因果事件抽取方法,本发明涉及因果事件抽取的方法。本发明的目的是解决现有基于深度学习模型的因果事件抽取方法在有标注数据不足的领域或场景中效果有限的问题。过程为:一、收集已标注的目标领域文本;二、计...
- 丁效刘挺秦兵廖阔
- 大规模情感词典的构建及其在情感分类中的应用被引量:54
- 2017年
- 以微博为代表的社会媒体的飞速发展为情感分析方向带来巨大的资源,同时也对情感分析算法的性能提出了更大的挑战。其中,现有的情感词典尤其是中文情感词典规模不足是影响情感分析性能的一个重要因素。为此,该文基于海量的微博数据,使用简单的文本统计算法,构建了一个十万词语/词组的大规模情感词典。我们以情感分析的基础任务——情感分类为例,将大规模情感词典作为特征用于该任务上,实验结果表明大规模词典有助于情感分类性能的提高。
- 赵妍妍秦兵石秋慧刘挺
- 关键词:情感词典情感分析情感分类
- 中文人称名词短语单复数自动识别被引量:5
- 2008年
- 名词短语的单复数信息在共指消解中是必不可少的特征.与英语不同,中文属于汉藏语系,名词本身不能明显体现单复数信息,需要借助其所在的名词短语来进行体现.本文在自动内容抽取(Automatic content extraction,ACE)语料上抽取得到人称名词短语的单复数信息,分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别,基于规则的方法,在一些知识资源的基础上定义了规则模板库,每条规则采用槽和槽值的方法米进行体现;机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征.两种方法分别达到了48.24%和87.48%的正确率.实验结果显示,基于规则的方法能够保证精确率而不能保证召回率,机器学习的方法可以更好地完成单复数信息的识别任务.
- 郎君秦兵刘挺李正华李生
- 关键词:单复数
- 一种基于多模型融合的抽取式文本摘要生成方法
- 一种基于多模型融合的抽取式文本摘要生成方法,本发明涉及抽取式文本摘要生成方法。本发明的目的是为了解决现有的单一的抽取式模型无法学习到摘要文本的全部重要信息,导致摘要抽取准确率及召回率低的问题。过程为:一、将每个句子的词向...
- 冯骁骋秦兵刘挺孙卓孔常青高建清