国家自然科学基金(61073130)
- 作品数:4 被引量:127H指数:3
- 相关作者:赵铁军郑德权陈宇徐冰王山雨更多>>
- 相关机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于相似度线性加权方法的检索结果聚类研究
- 对检索结果的聚类能够便于用户在大量搜索结果中快速找到需要的信息,传统文本聚类技术在检索结果聚类上取得的效果并不好。Lingo算法采用LSI(潜在语义索引)对检索结果进行聚类,其首先生成候选标签,然后分配文档,形成聚类。本...
- 刘海波郑德权赵铁军
- 关键词:文本聚类信息检索语义相似度余弦相似度
- 文献传递
- 基于Deep Belief Nets方法的中文名实体分类研究被引量:2
- 2014年
- DBN是一种快速全局最优的神经网络分类方法,包含数层无监督学习网络和一层有监督学习网络。本文验证了DBN方法很好地适用于中文名实体分类任务。首先,采用多层RBM方法无监督地从字特征向量提取结构信息,得到更具有表征能力的特征;然后,利用BP方法微调网络参数并对提取后的特征向量进行分类,以此构成分类器进行名实体分类。通过对ACE 04的中文名实体进行的分类测试,准确率达到91.45%,明显高于支持向量机和反向传播神经网络等传统分类算法。
- 陈宇郑德权赵铁军
- 关键词:神经网络DBN
- 基于浅层句法特征的评价对象抽取研究被引量:50
- 2011年
- 随着网络评论文本数量的快速增长,文本情感分析越来越受到研究者的广泛关注.句子级文本情感分析就是对主观性文本进行细粒度的挖掘,有重要的研究价值.评论句中的评价对象抽取是句子级情感分析要研究的关键问题之一.为了提高评价对象抽取的性能,本文提出在系统模型的训练过程中引入浅层句法信息和启发式位置信息,同时在不增加领域词典的情况下,有效提高系统的精确率.实验结果表明,将本文提出的特征引入到条件随机域模型和对比模型后,系统的各项指标均有所提高,并且条件随机域模型的结果优于对比模型.同时,将条件随机域模型的结果与2008年国内中文评测的最大值比较,其F值超过最大值5%.
- 徐冰赵铁军王山雨郑德权
- 关键词:文本情感分析评价对象抽取
- 基于Deep Belief Nets的中文名实体关系抽取被引量:72
- 2012年
- 关系抽取是信息抽取的一项子任务,用以识别文本中实体之间的语义关系.提出一种利用DBN(deepbelief nets)模型进行基于特征的实体关系抽取方法,该模型是由多层无监督的RBM(restricted Boltzmann machine)网络和一层有监督的BP(back-propagation)网络组成的神经网络分类器.RBM网络以确保特征向量映射达到最优,最后一层BP网络分类RBM网络的输出特征向量,从而训练实体关系分类器.在ACE04语料上进行的相关测试,一方面证明了字特征比词特征更适用于中文关系抽取任务;另一方面设计了3组不同的实验,分别使用正确的实体类别信息、通过实体类型分类器得到实体类型信息和不使用实体类型信息,用以比较实体类型信息对关系抽取效果的影响.实验结果表明,DBN非常适用于基于高维空间特征的信息抽取任务,获得的效果比SVM和反向传播网络更好.
- 陈宇郑德权赵铁军
- 关键词:BELIEF关系抽取深层网络
- 网络信息抽取技术分析与比较被引量:3
- 2013年
- 随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构,为网络信息抽取带来了巨大的挑战。分析和总结了近年来网络信息抽取相关的研究与工作,剖析了各个工作的优势和局限,并进一步作了综合的分类与比较。
- 宋鑫莹赵铁军
- 关键词:包装器