北京信息科技大学中文信息处理研究中心
- 作品数:80 被引量:507H指数:9
- 相关作者:俞鸿魁赵红改马永成韩艳铧宗萍更多>>
- 相关机构:中国科学院计算技术研究所大连工业大学信息科学与工程学院西安电子科技大学经济与管理学院更多>>
- 发文基金:国家自然科学基金北京市教委科技发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>
- 基于层叠隐马尔可夫模型的中文命名实体识别被引量:188
- 2006年
- 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。
- 俞鸿魁张华平刘群吕学强施水才
- 关键词:命名实体识别角色标注ICTCLAS
- 基于分类的图像检索研究
- 针对目前的基于内容的图像检索系统的速度和效率问题,本文提出基于分类技术的图像检索方法。本文首先介绍了基于SVM的多类图像分类的研究,然后介绍了在分类基础之上,构建的基于内容的图像检索系统的原理,最后做出评价。
- 李渝勤钟玲王昕王陈飞
- 关键词:图像分类图像检索支持向量机
- 基于RSS的分布式博客搜索引擎设计
- 构建一个基于 RSS 的 P2P 分布式博客搜索引擎。利用 Pastry 协议,实现分布式博客采集系统的数据存储和传输。在各子采集系统上分别建立索引,分散了系统维护庞大索引的重负。实现分布式查询, 提高了查询响应速度。利...
- 刘莉肖诗斌王涛施水才
- 关键词:RSSPASTRY分布式搜索引擎
- 句子重述技术在中文文本摘要中的应用被引量:3
- 2008年
- 本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法。首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要。实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高。
- 周强施水才李渝勤吕学强
- 关键词:相似度信息处理指代消解
- 基于多特征融合的图像检索研究
- 本文针对基于利用单一特征对图像检索的片面性,进行了基于综合颜色和纹理特征的图像检索.仅基于一种特征的方法只能表达图像的部分属性,对图像内容的描述比较片面.颜色特征充分利用了图像的色彩信息,侧重于图像整体信息的描述,纹理特...
- 邓金杰肖诗斌吕学强程涛
- 关键词:图像检索纹理特征距离函数多特征融合直方图
- 基于分块和Lab颜色模型的字幕提取方法被引量:4
- 2010年
- 视频中的文本是建立视频检索的—个重要线索,因为视频中的文本总是和视频帧相关,并且客观地描述了视频帧的主要内容。根据背景区域内像素颜色变化缓慢而背景和前景交汇处像素颜色变化剧烈的原理采用对视频帧的每一行像素进行分块的方法计算每一块的变化率来检测和定位文本区域;使用Lab颜色模型来二值化图像从而提取文本图像。实验数据表明该方法效果不错,有很好的应用前景。
- 梁松涛吕学强程涛施水才
- 关键词:文本检测文本定位文本提取二值化
- 基于多特征融合的图像检索研究
- 本文针对基于利用单一特征对图像检索的片面性,进行了基于综合颜色和纹理特征的图像检索。仅基于一种特征的方法只能表达图像的部分属性,对图像内容的描述比较片面。颜色特征充分利用了图像的色彩信息,侧重于图像整体信息的描述,纹理特...
- 邓金杰肖诗斌吕学强程涛
- 关键词:图像检索纹理特征
- 基于RSS的分布式新闻博客搜索引擎设计被引量:4
- 2007年
- 针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。
- 刘峰施水才肖诗斌王弘蔚
- 关键词:RSSPASTRYBLOOM
- 基于分解转移矩阵的PageRank迭代计算方法
- 提出了一种基于分解转移矩阵的 PageRank 的迭代计算方法。该方法对 PageRank 理论模型进一步推导, 把其 Markov 状态转移矩阵进行了分解,从而降低存储开销和计算复杂度,减少 I/O 需求,使得 Pag...
- 刘松彬都云程施水才
- 关键词:PAGERANK搜索引擎矩阵分解
- 一种将启发式规则和HMM相结合的web信息抽取方法
- 目前web已经成为人们获取信息的主要来源,如何从web上抽取信息成为了信息抽取领域研究的热点。由于web文档是基于html语言的半结构化文档,不具备很强的统计学规律故而很难将传统的文本抽取领域中的HMM抽取模型应用在we...
- 伍丹都云程李渝勤王弘蔚
- 关键词:启发式规则WEB信息抽取文本抽取