您的位置: 专家智库 > >

国家高技术研究发展计划(008AA04Z107)

作品数:2 被引量:21H指数:2
相关作者:吴江宁刘巧凤更多>>
相关机构:大连理工大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇文本相似度
  • 2篇相似度
  • 1篇图结构
  • 1篇中文
  • 1篇文本表示

机构

  • 2篇大连理工大学

作者

  • 2篇刘巧凤
  • 2篇吴江宁

传媒

  • 2篇情报学报

年份

  • 2篇2010
2 条 记 录,以下是 1-2
排序方式:
基于图结构的中文文本表示方法研究被引量:14
2010年
为解决基于统计的文本表示模型的信息缺失问题,本文提出了一种考虑词间语义和语序信息的基于图结构的中文文本表示方法,其思想是将文本的特征项表示成图结构中的节点,特征项间的关系表示成节点间的有向边,据此可将文本表示成由节点和有向边组成的图结构,并且将边赋予权重信息,该模型较大程度地保留了原文本的结构信息及语义信息。中文语料测试结果表明,基于图结构的文本表示方法对复杂文本语料的分类问题十分有效。对于简短文本语料,本文提出扩展特征项共现单元的修正方法,提高了图结构中文文本表示方法的普遍适用性。
吴江宁刘巧凤
关键词:文本表示文本相似度
基于最大公共子图的文本相似度算法研究被引量:8
2010年
用图结构表示文本,能更好地反映文本内部的结构特征,体现文本内的语义关系及词语在上下文中的语序关系,在此基础上,本文提出了一种基于最大公共子图的文本相似度计算方法,应用最大公共子图提取文本的公共部分,并利用最大公共子图的性质度量文本间的相似程度。最后针对分类试验结果中存在的问题,提出图模型修正方法以改进文本的表示效果,并对修正前后不同β取值下的F-Score值进行比较。修正后的试验结果表明,基于最大公共子图的文本相似度算法有着较好的分类性能。
吴江宁刘巧凤
关键词:文本相似度
共1页<1>
聚类工具0