大连理工大学信息检索研究室
- 作品数:40 被引量:212H指数:9
- 相关作者:苏绥任巨伟吴晓芳陈相刘文飞更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于LDA模型的博客垃圾评论发现
- BLOG(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,BLOG 已经成为互联网上的主要信息源之一,这也使得BLOG 空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法,针对BLOG本身的特点,使...
- 关键词:BLOG博文LDA主题垃圾评论
- 文献传递网络资源链接
- 基于随机游走的就业推荐系统研究与实现被引量:10
- 2011年
- 目前,各高校的就业指导工作尚不完善,许多毕业生在求职初期缺乏目的性和针对性,在应聘并不适合自己的企业上耗费了大量的时间和精力,由此导致就业难度加大。在此情况下,我们设计开发了高校毕业生就业推荐系统。系统从大连理工大学就业实际工作出发,通过比较应届和往届毕业生基本特征,并结合基于随机游走模型的PageRank算法获得的各个企业的"求职指数",将招聘企业排序后推荐给每一名毕业生。通过测试,本系统功能上符合设计初衷,能够向毕业生推荐适合的企业,可以提升毕业生求职的针对性和目的性,并大大减少其在获取招聘信息上的时间投入。
- 吴迪周利娟林鸿飞
- 关键词:随机游走PAGERANK就业推荐
- 基于改进PAIRWISE损失函数的排序学习方法
- 排序学习是当前机器学习与信息检索交叉领域的研究热点。它利用机器学习方法自动地构造排序模型,用于排序新的数据。PAIRWISE方法是一类重要的排序学习方法,它以偏序文档对作为训练样例,通过判断不同文档与查询的相关性大小关系...
- 关键词:信息检索损失函数
- 文献传递网络资源链接
- 基于LDA模型的博客垃圾评论发现
- Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法,针对Blog本身的特点,使用规...
- 刁宇峰林鸿飞
- 关键词:BLOG博文LDA主题垃圾评论
- 文献传递
- 面向学术评价的论文画像研究被引量:4
- 2022年
- [目的/意义]在回归论文本身内容的基础上,结合定性定量两种方法以构建科学、全面且智能的学术论文评价方法。[方法/过程]文章以论文画像为载体,基于论文自身信息、以同行评议为代表的定性评价信息与以引用和Altmetrics为典型的定量评价信息对学术论文评价信息进行全面的刻画。通过为每篇论文构建画像,并使用基于深度学习的方法对不同类型论文画像进行学习,构建学术论文质量自动分类模型进行综合评价。[结果/结论]应用论文画像使学术评价回归论文本身,同时辅之以定性和定量评价的属性特征,可以完善论文评价机制并达到论文质量可视化的目的。学术论文质量分类模型也提升了论文评价的智能性和时效性。
- 丁堃赵昕航林原林鸿飞
- 关键词:论文评价综合评价论文质量
- 基于情感常识的微博事件公众情感趋势预测被引量:12
- 2017年
- 微博日益成为一个巨大而复杂的互联网舆论平台。分析微博中特定话题的情感趋势对于了解网络舆情、分析产品销量趋势显得尤为重要。该文使用微博进行真实事件公众情感趋势预测:首先,考虑到微博特征稀疏、上下文缺失的特性,借助词语上下位语义关系对其进行语义扩充;其次,使用语义特征和情感常识知识构造双层分类方法进行情感分析;最后,对特定事件在连续时间段内的微博使用时序情感分析方法进行公众情感趋势预测。实验证明,该情感分析方法准确率相对于传统分类方法有明显的提高,在此基础上的情感趋势预测符合事件的真实发展状况。
- 任巨伟杨亮吴晓芳林原林鸿飞
- 关键词:情感分析
- 评论挖掘中产品属性归类问题研究被引量:18
- 2012年
- 该文主要把产品评论中属性的不同描述进行归类。在产品评论中,同类的属性会有不同的描述,例如,手机的"外形"和"设计"指的是同类属性。同类属性虽然有不同的描述,但是在句中却和相同的情感词搭配使用。该文首先抽取评论句中属性和情感词的搭配关系,形成一个二部图,然后用权重标准化SimRank计算不同属性之间的相似度,并把所得的结果与半监督学习中的贝叶斯分类器进行融合,得到了更好的分类结果。通过实验证明了此方法的有效性。
- 杨源马云龙林鸿飞
- 关键词:SIMRANK半监督学习
- 基于词向量和EMD距离的短文本聚类被引量:11
- 2017年
- 短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。
- 黄栋徐博许侃林鸿飞杨志豪
- 关键词:相似度计算聚类
- 基于网页框架和规则的网页噪音去除方法
- 随着Internet的迅猛发展,Web网页上的信息呈现爆炸式的增长,而网页噪音是任何网页都不可避免的部分,它也是影响阅读网页和进行Web信息处理的一个重要因素.本文提出了一种基于网页框架和规则的网页去噪方法,该方法根据网...
- 时达明林鸿飞杨志豪
- 关键词:HTML标签网页噪音
- 文献传递
- 基于文献的知识发现:一个面向H1N1的研究
- 2011年
- 目前,生物医学文献的数量正以爆炸性的速度增长,这些文献中隐含着大量有用的信息,挖掘这些文献可以形成医学假设。然而,传统的基于简单共现的方法会产生大量的目标词,从而导致准确率下降。本文提出一种新的选取连接词的方法,使用统计特征和文本特征来代替每一个连接词并表示为向量形式,然后把这些词分类为相关和不相关。使用相关的连接词发现目标词,可以提高知识发现的准确率。本文通过Swanson的两组经典实验——雷诺氏病和鱼油、偏头痛和镁,使用有效连接词的比例变化作为依据验证了方法的有效性。最后,本文以H1N1为初始词,进行开放式和闭合式知识发现研究,得到了较好的效果。
- 周峰林鸿飞王健杨志豪
- 关键词:知识发现共现H1N1