公共文化服务平台

2025年7月8日星期二

|

欢迎来到安徽省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

江苏省博士后科研资助计划项目(0601033B): 作品数：7 被引量：47H指数：4; 相关作者：程玉虎王雪松易建强田西兰孙伟更多>>; 相关机构：中国矿业大学中国科学院自动化研究所更多>>; 发文基金：江苏省博士后科研资助计划项目中国博士后科学基金江苏省“青蓝工程”基金更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

7篇中文期刊文章

领域

7篇自动化与计算...

主题

4篇Q学习
3篇支持向量
3篇支持向量机
3篇向量机
2篇最小二乘
2篇最小二乘支持...
1篇映射
1篇伺服
1篇伺服控制
1篇伺服控制系统
1篇自适
1篇自适应
1篇自组织
1篇自组织模糊
1篇网络
1篇位置伺服
1篇位置伺服控制
1篇位置伺服控制...
1篇向量
1篇径向基

机构

7篇中国矿业大学
3篇中国科学院自...

作者

7篇王雪松
7篇程玉虎
3篇田西兰
3篇易建强
2篇孙伟
1篇马小平
1篇郝名林
1篇李明

传媒

2篇中国矿业大学...
2篇系统仿真学报
1篇自动化学报
1篇信息与控制
1篇控制与决策

年份

1篇2009
4篇2008
2篇2007

共 7 条记录，以下是 1-7

全选清除导出

排序方式：

电-气位置伺服控制系统的研究进展被引量：6: 2007年; 由于气压驱动系统本身具有强非线性、固有频率低、刚度低和阻尼小等特点,实现高精度的位置伺服控制比较困难.针对我国在这方面所做工作相对较少的现状,从电-气位置伺服系统的控制方式和控制策略两方面综述了近年来的发展状况,并对各种方法的优缺点进行分析和比较,同时探讨了这一研究领域的发展方向和需要解决的问题.; 王雪松程玉虎易建强; 关键词：位置伺服控制控制策略

基于支持向量机的连续状态空间Q学习被引量：6: 2008年; 针对连续状态空间下的强化学习控制问题,提出一种基于支持向量机的Q学习方法.支持向量机不易陷入局部极小,且有优良的泛化性能,对系统状态-动作对的Q值进行估计计算,解决状态空间泛化中易出现的"维数灾"问题.引入滚动时间窗机制实现支持向量机的在线学习:系统实时检测得到的新数据若不包含新信息,则保持学习的样本集不变;若包含新信息,则滚动时间窗,更新样本集,从而更新支持向量机的回归模型,并对时间窗内的数据分配不同的权值以充分利用数据的信息.倒立摆平衡控制的仿真结果表明该方法能够有效解决具有连续状态的非线性系统的强化学习控制.; 王雪松田西兰程玉虎; 关键词：支持向量机 Q学习

最小二乘支持向量机在强化学习系统中的应用被引量：3: 2008年; 将连续状态空间下的Q学习构建为最小二乘支持向量机的回归估计问题,利用最小二乘支持向量机良好的泛化以及非线性逼近性能实现由系统状态-动作对到Q值函数的映射。为了保证计算速度以及适应Q学习系统在线学习的需要,最小二乘支持向量机的训练样本是窗式移动的,即在Q学习系统学习的同时获取样本数据并进行最小二乘支持向量机的训练。小车爬山控制问题的仿真结果表明该方法学习效率高,能够有效解决强化学习系统连续状态空间的泛化问题。; 王雪松田西兰程玉虎马小平; 关键词：最小二乘支持向量机 Q学习泛化

基于差分进化的并联机器人位姿正解被引量：4: 2008年; 利用并联机器人位姿反解容易求取的特点,把并联机器人的位姿正解问题转化为假设已知位姿正解,通过位姿反解求得杆长值,并使所求得的杆长值与给定的杆长值之差为最小的优化问题,然后利用差分进化的全局寻优能力来直接求解并联机器人的位姿正解.6-SPS型并联机器人位姿正解的数值仿真结果表明,该方法较遗传算法求解精度高且收敛速度快,经过508步迭代之后,位置误差小于0.000 1 mm,姿态误差小于0.000 1°.该方法不仅避免了繁琐的数学推导和迭代初值的选取,又可以获得符合精度要求的运动学正解,为解决并联机器人正向运动学问题提供了新的计算策略.; 王雪松郝名林程玉虎李明; 关键词：并联机器人差分进化

基于协同最小二乘支持向量机的Q学习被引量：21: 2009年; 针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine,LS-SVRM)和一个最小二乘支持向量分类机(Least squares support vector classification machine,LS-SVCM)构成.LS-SVRM用于逼近状态-动作对到值函数的映射,LS-SVCM则用于逼近连续状态空间到离散动作空间的映射,并为LS-SVRM提供实时、动态的知识或建议(建议动作值)以促进值函数的学习.小车爬山最短时间控制仿真结果表明,与基于单一LS-SVRM的Q学习系统相比,该方法加快了系统的学习收敛速度,具有较好的学习性能.; 王雪松田西兰程玉虎易建强; 关键词：Q学习最小二乘支持向量机映射

基于自组织模糊RBF网络的连续空间Q学习被引量：4: 2008年; 针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了"连续状态—连续动作"的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验证了所提Q学习方法的有效性.; 程玉虎王雪松易建强孙伟; 关键词：自组织 Q学习 Q值

自适应T-S型模糊径向基函数网络被引量：4: 2007年; 针对T-S型模糊推理系统的模型参数辨识问题,充分利用模糊推理系统的可理解性与神经网络的学习能力,提出一种自适应T-S型模糊径向基函数网络。为设计满足精度要求的最小结构神经网络,在对网络学习动态进行分析的基础上,给出了网络拓扑结构的动态构造学习算法。在不需要任何先验知识的情况下,能够根据任务复杂度和学习进度进行网络隐层节点的自适应增加、合并和删除操作。将该网络应用于非线性函数逼近问题,取得较好的效果。; 程玉虎王雪松孙伟; 关键词：径向基函数网络

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有©2014－2015 Chongqing VIP Information., Ltd., 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张