您的位置: 专家智库 > >

江苏省博士后科研资助计划项目(0601033B)

作品数:7 被引量:47H指数:4
相关作者:程玉虎王雪松易建强田西兰孙伟更多>>
相关机构:中国矿业大学中国科学院自动化研究所更多>>
发文基金:江苏省博士后科研资助计划项目中国博士后科学基金江苏省“青蓝工程”基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇中文期刊文章

领域

  • 7篇自动化与计算...

主题

  • 4篇Q学习
  • 3篇支持向量
  • 3篇支持向量机
  • 3篇向量机
  • 2篇最小二乘
  • 2篇最小二乘支持...
  • 1篇映射
  • 1篇伺服
  • 1篇伺服控制
  • 1篇伺服控制系统
  • 1篇自适
  • 1篇自适应
  • 1篇自组织
  • 1篇自组织模糊
  • 1篇网络
  • 1篇位置伺服
  • 1篇位置伺服控制
  • 1篇位置伺服控制...
  • 1篇向量
  • 1篇径向基

机构

  • 7篇中国矿业大学
  • 3篇中国科学院自...

作者

  • 7篇王雪松
  • 7篇程玉虎
  • 3篇田西兰
  • 3篇易建强
  • 2篇孙伟
  • 1篇马小平
  • 1篇郝名林
  • 1篇李明

传媒

  • 2篇中国矿业大学...
  • 2篇系统仿真学报
  • 1篇自动化学报
  • 1篇信息与控制
  • 1篇控制与决策

年份

  • 1篇2009
  • 4篇2008
  • 2篇2007
7 条 记 录,以下是 1-7
排序方式:
电-气位置伺服控制系统的研究进展被引量:6
2007年
由于气压驱动系统本身具有强非线性、固有频率低、刚度低和阻尼小等特点,实现高精度的位置伺服控制比较困难.针对我国在这方面所做工作相对较少的现状,从电-气位置伺服系统的控制方式和控制策略两方面综述了近年来的发展状况,并对各种方法的优缺点进行分析和比较,同时探讨了这一研究领域的发展方向和需要解决的问题.
王雪松程玉虎易建强
关键词:位置伺服控制控制策略
基于支持向量机的连续状态空间Q学习被引量:6
2008年
针对连续状态空间下的强化学习控制问题,提出一种基于支持向量机的Q学习方法.支持向量机不易陷入局部极小,且有优良的泛化性能,对系统状态-动作对的Q值进行估计计算,解决状态空间泛化中易出现的"维数灾"问题.引入滚动时间窗机制实现支持向量机的在线学习:系统实时检测得到的新数据若不包含新信息,则保持学习的样本集不变;若包含新信息,则滚动时间窗,更新样本集,从而更新支持向量机的回归模型,并对时间窗内的数据分配不同的权值以充分利用数据的信息.倒立摆平衡控制的仿真结果表明该方法能够有效解决具有连续状态的非线性系统的强化学习控制.
王雪松田西兰程玉虎
关键词:支持向量机Q学习
最小二乘支持向量机在强化学习系统中的应用被引量:3
2008年
将连续状态空间下的Q学习构建为最小二乘支持向量机的回归估计问题,利用最小二乘支持向量机良好的泛化以及非线性逼近性能实现由系统状态-动作对到Q值函数的映射。为了保证计算速度以及适应Q学习系统在线学习的需要,最小二乘支持向量机的训练样本是窗式移动的,即在Q学习系统学习的同时获取样本数据并进行最小二乘支持向量机的训练。小车爬山控制问题的仿真结果表明该方法学习效率高,能够有效解决强化学习系统连续状态空间的泛化问题。
王雪松田西兰程玉虎马小平
关键词:最小二乘支持向量机Q学习泛化
基于差分进化的并联机器人位姿正解被引量:4
2008年
利用并联机器人位姿反解容易求取的特点,把并联机器人的位姿正解问题转化为假设已知位姿正解,通过位姿反解求得杆长值,并使所求得的杆长值与给定的杆长值之差为最小的优化问题,然后利用差分进化的全局寻优能力来直接求解并联机器人的位姿正解.6-SPS型并联机器人位姿正解的数值仿真结果表明,该方法较遗传算法求解精度高且收敛速度快,经过508步迭代之后,位置误差小于0.000 1 mm,姿态误差小于0.000 1°.该方法不仅避免了繁琐的数学推导和迭代初值的选取,又可以获得符合精度要求的运动学正解,为解决并联机器人正向运动学问题提供了新的计算策略.
王雪松郝名林程玉虎李明
关键词:并联机器人差分进化
基于协同最小二乘支持向量机的Q学习被引量:21
2009年
针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine,LS-SVRM)和一个最小二乘支持向量分类机(Least squares support vector classification machine,LS-SVCM)构成.LS-SVRM用于逼近状态-动作对到值函数的映射,LS-SVCM则用于逼近连续状态空间到离散动作空间的映射,并为LS-SVRM提供实时、动态的知识或建议(建议动作值)以促进值函数的学习.小车爬山最短时间控制仿真结果表明,与基于单一LS-SVRM的Q学习系统相比,该方法加快了系统的学习收敛速度,具有较好的学习性能.
王雪松田西兰程玉虎易建强
关键词:Q学习最小二乘支持向量机映射
基于自组织模糊RBF网络的连续空间Q学习被引量:4
2008年
针对连续空间下的强化学习控制问题,提出了一种基于自组织模糊RBF网络的Q学习方法.网络的输入为状态,输出为连续动作及其Q值,从而实现了"连续状态—连续动作"的映射关系.首先将连续动作空间离散化为确定数目的离散动作,采用完全贪婪策略选取具有最大Q值的离散动作作为每条模糊规则的局部获胜动作.然后采用命令融合机制对获胜的离散动作按其效用值进行加权,得到实际作用于系统的连续动作.另外,为简化网络结构和提高学习速度,采用改进的RAN算法和梯度下降法分别对网络的结构和参数进行在线自适应调整.倒立摆平衡控制的仿真结果验证了所提Q学习方法的有效性.
程玉虎王雪松易建强孙伟
关键词:自组织Q学习Q值
自适应T-S型模糊径向基函数网络被引量:4
2007年
针对T-S型模糊推理系统的模型参数辨识问题,充分利用模糊推理系统的可理解性与神经网络的学习能力,提出一种自适应T-S型模糊径向基函数网络。为设计满足精度要求的最小结构神经网络,在对网络学习动态进行分析的基础上,给出了网络拓扑结构的动态构造学习算法。在不需要任何先验知识的情况下,能够根据任务复杂度和学习进度进行网络隐层节点的自适应增加、合并和删除操作。将该网络应用于非线性函数逼近问题,取得较好的效果。
程玉虎王雪松孙伟
关键词:径向基函数网络
共1页<1>
聚类工具0