首页
通过模拟过去学习做什么
返回

通过模拟过去学习做什么

2022-12-19 科技信息 By:佚名
最佳答案使用神经网络学习策略需要手工编写奖励函数或从人类反馈中学习。arXiv.org 上最近的一篇论文建议通过提取环境中已经存在的信息来简化流程。可以推断用户已经针对自己的偏好进行了优化。代理应该采取与用户必须完成的相同操作才能导致观察到的状态。因此,需要在时间上进行逆向模拟。该模型使用监督...

使用神经网络学习策略需要手工编写奖励函数或从人类反馈中学习。arXiv.org 上最近的一篇论文建议通过提取环境中已经存在的信息来简化流程。

可以推断用户已经针对自己的偏好进行了优化。代理应该采取与用户必须完成的相同操作才能导致观察到的状态。因此,需要在时间上进行逆向模拟。该模型使用监督学习来学习逆策略和逆动力学模型以执行反向模拟。然后找到可以从单个状态观察中有意义地更新的奖励表示。

结果表明,使用这种方法可以减少学习中的人工输入。该模型成功地模仿策略,只访问从这些策略中采样的几个状态。

由于奖励函数很难指定,最近的工作重点是从人类反馈中学习策略。然而,此类方法受到获取此类反馈的费用的阻碍。最近的工作提出,代理可以访问一个有效免费的信息源:在人类活动过的任何环境中,状态已经针对人类偏好进行了优化,因此代理可以从状态中提取有关人类想要什么的信息. 这种学习原则上是可能的,但需要模拟所有可能导致观察到的状态的过去轨迹。这在网格世界中是可行的,但我们如何将其扩展到复杂的任务?在这项工作中,我们展示了通过将学习到的特征编码器与学习到的逆模型相结合,我们可以使代理能够及时向后模拟人类行为,以推断他们必须做什么。给定从该技能的最佳策略采样的单个状态,所得算法能够在 MuJoCo 环境中重现特定技能。

猜你喜欢
箭牌卫浴产品知识怎么学(箭牌卫浴ARROW品牌介绍)

箭牌卫浴产品知识怎么学(箭牌卫浴ARROW品牌介绍)

12-18 0 阅读
补气血应该吃什么食物(吃什么补气血 补气血的食物有哪些)

补气血应该吃什么食物(吃什么补气血 补气血的食物有哪些)

12-18 0 阅读
table pc 输入面板关闭(tablet pc输入面板怎么关闭)

table pc 输入面板关闭(tablet pc输入面板怎么关闭)

02-15 0 阅读
便宜又好的平板电脑推荐(便宜又好的平板电脑)

便宜又好的平板电脑推荐(便宜又好的平板电脑)

12-18 0 阅读
介绍还原系统后QQ旋风下载文件时提示"IE游览器禁用"的解决方法

介绍还原系统后QQ旋风下载文件时提示"IE游览器禁用"的解决方法

12-18 0 阅读
电脑平方米符号怎么打m3快捷键(电脑平方米符号怎么打)

电脑平方米符号怎么打m3快捷键(电脑平方米符号怎么打)

01-25 0 阅读
热门推荐
箭牌卫浴产品知识怎么学(箭牌卫浴ARROW品牌介绍)

箭牌卫浴产品知识怎么学(箭牌卫浴ARROW品牌介绍)

12-18 0 阅读
补气血应该吃什么食物(吃什么补气血 补气血的食物有哪些)

补气血应该吃什么食物(吃什么补气血 补气血的食物有哪些)

12-18 0 阅读
table pc 输入面板关闭(tablet pc输入面板怎么关闭)

table pc 输入面板关闭(tablet pc输入面板怎么关闭)

02-15 0 阅读
便宜又好的平板电脑推荐(便宜又好的平板电脑)

便宜又好的平板电脑推荐(便宜又好的平板电脑)

12-18 0 阅读
介绍还原系统后QQ旋风下载文件时提示"IE游览器禁用"的解决方法

介绍还原系统后QQ旋风下载文件时提示"IE游览器禁用"的解决方法

12-18 0 阅读
电脑平方米符号怎么打m3快捷键(电脑平方米符号怎么打)

电脑平方米符号怎么打m3快捷键(电脑平方米符号怎么打)

01-25 0 阅读
GoveeGlideRGBIC智能壁灯减25美元升级游戏设置

GoveeGlideRGBIC智能壁灯减25美元升级游戏设置

12-18 0 阅读
从模拟到数字使用人工智能的解剖学研究

从模拟到数字使用人工智能的解剖学研究

12-19 0 阅读
提花面料的特点是什么样的(提花面料的特点是什么)

提花面料的特点是什么样的(提花面料的特点是什么)

12-18 0 阅读
电脑硬盘如何重新分区(硬盘如何分区)

电脑硬盘如何重新分区(硬盘如何分区)

12-18 0 阅读