A.在强化学习中,计算机通过不断与环境交互并通过环境反馈来逐渐适应环境
B.强化学习的概念是从Alphago战胜李世石之后才提出的
C.强化学习属于无监督学习的一种,不需要有监督信息
D.强化学习和有监督学习的过程相似,是“开环”的过程
第1题
A、Policy based的强化学习类型要明显优于Value based和Action based的方法
B、强化学习中的Agent有明确的目标用于指导自己的行为
C、Agent的模型参数是根据环境的反馈来更新
D、强化学习被广泛应用在自动驾驶、电子竞技和AI游戏中
第2题
B、双语学习时间的早晚不影响对儿童的发展
C、双语儿童的转换、抑制能力通常优于单语儿童
D、双语学习对儿童的发展没有任何消极影响
第3题
A、迁移学习不需要和原来的任务有很大的联系
B、迁移学习主要是为了缓解标注数据不足和训练时间长的问题
C、通过迁移学习一定可以实现更高的准确率
D、迁移学习的新数据集和原数据集不需要相似
第4题
A、表扬能起到激励学生的作用,增强其自信心,提高学习的兴趣
B、教师的批评要严厉,必要时可以不用考虑学生的自尊心和自信心
C、教师还可以采用鼓励的方式,激发学生开始或继续完成与学习目标相关的学习活动或学习任务,让学生有目标地一点点的进步
D、教师要对学生提出建设性的意见,使学生知道错在哪里,如何改正
第6题
A、第二语言的习得可以预防认知功能衰退
B、双语学习时间的早晚对儿童的发展没有影响
C、双语儿童的转换、抑制能力通常优于单语儿童
D、双语学习对儿童的发展存在负面的影响
第8题
A、ε-greedy策略是一种平衡“探索”和“开发”的方法
B、“开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C、主体和环境之间交互的要素有状态、动作、回报
D、在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!