A.放在memory cell中B.放在输入和输出层C.直接跟上batchnormD.不使用dropout
单项选择题在Policy-Based算法中,动作空间通常假设符合什么分布?()
A.高斯分布B.均匀分布C.泊松分布D.指数分布E.正态分布
单项选择题在Model-Based强化学习算法中,agent需要具备什么能力?()
A.准确预测下一步的状态和回报B.随机选择动作C.选择带来最大Reward的动作D.选择带来最小Reward的动作E.选择带来最大Value的动作