comp 5318 week 12 new lec and tut

type

status

date

slug

summary

RL conclusion

RL is a general-purpose framework for decision-making ·RL is for an agent with the capacity to act ·Each action influences the agent’s future state ·Success is measured by a scalar reward signal ·Goal: select actions to maximise future reward

DL

DL is a general-purpose framework for representation learning ·Given an objective ·Learn representation that is required to achieve objective ·Directly from raw inputs ·Using minimal domain knowledge

Deep reinforcement learning: AI = RL + DL

We seek a single agent which can solve any human-level task ·RL defines the objective ·DL gives the mechanism ·RL + DL = general intelligence

强化学习视为 一个代理（agent）在一个环境（environment）中通过互动（interaction）来学习如何做出一系列决策（decision），以最大化其获得的累计奖励（cumulative reward）

与监督学习不同，监督学习有明确的“正确答案”标签 y

强化学习处理的是序列决策问题（sequential decision-making problems）

在这种问题中，很难预先定义或显式地给出“正确”的动作

从经验中

agent

reward 同时进入一个新的状态

累积到尽可能多的奖励

最大化

往前走一步惩罚学会如何走

避免摔倒

符合直觉

马尔可夫MDP 数学框架规范化

什么是状态如何转移策略一套规则和函数总奖励最大化

Q学习经典强化学习算法 Q函数特定状态总奖励有多少

可以这么理解行代表可能的状态

对应状态组合初始化的表闯荡目标尽快走到终点

环境给的一个及时奖励消耗了时间新时间新状态

最好奖励的一个估计值当前Q值折扣估计一般小于1

更看重眼前奖励有利于收敛

最优的决策状态空间爆炸

根本存不下深度学习大显身手状态空间很大完全不现实不用表格，而是函数

深度神经网络 Q-network 棋盘布局当前状态下各自对应的q值

q表格

深度q- network

深度学习巨大进步直接把新问题神经网络不像查表稳定

强化学习前后有关联性

技巧：经验回放新状态经验来学习连续相关性训练更加稳定

未来最佳Q值

基于神经网络技术的成熟

关键因素里程碑的成就

深度+强化+蒙特卡罗

价值网络评估胜率

是好是坏只能向前看和模拟策略网络

强化学习学习指南

测验：

强化学习与监督学习的主要区别是什么？（2-3 句话）

什么是奖励信号在强化学习中的作用？（2-3 句话）

请描述强化学习中 Agent 和 Environment 的交互循环。（2-3 句话）

什么是历史（History）和状态（State）在强化学习中的区别？（2-3 句话）

马尔可夫决策过程（MDP）的主要组成部分有哪些？（2-3 句话）

什么是策略（Policy）在强化学习中的定义？（2-3 句话）

什么是状态值函数（State-Value Function）？（2-3 句话）

什么是动作值函数（Action-Value Function），也称为 Q 值函数？（2-3 句话）

Bellman 方程在 Q-Learning 中扮演什么角色？（2-3 句话）

Deep Q Learning 引入了哪些改进来处理神经网络带来的问题？（2-3 句话）

测验答案：

监督学习依靠带有明确“正确答案”（标签）的训练数据来模仿输出，而强化学习通过与环境交互并从奖励信号中学习，以最大化累积奖励。

奖励信号是强化学习中的一个标量反馈信号，它指示 Agent 在特定步骤中的表现好坏。Agent 的目标是最大化随着时间推移获得的累积奖励。

在每个步骤 t，Agent 执行一个动作 (a_t)，接收一个状态 (s_t) 和一个奖励 (r_t)。环境接收 Agent 的动作 (a_t)，然后发出下一个状态 (s_{t+1}) 和下一个奖励 (r_{t+1})。

历史 (H_t) 是截至步骤 t 为止的观测、动作和奖励的完整序列。状态 (S_t) 则是用于确定下一步将发生什么的信息，它是历史的一个函数 (S_t = f(H_t))。

MDP 的主要组成部分包括状态集合 (S)，动作集合 (A)，给定状态和动作对的奖励分布 (R)，给定状态和动作对的下一个状态的转移概率 (P)，以及折扣因子 (γ)。

策略 (Policy) 是 Agent 的行为函数，它定义了 Agent 在给定状态下选择动作的方式。最优策略 (π*) 是最大化期望累积奖励的策略。

状态值函数 (V^π(s)) 表示从状态 s 开始并遵循策略 π 所能获得的期望累积奖励。它衡量了在特定状态下有多好。

动作值函数 (Q^π(s, a)) 表示在状态 s 下执行动作 a，然后遵循策略 π 所能获得的期望累积奖励。它衡量了在特定状态下执行特定动作有多好。

Bellman 方程用于定义最优 Q 值函数 (Q*)，它表明最优状态-动作值等于即时奖励加上折扣后的后继状态的最优值的最大值。它提供了一种迭代计算最优值的方式。

Deep Q Learning 引入了经验回放 (Experience Replay) 来打破样本之间的相关性，以及目标网络 (Target Network) 来解决目标非平稳的问题。其他改进包括 Double DQN 和 Prioritized Replay。

论文格式问题：

详细比较和对比监督学习与强化学习在解决序列决策问题上的优势和局限性。

解释马尔可夫决策过程 (MDP) 作为强化学习形式化框架的重要性，并讨论其核心假设和限制。

深入讨论 Q-Learning 算法的工作原理，包括其更新规则和收敛特性，并说明其与蒙特卡洛学习和时序差分学习的区别。

分析 Deep Q-Learning 如何通过结合深度学习和 Q-Learning 来处理高维状态空间，并详细说明经验回放、目标网络等改进机制的作用。

选取 AlphaGo 或 AlphaZero 作为一个案例研究，详细描述其如何应用强化学习和深度学习技术来解决复杂博弈问题，并讨论其成功的关键因素。

术语表：

强化学习 (Reinforcement Learning - RL): 一种计算学习方法，Agent 通过与环境互动，从奖励信号中学习如何采取行动以最大化累积奖励。

Agent: 强化学习系统中的决策者，它根据环境的状态选择并执行动作。

环境 (Environment): 与 Agent 互动并在 Agent 执行动作后返回下一个状态和奖励的外部系统。

奖励 (Reward): Agent 在特定步骤中从环境接收到的标量反馈信号，指示其表现的好坏。

历史 (History - H_t): 截至步骤 t 为止的观测、动作和奖励的完整序列。

状态 (State - S_t): 用于确定下一步将发生什么的信息，通常是历史的函数。

马尔可夫决策过程 (Markov Decision Process - MDP): 用于形式化强化学习问题的数学框架，具有马尔可夫属性，即下一个状态和奖励仅取决于当前状态和所采取的动作。

策略 (Policy - π): Agent 的行为函数，定义了 Agent 在给定状态下选择动作的方式。

最优策略 (Optimal Policy - π):最大化期望累积奖励的策略。

状态值函数 (State-Value Function - V^π(s)): 从状态 s 开始并遵循策略 π 所能获得的期望累积奖励。

动作值函数 (Action-Value Function - Q^π(s, a)): 在状态 s 下执行动作 a，然后遵循策略 π 所能获得的期望累积奖励，也称为 Q 值函数。

Bellman 方程 (Bellman Equation): 用于递归地定义值函数，特别是最优值函数。

Q-Learning: 一种无模型的时序差分强化学习算法，用于学习最优动作值函数 (Q*)。

深度 Q 学习 (Deep Q Learning - DQN): 结合深度神经网络和 Q-Learning，使用神经网络来近似 Q 值函数，以处理高维状态空间。

经验回放 (Experience Replay): 一种 Deep Q Learning 中的技术，将 Agent 的经验（状态、动作、奖励、下一个状态）存储在一个缓冲区中，并从中随机采样进行训练，以打破样本之间的相关性。

目标网络 (Target Network): Deep Q Learning 中的一种技术，使用一个独立的、较旧版本的神经网络来计算目标 Q 值，以解决目标非平稳的问题。

折扣因子 (Discount Factor - γ): 用于衡量未来奖励相对于当前奖励的重要性，取值范围在 0 到 1 之间。

AlphaGo: DeepMind 开发的围棋程序，使用深度学习和蒙特卡洛树搜索相结合的强化学习方法击败了人类顶尖棋手。

AlphaZero: AlphaGo 的一个更通用的版本，使用纯粹的强化学习方法，通过自我对弈掌握了多种棋类游戏（围棋、国际象棋、日本将棋）。

简报文档：强化学习 (Reinforcement Learning)

来源： “ml12.pdf” (周 12，第 1 学期，2025 年；讲师：Nguyen Tran；基于 Chang Xu 和 Caren Han 的幻灯片)

主要主题：

这份讲义深入介绍了强化学习（RL），将其与监督学习进行对比，详细阐述了马尔可夫决策过程（MDPs）的概念及其组成部分，着重讲解了 Q-学习算法及其在应对大规模状态空间时的深度 Q-学习（DQL）扩展，最后探讨了强化学习在实际应用中的成功案例，特别是 AlphaGo 和 AlphaZero。

最重要的思想或事实：

强化学习与监督学习的区别：

监督学习依赖于带有明确“正确答案”的标签训练数据，算法试图模仿这些标签。

强化学习则处理顺序决策问题，在这些问题中很难给出明确的监督或定义正确的行动。RL 学习是通过与环境互动并接收奖励信号来进行的。

原文引用：“Supervised Learning algorithms tried to make their outputs mimic the labels y given in the training set.”

原文引用：“Difficult to define what the correct actions are to make it ride a bike... Difficult to give explicit supervision for a learning algorithm to try to mimic. (like supervised learning) ➔ “Reinforcement Learning””

强化学习的核心概念：奖励假设 (Reward Hypothesis)

强化学习算法通过奖励函数来引导，该函数指示代理何时做得好或差。

代理的目标是最大化累积奖励。

“奖励假设”指出：“All goals can be described by the maximization of expected cumulative reward”。这意味着所有目标都可以通过最大化预期的累积奖励来描述。

原文引用：“Provide our algorithms only a reward function... indicates to the learning agent when it is doing well when it is doing poorly”

原文引用：“The agent’s job is to maximise cumulative reward”

原文引用：““All goals can be described by the maximization of expected cumulative reward” Reward hypothesis”

强化学习的交互循环：

在每个时间步 t，代理执行一个动作 (𝒂𝒕)，接收状态 (𝒔𝒕) 并接收一个标量奖励 (𝒓𝒕)。

环境接收动作 (𝒂𝒕)，发出下一个状态 (𝒔𝒕+𝟏) 和下一个标量奖励 (𝒓𝒕+𝟏)。

原文引用：“At each step t the agent: Executes action 𝒂𝒕 Receives state 𝒔𝒕 Receives scalar reward 𝒓𝒕”

原文引用：“The environment: Receives action 𝒂𝒕 Emits state 𝒔𝒕+𝟏 Emits scalar reward 𝒓𝒕+𝟏”

历史和状态：

历史 (𝑯𝒕) 是观测、动作和奖励的序列。

状态 (𝑺𝒕) 是用于确定下一步会发生什么的信息。状态可以是历史的函数 (𝑆𝑡= f(𝐻𝑡))。

原文引用：“The history 𝑯𝒕 is the sequence of observations, actions, rewards”

原文引用：“State 𝑆𝑡 is the information used to determine what happens next”

马尔可夫决策过程 (MDP)：

强化学习通常被形式化为 MDP，它是一个数学框架，用于对顺序决策问题进行建模。

MDP 包括：状态集合 (𝑺)、动作集合 (𝑨)、奖励分布 (𝑹)、转移概率 (𝑷) 和折扣因子 (𝜸)。

原文引用：“: set of possible states”

原文引用：“: set of possible actions”

原文引用：“: distribution of reward given (state, action) pair”

原文引用：“: transition probability i.e. distribution over next state given (state, action) pair”

原文引用：“: discount factor”

RL 代理的主要组成部分：

策略 (Policy)： 代理的行为函数，决定在给定状态下采取哪个动作。

值函数 (Value Function)： 衡量某个状态或状态-动作对的“好坏”程度，即预期的未来累积奖励。包括状态值函数 (State-Value Function) 和动作值函数 (Q-value Function)。

模型 (Model)： 代理对环境的表示，用于预测环境的响应（下一个状态和奖励）。

原文引用：“Policy: agent’s behaviour function”

原文引用：“Value Function: how good is each state and/or action”

原文引用：“Model: agent’s representation of the environment”

最优策略 (Optimal Policy) π：

目标是找到最大化累积奖励的最优策略 π*。

为了处理随机性，目标是最大化预期的累积奖励。

原文引用：“We want to find optimal policy π* that maximizes the sum of rewards.”

原文引用：“Maximize the expected sum of rewards!”

值函数和 Q-值函数：

状态值函数 (𝑉𝜋(s))：从状态 s 开始并遵循策略 𝜋 的预期累积奖励。

动作值函数 (Q-value Function) (𝑄𝜋(s, a))：在状态 s 采取动作 a，然后遵循策略 𝜋 的预期累积奖励。

原文引用：“The value function at state s, is the expected cumulative reward from following the policy from state s:”

原文引用：“The Q-value function at state s and action a, is the expected cumulative reward from taking action a in state s and then following the policy:”

贝尔曼方程 (Bellman Equation) 和最优 Q：

最优 Q-值函数 Q* 是从给定状态-动作对可获得的最大预期累积奖励。

Q* 满足贝尔曼方程：即时奖励加上后继状态的折扣值最大值。

直观地讲，如果知道下一时间步的最优状态-动作值 Q*(s’,a’)，则最优策略是采取使预期值最大化的动作。

最优策略 π* 对应于在任何状态下采取由 Q* 指定的最佳动作。

原文引用：“The optimal Q-value function Q* is the maximum expected cumulative reward achievable from a given (state, action) pair:”

原文引用：“Q* satisfies the following Bellman equation, i.e., immediate reward plus discounted value of successor state”

原文引用：“The optimal policy π * corresponds to taking the best action in any state as specified by Q*”

Q-学习 (Q-Learning)：

一种无模型的时序差分学习算法，直接学习最优 Q-值函数 Q*。

通过更新 Q(s, a) 的值来学习，更新规则基于观察到的即时奖励和下一状态的最大 Q 值。

更新公式：𝑄(𝑠, 𝑎) ← 𝑄(𝑠, 𝑎) + 𝛼∆𝑄(𝑠, 𝑎)，其中 ∆𝑄(𝑠, 𝑎) = 𝑅(𝑠, 𝑎, 𝑠′) + max𝑎′ 𝛾𝑄(𝑠′, 𝑎′)-𝑄(𝑠, 𝑎)。

原文引用：“Initialize 𝑄(𝑠, 𝑎) arbitrarily.”

原文引用：“After taking action 𝑎, and observing 𝑟 and 𝑠′, we calculate the target expected return as 𝑅 𝑠, 𝑎, 𝑠′ + max 𝑎′ 𝛾𝑄(𝑠′, 𝑎′)”

原文引用：“𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼∆𝑄(𝑠, 𝑎)”

深度 Q-学习 (Deep Q-Learning, DQL)：

当状态空间非常大时，难以使用表格形式存储 Q(s, a) 值。

DQL 使用神经网络（Q-网络）来近似 Q-值函数：𝑄(𝑠, 𝑎) = 𝑓(𝑠, 𝑎, 𝑤)，其中 w 是网络的权重。

通过端到端学习，可以直接从原始输入（例如像素）学习状态-动作值。

通过最小化 MSE 损失（目标值与 Q-网络的输出之间的差异）来训练 Q-网络。目标值通常基于贝尔曼方程的右侧。

原文引用：“Value Function Approximation 𝑄 𝑠, 𝑎 = 𝑓(𝑠, 𝑎, 𝑤)”

原文引用：“Represent the state-action value function （discrete actions） by Q-network with weights 𝑤”

原文引用：“End-to-end learning of state-action values from raw pixels”

原文引用：“Treat right-hand size as a target and minimize MSE loss by SGD”

深度 Q-学习的改进措施：

经验回放 (Experience Replay)： 构建代理自身经验的数据集，并从中均匀采样经验，以去除样本之间的相关性并提高数据利用率。

目标网络 (Target Network)： 使用一个独立的、参数固定一段时间的目标网络来计算目标 Q 值，以应对非平稳目标的问题。

双重 DQN (Double DQN)： 通过将动作选择和动作评估解耦来解决 Q-学习高估状态-动作值的问题。当前 Q-网络用于选择动作，而旧的（目标）Q-网络用于评估动作。

优先经验回放 (Prioritized Replay)： 不再均匀采样经验，而是根据其重要性（通常是时序差分误差）进行采样，以更频繁地学习重要的经验。

原文引用：“Experience replay – Build data set from agent’s own experience – Sample experiences uniformly from data set to remove correlations”

原文引用：“Improvements: Target Network – To deal with non-stationarity, target parameters ෝ𝑤 are held fixed”

原文引用：“Improvements: Double DQN – The max operator uses the same values to select and evaluate an action – The upward bias can be removed by decoupling the selection from the evaluation”

原文引用：“Improvements: Prioritized Replay – Uniform experience replay samples transitions regardless of their significance – Can weight experiences according to their significance”

强化学习的应用：AlphaGo 和 AlphaZero

AlphaGo 是 DeepMind 开发的一个里程碑式的程序，它使用深度学习和树搜索技术，首次击败了人类围棋世界冠军。

AlphaGo 的核心组成部分包括：策略网络（预测人类或自身生成的高胜率动作）和值网络（评估当前局面的胜率）。

AlphaZero 是 AlphaGo 的通用版本，它通过完全的自我对弈学习，无需人类数据或领域知识，掌握了国际象棋、日本将棋和围棋。

AlphaZero 仅使用一个神经网络（结合了策略和值功能）和简单的通用蒙特卡洛树搜索。

自我对弈 (Self-play) 是 AlphaZero 成功的关键，它提供了大量数据，并提供了一个自动化的学习课程，从简单的对手逐渐进步到更强的对手。

原文引用：“AlphaGo and AlphaZero A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play learning (Science, 2018)”

原文引用：“Deep Learning in AlphaGo : Policy Network”

原文引用：“Deep Learning in AlphaGo: Value Network”

原文引用：“AlphaZero plays games against itself Reinforcement Learning in AlphaZero”

原文引用：“Self-play produces large amounts of data necessary for training the deep neural networks”

原文引用：“Self-play provides an automatic curriculum, starting from simple opponents to stronger and stronger opponents.”

深度强化学习 (Deep Reinforcement Learning)：人工智能 = RL + DL

深度学习提供了强大的表示学习能力，能够从原始数据中提取有用的特征。

强化学习定义了决策的目标（最大化累积奖励）。

深度强化学习结合了这两者，旨在创建一个能够解决人类水平任务的通用代理。

原文引用：“Reinforcement learning (RL) is a general-purpose framework for decision-making... Deep learning (DL) is a general-purpose framework for representation learning... Deep reinforcement learning: AI = RL + DL”