资料取自《零基础学机器学习》。
查看总目录:学习大纲
关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南
一、核心生活比喻:训练电子狗秘籍 (教材第五章入门案例1)真实模拟场景:
刚出生的电子狗有三个基本能力:
电子狗宝宝
向前走
左转右转
张嘴咬
训练规则:
撞墙→扣10分
捡到骨头→+50分
找到水源→+30分
做出动作
环境反馈
Penalty
Reward
二、完整学习周期解析 (教材第五章训练流程2)以「学接飞盘」为例的完整训练过程:
2023-10-01 2023-10-03 2023-10-05 2023-10-07 2023-10-09 2023-10-11 2023-10-13 2023-10-15 2023-10-17 2023-10-19 2023-10-21 2023-10-23 随机扑跳 首次成功接住 建立条件反射 预判飞行轨迹 高难度花式接盘 训练阶段 熟练阶段 强化学习训练阶段
三、关键技术要素拆解 ⚙️价值函数(Value Function)
像电子狗记分板,计算每个动作的长期收益:
向右转可能奖励:立即得5分 + 未来30秒预期20分 = 总价值25分 1
探索与利用的平衡(教材第五章重要概念3)
40% 60% 行为决策比例 尝试新路线(探索) 走熟悉路线(利用)
马尔可夫决策过程
每次决策只关注当前状况(电子狗不会纠结之前撞墙的失误)
游戏领域
《星际争霸》AI对战世界冠军赛车游戏自动驾驶模块训练工业控制
机械臂自学抓取不规则零件数据中心智能调节空调节能新兴领域
对话机器人自主学习话术(如ChatGPT训练机制)蛋白质折叠预测(AlphaFold核心原理) 六、入门训练模型演示 ️迷宫找宝箱任务:
直行→碰壁-2分
右转→进入通道+1分
左转→找到宝箱+100分
Start
A
B
End
学习曲线:
前10次平均得分:-15分 → 第100次平均得分:+82分
奖励设计陷阱
过度奖励前进速度导致电子狗撞墙次数激增
维度灾难
当电子狗需要控制20个关节时,可能产生百万级决策路径
现实迁移难题
虚拟训练完美的接飞盘技能,遇到现实风速变化仍会失败
强化学习本质是让智能体像生物进化般,在持续的环境交互中通过「尝试-反馈-优化」的循环,逐步掌握达成目标的最佳策略(教材第五章核心结论1)
(如波士顿动力机器人自学家用物品整理技能,其训练机制就采用了深度强化学习)
目录:总目录
上篇文章:机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律
《零基础学机器学习》第五章第一节"强化学习基本范式",P.202 ↩︎ ↩︎
《零基础学机器学习》第五章案例5-2"虚拟训练流程",P.215-218 ↩︎
《零基础学机器学习》第五章第三节"探索利用平衡",P.228 ↩︎
《零基础学机器学习》第五章第八节"技术挑战",P.247 ↩︎