“我在训练它的时候,给它喂了一批真实的狗狗行为视频数据。
大概两百多段短视频,全是家养犬看到主人时的反应——跑过去、摇尾巴、原地打转、前腿扑。
这些行为被拆解成关节角度变化的时间序列,用强化学习的框架让机器狗模仿。”
他在黑板上写下了强化学习的基本公式:Q(S,a) = R + γ·maXQ(S',a')。
“翻译成人话就是:它做了一个动作,如果这个动作让它更接近目标,就给一个正奖励。
如果偏了,给负奖励。
反复训练之后,它自动学会了一条最优路径——先扫全场,锁定目标之后走过去,走到面前之后执行预设的‘开心’动作序列。”
他停了一下。
“整个过程里,它不需要‘理解’什么是开心。它只需要知道:做完这套动作,就能拿到最大的奖励值。”
【检测到当前课堂168名学生理解AI行为训练,宿主获得返还:AI情感模块架构·初级】
The content is not finished, continue reading on the next page