让你代课，你教学生核聚变？_第56章以后AI能不能做成一把大飞剑？ (3 / 12)

        “我在训练它的时候，给它喂了一批真实的狗狗行为视频数据。

        大概两百多段短视频，全是家养犬看到主人时的反应——跑过去、摇尾巴、原地打转、前腿扑。

        这些行为被拆解成关节角度变化的时间序列，用强化学习的框架让机器狗模仿。”

        他在黑板上写下了强化学习的基本公式：Q(S,a) = R + γ·maXQ(S',a')。

        “翻译成人话就是：它做了一个动作，如果这个动作让它更接近目标，就给一个正奖励。

        如果偏了，给负奖励。

        反复训练之后，它自动学会了一条最优路径——先扫全场，锁定目标之后走过去，走到面前之后执行预设的‘开心’动作序列。”

        他停了一下。

        “整个过程里，它不需要‘理解’什么是开心。它只需要知道：做完这套动作，就能拿到最大的奖励值。”

        【检测到当前课堂168名学生理解AI行为训练，宿主获得返还：AI情感模块架构·初级】

  The content is not finished, continue reading on the next page

我爱读小说网

第56章 以后AI能不能做成一把大飞剑？ (3 / 12)

第56章以后AI能不能做成一把大飞剑？ (3 / 12)