博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
从Google人工智能DeepMind团队的AlphaGo的论文算法提取的学习方法:大脑逻辑结构图
阅读量:2389 次
发布时间:2019-05-10

本文共 728 字,大约阅读时间需要 2 分钟。

贝叶斯定理考虑的是 P(A|B)是在B发生的情况下A发生的可能性。在现实中,事件A受多个事件的影响,还可能受上一次事件A本身的影响(反馈)。

可以写成 人工智能通用反馈公式y=f(x,y1),其中y1=f(x)。它是强化学习和自我学习的基础。

从AlphaGo的论文算法 提取的人工智能学习方法

第一层 价值判断

         重要的----百里挑一 ,去掉99%无用的。

第二层 快速响应(简单)和深度理解(复杂)

         简单:常见的,固定的逻辑

         复杂:卷积神经网络(分层拆分计算,求无限接近值)+蒙特卡洛树搜索(选重要节点向后推断,得到最优值)

第三层 强化学习

         决策下一步 赏罚激励

第四层 专家网络

         并入已有认知网络(归类)

第五层 自我提升

         反向更新 自我学习

像不像我们的大脑?

你出门转一圈,并不会像摄像机一样记下所有东西,而是你会选择你认为重要的关注(价值判断)。

如果这条路你走了无数遍,你不会迷路,会快速找到你要逛的店(快速响应),这条路又熟悉了一遍(强化学习)。

但如果你走到了一条你从来没走过的街,遇到了不同的人,不同的房子,不同的植物等等,你可能很感兴趣。在看的同时,你会把这些特征试图理解(深度理解),贴上标签,存入你已有的认知体系(专家网络)。

你对周围越敏感,越在意,思考的越深(规则、算法、分层越多,拆分的越细,计算的时间越长),贴的标签越多,记住的东西越完整(深度理解)。

等下次再遇到时,你就会快速地(快速响应)知道,那人我曾经在哪遇到过。

如果这条新街,初次来就给你很多乐趣(赏罚激励),你下次肯定优先来这里逛。

你的价值判断会自动把这条街升级为最值得逛的街(反向更新,在五个层次里都会更新)。同时你还不断回忆这段快乐时光(自我学习)。

你可能感兴趣的文章
GRID卸载及重新安装
查看>>
shell 带参数脚本
查看>>
QTcpSocket 编程
查看>>
java 开发环境配置
查看>>
java bufferedreader 与inputstream的区别
查看>>
Jsp页面Word文档的生成
查看>>
二叉树的构建及遍历 Java实现
查看>>
xml schema约束 学习记录
查看>>
线索二叉树(中序) Java实现
查看>>
Hibernate cascade 级联操作
查看>>
马踏棋盘算法 Java实现
查看>>
hibernate hql 多表关联一个小细节
查看>>
普里姆(Prim)算法 Java实现
查看>>
弗洛伊德(Floyd)算法 Java实现
查看>>
拓扑排序(TopologicalSort) Java实现
查看>>
关键路径算法 Java实现
查看>>
PreparedStatement,hibernate查询oracle char类型解决方案
查看>>
ThreadLocal Pager 分页的一种解决方案 (hibernate)
查看>>
二叉排序树(Binary Sort Tree)查找、插入、删除 Java实现
查看>>
平衡二叉树(AVL树)算法 Java实现
查看>>