本阶段主要目的是学习无监督算法和经典的序列模型。重点讲解EM算法以及GMM,K-means的关系,同时花几次课程时间来仔细讲解CRF的细节:从无向图模型、Potential函数、Log-Linear Model、逻辑回归、HMM、MEMM、Label Bias、Linear CRF、Inference,最后到Non-Linear CRF。
Qlearning 是一个离线学习的算法, 因为里面的max action让Q表的更新可以不基于正在经历的经验。Q-learning也是model-free的算法,是不对环境进行建模的,只从环境中得到反馈然后学习。Q-learning是基于价值的算法,采用单步更新。整个算法就是一直不断更新Q表里的值, 然后再根据新的值来判断要在某个状态采取怎样的行为。
Policy Gradients通过奖惩机制进行学习可以在连续区间内挑选动作,是基于动作概率的。而之前的算法是基于值的,只能应对离散型的问题。Policy Gradients接受外部信息(observation),输出具体哪一个行为。Policy Gradient的第一个算法是一种基于整条回合数据的更新, 也叫REINFORCE方法. 这种方法是 policy gradient 的最基本方法。
依赖于关键词黑白名单和过滤技术,包含哪些词就是黄色或者暴力的文字。随着这个网络语言越来越多,词也不断地变化,不断地更新这个词库就有点顾不过来。基于一些新的算法,比如说贝叶斯过滤等,你不用管贝叶斯算法是什么,但是这个名字你应该听过,这是一个基于概率的算法。基于大数据和人工智能,进行更加精准的用户画像、文本理解和图像理解。由于人工智能算法多是依赖于大量的数据的,这些数据往往需要面向某个特定的领域(例如电商,邮箱)进行长期的积累。
算法的陷阱:超级平台、算法垄断与场景欺骗 超级平台如何操作四种共谋场景,算法垄断与数据驱动如何形成共谋,监管工具箱能否防止陷入场景欺骗?当打开超级平台的刹那,你已进入了算法的陷阱,并成为任由“狮群”宰割的“羚羊”!
【核心知识点】- K-means、GMM以及EM- 层次聚类,DCSCAN,Spectral聚类算法- 隐变量与隐变量模型、Partition函数- 条件独立、D-Separation、Markov性质- HMM以及基于Viterbi的Decoding- Forward/Backward算法- 基于EM算法的参数估计- 有向图与无向图模型区别- Log-Linear Model,逻辑回归,特征函数- MEMM与Label Bias问题- Linear CRF以及参数估计。