贪心学院机器学习高阶训练营

本阶段主要目的是学习无监督算法和经典的序列模型。重点讲解EM算法以及GMM，K-means的关系，同时花几次课程时间来仔细讲解CRF的细节：从无向图模型、Potential函数、Log-Linear Model、逻辑回归、HMM、MEMM、Label Bias、Linear CRF、Inference，最后到Non-Linear CRF。

Qlearning 是一个离线学习的算法, 因为里面的max action让Q表的更新可以不基于正在经历的经验。Q-learning也是model-free的算法，是不对环境进行建模的，只从环境中得到反馈然后学习。Q-learning是基于价值的算法，采用单步更新。整个算法就是一直不断更新Q表里的值, 然后再根据新的值来判断要在某个状态采取怎样的行为。

Policy Gradients通过奖惩机制进行学习可以在连续区间内挑选动作，是基于动作概率的。而之前的算法是基于值的，只能应对离散型的问题。Policy Gradients接受外部信息（observation），输出具体哪一个行为。Policy Gradient的第一个算法是一种基于整条回合数据的更新, 也叫REINFORCE方法. 这种方法是 policy gradient 的最基本方法。

依赖于关键词黑白名单和过滤技术，包含哪些词就是黄色或者暴力的文字。随着这个网络语言越来越多，词也不断地变化，不断地更新这个词库就有点顾不过来。基于一些新的算法，比如说贝叶斯过滤等，你不用管贝叶斯算法是什么，但是这个名字你应该听过，这是一个基于概率的算法。基于大数据和人工智能，进行更加精准的用户画像、文本理解和图像理解。由于人工智能算法多是依赖于大量的数据的，这些数据往往需要面向某个特定的领域(例如电商，邮箱)进行长期的积累。

算法的陷阱：超级平台、算法垄断与场景欺骗超级平台如何操作四种共谋场景，算法垄断与数据驱动如何形成共谋，监管工具箱能否防止陷入场景欺骗？当打开超级平台的刹那，你已进入了算法的陷阱，并成为任由“狮群”宰割的“羚羊”！

【核心知识点】- K-means、GMM以及EM- 层次聚类，DCSCAN，Spectral聚类算法- 隐变量与隐变量模型、Partition函数- 条件独立、D-Separation、Markov性质- HMM以及基于Viterbi的Decoding- Forward/Backward算法- 基于EM算法的参数估计- 有向图与无向图模型区别- Log-Linear Model，逻辑回归，特征函数- MEMM与Label Bias问题- Linear CRF以及参数估计。

贪心学院机器学习高阶训练营

Similar Posts

发表评论取消回复

Similar Posts

发表评论 取消回复

发表评论取消回复