admin 发表于 2017-10-2 06:18:27

16年11月份邹博机器学习升级版II附讲义、参考书与源码(数学 xgboost lda hmm svm)


16年11月份邹博机械进修升级版II附课本、参考书与源码(数学 xgboost lda hmm svm) 24课
课程先容
本课程特点是从数学层面推导最典范的机械进修算法,以及每种算法的示例和代码实现(Python)、若何做算法的参数调试、以现实利用案例分析各类算法的挑选等。
1.每个算法模块依照“道理讲授→分析数据→自己脱手实现→特征与调参”的顺序,“道理加理论,顶天登时”。
2.拒绝简单的“调包”——增加3次“机械进修的角度看数学”和3次“Python数据清洗和特征提取”,提升进修深度、下降进修坡度。
3.增加收集爬虫的道理和编写,从获得数据起头,重视将理论题目转换成现实模子的才能,分享工作中的现实案例或Kaggle案例:广告销量分析、情况数据异常检测和分析、数字图像手写体识别、Titanic乘客存活率猜测、用户-电影保举、实在消息组数据主题分析、中文分词、股票数据特征分析等。
4.强化矩阵运算、几率论、数理统计的常识应用,把握机械进修底子。
5.论述机械进修道理,供给配套源码和数据;确保“懂推导,会实现”。
6.删去过于艰涩的公式推导,代之以直观诠释,增强感性了解。
7.对照分歧的特征挑选带来的猜测结果差别。
8.重视项目理论(如产业理论、Kaggle等),重视落地。思考分歧算法之间的区分和联系,进步在现实工作当挑选算法的才能。
9.触及和讲授的部分Python库有:Numpy、Scipy、matplotlib、Pandas、scikit-learn、XGBoost、libSVM、LDA、Gensim、NLTK、HMMLearn,触及的其他“小”库在课程的理论环节会逐一讲授。
课程目录
第一课:机械进修的数学根本1 - 数学分析
1. 机械进修的一般方式和横向比力
2. 数学是有用的:以SVD为例
3. 机械进修的角度看数学
4. 温习数学分析
5. 直观诠释常数e
6. 导数/梯度
7. 随机梯度下降
8. Taylor展式的落天时用
9. gini系数
10. 凸函数
11. Jensen不等式
12. 组合数与信息熵的关系
第二课:机械进修的数学根本2 - 几率论与贝叶斯先验
1. 几率论根本
2. 古典概型
3. 贝叶斯公式
4. 先验散布/后验散布/共轭散布
5. 常见几率散布
6. 泊松散布和指数散布的物理意义
7. 协方差(矩阵)和相关系数
8. 自力和不相关
9. 大数定律和中心极限制理的理论意义
10. 深入了解最大似然估量MLE和最大后验估量MAP
11. 过拟合的数学道理与处理计划
第三课:机械进修的数学根本3 - 矩阵和线性代数
1. 线性代数在数学科学中的职位
2. 马尔科夫模子
3. 矩阵乘法的直观表达
4. 状态转移矩阵
5. 矩阵和向量组
6. 特征向量的思考和理论计较
7. QR分化
8. 对称阵、正交阵、正定阵
9. 数据白化及其利用
10. 向量对向量求导
11. 标量对向量求导
12. 标量对矩阵求导
第四课:Python根本1 - Python及其数学库
1. 诠释器Python2.7与IDE:Anaconda/Pycharm
2. Python根本:列表/元组/字典/类/文件
3. Taylor展式的代码实现
4. numpy/scipy/matplotlib/panda的先容和典型利用
5. 多元高斯散布
6. 泊松散布、幂律散布
7. 典型图像处置
8. 蝴蝶效应
9. 分形
第五课:Python根本2 - 机械进修库
1. scikit-learn的先容和典型利用
2. 损失函数的绘制
3. 多种数学曲线
4. 多项式拟合
5. 快速傅里叶变更FFT
6. 奇异值分化SVD
7. Soble/Prewitt/Laplacian算子与卷积收集
8. 卷积与(指数)移动均匀线
9. 股票数据分析
第六课:Python根本3 - 数据清洗和特征挑选
1. 现实生产题目中算法和特征的关系
2. 股票数据的特征提取和利用
3. 分歧性检验
4. 缺失数据的处置
5. 情况数据异常检测和分析
6. 模糊数据查询和数据校正方式、算法、利用
7. 朴实贝叶斯用于鸢尾花数据
8. GaussianNB/MultinomialNB/BernoulliNB
9. 朴实贝叶斯用于18000+篇/Sogou消息文本的分类
第七课: 回归
1. 线性回归
2. Logistic/Softmax回归
3. 广义线性回归
4. L1/L2正则化
5. Ridge与LASSO
6. Elastic Net
7. 梯度下降算法:BGD与SGD
8. 特征挑选与过拟合
第八课:Logistic回归
1. Sigmoid函数的直观诠释
2. Softmax回归的概念泉源
3. Logistic/Softmax回归
4. 最大熵模子
5. K-L散度
6. 损失函数
7. Softmax回归的实现与调参
第九课:回归理论
1. 机械进修sklearn库先容
2. 线性回归代码实现和调参
3. Softmax回归代码实现和调参
4. Ridge回归/LASSO/Elastic Net
5. Logistic/Softmax回归
6. 广告投入与销售额回归分析
7. 鸢尾花数据集的分类
8. 穿插考证
9. 数据可视化
第十课:决议树和随机森林
1. 熵、结合熵、条件熵、KL散度、互信息
2. 最大似然估量与最大熵模子
3. ID3、C4.5、CART详解
4. 决议树的正则化
5. 预剪枝和后剪枝
6. Bagging
7. 随机森林
8. 不服衡数据集的处置
9. 操纵随机森林做特征挑选
10. 利用随机森林计较样底细似度
11. 数据异常值检测
第十一课:随机森林理论
1. 随机森林与特征挑选
2. 决议树利用于回归
3. 多标志的决议树回归
4. 决议树和随机森林的可视化
5. 葡萄酒数据集的决议树/随机森林分类
6. 波士顿房价猜测
第十二课:提升
1. 提升为什么有用
2. 梯度提升决议树GBDT
3. XGBoost算法详解
4. Adaboost算法
5. 加法模子与指数损失
第十三课:提升理论
1. Adaboost用于蘑菇数据分类
2. Adaboost与随机森林的比力
3. XGBoost库先容
4. Taylor展式与进修算法
5. KAGGLE简介
6. 泰坦尼克乘客存活率估量
第十四课:SVM
1. 线性可分支持向量机
2. 软间隔的改良
3. 损失函数的了解
4. 核函数的道理和挑选
5. SMO算法
6. 支持向量回归SVR
第十五课:SVM理论
1. libSVM代码库先容
2. 原始数据和特征提取
3. 挪用开源库函数完成SVM
4. 葡萄酒数据分类
5. 数字图像的手写体识别
6. SVR用于时候序列曲线猜测
7. SVM、Logistic回归、随机森林三者的横向比力
第十六课:聚类(上)
1. 各类类似度怀抱及其相互关系
2. Jaccard类似度和正确率、召回率
3. Pearson相关系数与余弦类似度
4. K-means与K-Medoids及变种
5. AP算法(Sci07)/LPA算法及其利用
第十七课:聚类(下)
1. 密度聚类DBSCAN/DensityPeak(Sci14)
2. DensityPeak(Sci14)
3. 谱聚类SC
4. 聚类评价AMI/ARI/Silhouette
5. LPA算法及其利用
第十八课:聚类理论
1. K-Means++算法道理和实现
2. 向量量化VQ及图像近似
3. 并查集的理论利用
4. 密度聚类的代码实现
5. 谱聚类用于图片朋分
第十九课:EM算法
1. 最大似然估量
2. Jensen不等式
3. 朴实了解EM算法
4. 切确推导EM算法
5. EM算法的深入了解
6. 夹杂高斯散布
7. 主题模子pLSA
第二十课:EM算法理论
1. 多元高斯散布的EM实现
2. 分类成果的数据可视化
3. EM与聚类的比力
4. Dirichlet进程EM
5. 三维及等高线等图件的绘制
6. 主题模子pLSA与EM算法
第二十一课:主题模子LDA
1. 贝叶斯学派的模子熟悉
2. 共轭先验散布
3. Dirichlet散布
4. Laplace平滑
5. Gibbs采样详解
第二十二课:LDA理论
1. 收集爬虫的道理和代码实现
2. 停止词和高频词
3. 脱手自己实现LDA
4. LDA开源包的利用和进程分析
5. Metropolis-Hastings算法
6. MCMC
7. LDA与word2vec的比力
第二十三课:隐马尔科夫模子HMM
1. 几率计较题目
2. 前向/后向算法
3. HMM的参数进修
4. Baum-Welch算法详解
5. Viterbi算法详解
6. 隐马尔科夫模子的利用好坏比力
第二十四课:HMM理论
1. 脱手自己实现HMM用于中文分词
2. 多个说话分词开源包的利用和进程分析
3. 文件数据格式UFT-8、Unicode
4. 停止词和标点标记对分词的影响
5. 前向后向算法计较几率溢出的处理计划
6. 发现新词和分词结果分析
7. 高斯夹杂模子HMM
8. GMM-HMM用于股票数据特征提取
**** Hidden Message *****

页: [1]
查看完整版本: 16年11月份邹博机器学习升级版II附讲义、参考书与源码(数学 xgboost lda hmm svm)