安装 scikit-l..
1.1. 广义线性模型
scikit-learn (sklearn) 官方文档中文版
1. 监督学习
1.1. 广义线性模型
1.1.1. 普通最小二乘法
1.1.1.1. 普通最小二乘法复杂度
1.1.2. 岭回归
1.1.2.1. 岭回归的复杂度
1.1.2.2. 设置正则化参数:广义交叉验证
1.1.3. Lasso
1.1.3.1. 设置正则化参数
1.1.3.1.1. 使用交叉验证
1.1.3.1.2. 基于信息标准的模型选择
1.1.3.1.3. 与 SVM 的正则化参数的比较
1.1.4. 多任务 Lasso
1.1.5. 弹性网络
1.1.6. 多任务弹性网络
1.1.7. 最小角回归
1.1.8. LARS Lasso
1.1.8.1. 数学表达式
1.1.9. 正交匹配追踪法(OMP)
1.1.10. 贝叶斯回归
1.1.10.1. 贝叶斯岭回归
1.1.10.2. 主动相关决策理论 - ARD
1.1.11. logistic 回归
1.1.12. 随机梯度下降, SGD
1.1.13. Perceptron(感知器)
1.1.14. Passive Aggressive Algorithms(被动攻击算法)
1.1.15. 稳健回归(Robustness regression): 处理离群点(outliers)和模型错误
1.1.15.1. 各种使用场景与相关概念
1.1.15.2. RANSAC: 随机抽样一致性算法(RANdom SAmple Consensus)
1.1.15.2.1. 算法细节
1.1.15.3. Theil-Sen 预估器: 广义中值估计器(generalized-median-based estimator)
1.1.15.3.1. 算法理论细节
1.1.15.4. Huber 回归
1.1.15.5. 注意
1.1.16. 多项式回归:用基函数展开线性模型
1.2. 线性和二次判别分析
1.2.1. 使用线性判别分析来降维
1.2.2. LDA 和 QDA 分类器的数学公式
1.2.3. LDA 的降维数学公式
1.2.4. Shrinkage(收缩)
1.2.5. 预估算法
1.3. 内核岭回归
1.4. 支持向量机
1.4.1. 分类
1.4.1.1. 多元分类
1.4.1.2. 得分和概率
1.4.1.3. 非均衡问题
1.4.2. 回归
1.4.3. 密度估计, 异常(novelty)检测
1.4.4. 复杂度
1.4.5. 使用诀窍
1.4.6. 核函数
1.4.6.1. 自定义核
1.4.6.1.1. 使用 python 函数作为内核
1.4.6.1.2. 使用 Gram 矩阵
1.4.6.1.3. RBF 内核参数
1.4.7. 数学公式
1.4.7.1. SVC
1.4.7.2. NuSVC
1.4.7.3. SVR
1.4.8. 实现细节
1.5. 随机梯度下降
1.5.1. 分类
1.5.2. 回归
1.5.3. 稀疏数据的随机梯度下降
1.5.4. 复杂度
1.5.5. 实用小贴士
1.5.6. 数学描述
1.5.6.1. SGD
1.5.7. 实现细节
1.6. 最近邻
1.6.1. 无监督最近邻
1.6.1.1. 找到最近邻
1.6.1.2. KDTree 和 BallTree 类
1.6.2. 最近邻分类
1.6.3. 最近邻回归
1.6.4. 最近邻算法
1.6.4.1. 暴力计算
1.6.4.2. K-D 树
1.6.4.3. Ball 树
1.6.4.4. 最近邻算法的选择
1.6.4.5.
leaf_size
的影响
1.6.5. 最近质心分类
1.6.5.1. 最近缩小质心
1.7. 高斯过程
1.7.1. 高斯过程回归(GPR)
1.7.2. GPR 示例
1.7.2.1. 具有噪声级的 GPR 估计
1.7.2.2. GPR 和内核岭回归(Kernel Ridge Regression)的比较
1.7.2.3. Mauna Loa CO2 数据中的 GRR
1.7.3. 高斯过程分类(GPC)
1.7.4. GPC 示例
1.7.4.1. GPC 概率预测
1.7.4.2. GPC 在 XOR 数据集上的举例说明
1.7.4.3. iris 数据集上的高斯过程分类(GPC)
1.7.5. 高斯过程内核
1.7.5.1. 高斯过程内核 API
1.7.5.2. 基础内核
1.7.5.3. 内核操作
1.7.5.4. 径向基函数内核
1.7.5.5. Matérn 内核
1.7.5.6. 有理二次内核
1.7.5.7. 正弦平方内核
1.7.5.8. 点乘内核
1.7.5.9. 参考文献
1.7.6. 传统高斯过程
1.7.6.1. 回归实例介绍
1.7.6.2. 噪声数据拟合
1.7.6.3. 数学形式
1.7.6.3.1. 初始假设
1.7.6.3.2. 最佳线性无偏预测(BLUP)
1.7.6.3.3. 经验最佳线性无偏估计(EBLUP)
1.7.6.4. 关联模型
1.7.6.5. 回归模型
1.7.6.6. 实现细节
1.8. 交叉分解
1.9. 朴素贝叶斯
1.9.1. 高斯朴素贝叶斯
1.9.2. 多项分布朴素贝叶斯
1.9.3. 伯努利朴素贝叶斯
1.9.4. 堆外朴素贝叶斯模型拟合
1.10. 决策树
1.10.1. 分类
1.10.2. 回归
1.10.3. 多值输出问题
1.10.4. 复杂度分析
1.10.5. 实际使用技巧
1.10.6. 决策树算法: ID3, C4.5, C5.0 和 CART
1.10.7. 数学表达
1.10.7.1. 分类标准
1.10.7.2. 回归标准
1.11. 集成方法
1.11.1. Bagging meta-estimator(Bagging 元估计器)
1.11.2. 由随机树组成的森林
1.11.2.1. 随机森林
1.11.2.2. 极限随机树
1.11.2.3. 参数
1.11.2.4. 并行化
1.11.2.5. 特征重要性评估
1.11.2.6. 完全随机树嵌入
1.11.3. AdaBoost
1.11.3.1. 使用方法
1.11.4. Gradient Tree Boosting(梯度树提升)
1.11.4.1. 分类
1.11.4.2. 回归
1.11.4.3. 训练额外的弱学习器
1.11.4.4. 控制树的大小
1.11.4.5. Mathematical formulation(数学公式)
1.11.4.5.1. Loss Functions(损失函数)
1.11.4.6. Regularization(正则化)
1.11.4.6.1. 收缩率 (Shrinkage)
1.11.4.6.2. 子采样 (Subsampling)
1.11.4.7. Interpretation(解释性)
1.11.4.7.1. Feature importance(特征重要性)
1.11.4.7.2. Partial dependence(部分依赖)
1.11.5. Voting Classifier(投票分类器)
1.11.5.1. 多数类标签 (又称为 多数/硬投票)
1.11.5.1.1. 用法
1.11.5.2. 加权平均概率 (软投票)
1.11.5.3. 投票分类器(VotingClassifier)在网格搜索(GridSearch)应用
1.11.5.3.1. 用法
1.12. 多类和多标签算法
1.12.1. 多标签分类格式
1.12.2. 1对其余
1.12.2.1. 多类学习
1.12.2.2. 多标签学习
1.12.3. 1对1
1.12.3.1. 多类别学习
1.12.4. 误差校正输出代码
1.12.4.1. 多类别学习
1.12.5. 多输出回归
1.12.6. 多输出分类
1.12.7. 链式分类器
1.13. 特征选择
1.13.1. 移除低方差特征
1.13.2. 单变量特征选择
1.13.3. 递归式特征消除
1.13.4. 使用 SelectFromModel 选取特征
1.13.4.1. 基于 L1 的特征选取
1.13.4.2. 基于 Tree(树)的特征选取
1.13.5. 特征选取作为 pipeline(管道)的一部分
1.14. 半监督学习
1.14.1. 标签传播
1.15. 等式回归
1.16. 概率校准
1.17. 神经网络模型(有监督)
1.17.1. 多层感知器
1.17.2. 分类
1.17.3. 回归
1.17.4. 正则化
1.17.5. 算法
1.17.6. 复杂度
1.17.7. 数学公式
1.17.8. 实用技巧
1.17.9. 使用 warm_start 的更多控制
书籍推荐
Python方向综合面试题
jackfrued
•
python
•
115页
•
2019年5月26日
35
超级棒的"派神"书
zhaoolee
•
python
•
34页
•
2018年5月1日
2
关于python的面试题
jackfrued
•
python
•
271页
•
2019年5月26日
33
对开发人员有用的定律、理论、原则和模式
nusr
•
code
•
80页
•
2019年5月26日
2325
CGDB中文手册
tzivanmoe
•
code
•
25页
•
2018年7月1日
1
一起来学算法吧!
MisterBooo
•
code
•
1页
•
2019年5月26日
97
小字
大字
宋体
黑体
白天
护眼
夜晚
封面
简介
安装 scikit-learn
1. 监督学习
1.1. 广义线性模型
1.2. 线性和二次判别分析
1.3. 内核岭回归
1.4. 支持向量机
1.5. 随机梯度下降
1.6. 最近邻
1.7. 高斯过程
1.8. 交叉分解
1.9. 朴素贝叶斯
1.10. 决策树
1.11. 集成方法
1.12. 多类和多标签算法
1.13. 特征选择
1.14. 半监督学习
1.15. 等式回归
1.16. 概率校准
1.17. 神经网络模型(有监督)
2. 无监督学习
2.1. 高斯混合模型
2.2. 流形学习
2.3. 聚类
2.4. 双聚类
2.5. 分解成分中的信号(矩阵分解问题)
2.6. 协方差估计
2.7. 经验协方差
2.8. 收敛协方差
2.9. 稀疏逆协方差
2.10. Robust 协方差估计
2.11. 新奇和异常值检测
2.12. 密度估计
2.13. 神经网络模型(无监督)
3. 模型选择和评估
3.1. 交叉验证:评估估算器的表现
3.2. 调整估计器的超参数
3.3. 模型评估: 量化预测的质量
3.4. 模型持久化
3.5. 验证曲线: 绘制分数以评估模型
4. 数据集转换
4.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器
4.2. 特征提取
4.3. 预处理数据
4.4. 无监督降维
4.5. 随机投影
4.6. 内核近似
4.7. 成对的矩阵, 类别和核函数
4.8. 预测目标 (`y`.md) 的转换
5. 数据集加载工具
6. 大规模计算的策略: 更大量的数据
7. 计算性能
使用 scikit-learn 介绍机器学习
关于科学数据处理的统计学习教程
机器学习: scikit-learn 中的设置以及预估对象
监督学习:从高维观察预测输出变量
模型选择:选择估计量及其参数
无监督学习: 寻求数据表示
把它们放在一起
寻求帮助
处理文本数据
选择正确的评估器(estimator.md)
外部资源,视频和谈话
常见问题
时光轴