《AI算法工程师手册》

it2026-04-04  7

本文转载自:http://www.huaxiaozhuan.com/

这是一份机器学习算法和技能的学习手册,可以作为学习工作的参考,都看一遍应该能收获满满吧。

作者华校专,曾任阿里巴巴资深算法工程师,现任智易科技首席算法研究员,《Python 大战机器学习》的作者。

这是作者多年以来学习总结的笔记,经整理之后开源于世。目前还有约一半的内容在陆续整理中,已经整理好的内容放置在此。 曾有出版社约稿,但是考虑到出版时间周期较长,而且书本购买成本高不利于技术广泛传播,因此作者采取开源的形式。 笔记内容仅供个人学习使用,非本人同意不得应用于商业领域。

笔记内容较多,可能有些总结的不到位的地方,欢迎大家探讨。联系方式:huaxz1986@163.com

另有个人在 github 上的一些内容:

"《算法导论》的C++实现"代码:https://github.com/huaxz1986/cplusplus-_Implementation_Of_Introduction_to_Algorithms《Unix 环境高级编程第三版》笔记:https://github.com/huaxz1986/APUE_notes

数学基础

1.线性代数基础 一、基本知识二、向量操作三、矩阵运算四、特殊函数2.概率论基础 一、概率与分布二、期望和方差三、大数定律及中心极限定理五、常见概率分布六、先验分布与后验分布七、信息论八、其它3.数值计算基础 一、数值稳定性二、梯度下降法三、二阶导数与海森矩阵四、牛顿法五、拟牛顿法六、 约束优化4.蒙特卡洛方法与 MCMC 采样 一、蒙特卡洛方法二、马尔可夫链三、MCMC 采样

统计学习

0.机器学习简介 一、基本概念二、监督学习三、机器学习三要素1.线性代数基础 一、线性回归二、广义线性模型三、对数几率回归四、线性判别分析五、感知机2.支持向量机 一、 线性可分支持向量机二、线性支持向量机三、非线性支持向量机四、支持向量回归五、SVDD六、序列最小最优化方法七、其它讨论3.朴素贝叶斯 一、贝叶斯定理二、朴素贝叶斯法三、半朴素贝叶斯分类器四、其它讨论4.决策树 一、 原理二、 特征选择三、生成算法四、剪枝算法五、CART 树六、连续值、缺失值处理七、多变量决策树5.knn 一、k 近邻算法二、 kd树6.集成学习 一、集成学习误差二、 Boosting三、Bagging四、集成策略五、多样性分析7.梯度提升树 一、提升树二、xgboost三、LightGBM8.特征工程 一、缺失值处理二、特征编码三、数据标准化、正则化四、特征选择五、稀疏表示和字典学习六、多类分类问题七、类别不平衡问题9.模型评估 一、泛化能力二、过拟合、欠拟合三、偏差方差分解四、参数估计准则五、泛化能力评估六、训练集、验证集、测试集七、性能度量七、超参数调节八、传统机器学习的挑战10.降维 一、维度灾难二、主成分分析 PCA三、核化线性降维 KPCA四、流形学习五、度量学习六、概率PCA七、独立成分分析八、t-SNE九、LargeVis11.聚类 一、性能度量二、原型聚类三、密度聚类四、层次聚类五、谱聚类12.半监督学习 半监督学习一、生成式半监督学习方法二、半监督 SVM三、图半监督学习四、基于分歧的方法五、半监督聚类六、 总结13.EM算法 一、示例二、EM算法原理三、EM算法与高斯混合模型四、EM 算法与 kmeans 模型五、EM 算法的推广14.最大熵算法 一、最大熵模型MEM二、分类任务最大熵模型三、最大熵的学习15.隐马尔可夫模型 一、隐马尔可夫模型HMM二、 HMM 基本问题三、 最大熵马尔科夫模型MEMM16.概率图与条件随机场 一、概率图模型二、贝叶斯网络三、马尔可夫随机场四、条件随机场 CRF17.边际概率推断 一、精确推断二、近似推断

深度学习

0.深度学习简介 一、 介绍二、历史1.深度前馈神经网络 一、基础二、损失函数三、输出单元四、隐单元五、结构设计六、历史小记2.反向传播算法 一、链式法则二、反向传播三、算法实现四、自动微分3.正则化 一、参数范数正则化二、显式约束正则化三、数据集增强四、噪声鲁棒性五、早停六、参数相对约束七、dropout八、对抗训练九、正切传播算法十、其它相关4.最优化基础 一、代价函数二、神经网络最优化挑战三、 mini-batch四、基本优化算法五、自适应学习率算法六、二阶近似方法七、共轭梯度法八、优化策略和元算法九、参数初始化策略十、Normalization5.卷积神经网络 一、卷积运算二、卷积层、池化层三、基本卷积的变体四、应用五、 历史和现状5.1.CNN之图片分类 一、LeNet二、AlexNet三、VGG-Net四、Inception五、ResNet六、ResNet 变种七、SENet八、 DenseNet九、小型网络6.循环神经网络 一、RNN计算图二、循环神经网络三、长期依赖四、序列到序列架构五、递归神经网络六、回声状态网络七、LSTM 和其他门控RNN八、外显记忆7.工程实践指导原则 一、性能度量二、默认的基准模型三、决定是否收集更多数据四、选择超参数五、调试策略六、示例:数字识别系统七、数据预处理八、变量初始化九、结构设计

自然语言处理

主题模型 一、Unigram Model二、pLSA Model三、LDA Model四、模型讨论词向量 一、向量空间模型 VSM二、LSA三、Word2Vec四、GloVe

工具

CRF

CRF++ 一、安装二、使用三、Python接口四、常见错误

lightgbm

lightgbm使用指南 一、安装二、调参三、进阶四、API五、Docker

xgboost

xgboost使用指南 一、安装二、调参三、外存计算四、 GPU计算五、单调约束六、 DART booster七、Python API

scikit-learn

1.预处理 一、特征处理二、特征选择三、字典学习四、PipeLine2.降维 一、PCA二、MDS三、Isomap四、LocallyLinearEmbedding五、FA六、FastICA七、t-SNE3.监督学习模型 一、线性模型二、支持向量机三、贝叶斯模型四、决策树五、KNN六 、AdaBoost七、梯度提升树八、Random Forest4.模型评估 一、数据集切分二、性能度量三、验证曲线 && 学习曲线四、超参数优化5.聚类模型 一、KMeans二、DBSCAN三、MeanShift四、AgglomerativeClustering五、BIRCH六、GaussianMixture七、SpectralClustering6.半监督学习模型 一、标签传播算法7.隐马尔可夫模型 一、Hmmlearn二、seqlearn

spark

1.基础概念 一、核心概念二、安装和使用三、 pyspark shell四、独立应用2.rdd使用 一、概述二、创建 RDD三、转换操作四、行动操作五、其他方法和属性六、持久化七、分区八、混洗3.dataframe使用 一、概述二、SparkSession三、DataFrame 创建四、 DataFrame 保存五、DataFrame六、Row七、Column八、GroupedData九、functions4.累加器和广播变量 一、累加器二、广播变量

numpy

numpy 使用指南 一、 ndarray二、 ufunc 函数三、 函数库四、数组的存储和加载

scipy

scipy 使用指南 一、 常数和特殊函数二、 拟合与优化三、线性代数四、 统计五、数值积分六、 稀疏矩阵

matplotlib

matplotlib 使用指南 一、matplotlib配置二、 matplotlib Artist三、基本概念四、布局五、 Path六、 path effect七、坐标变换八、 3D 绘图九、技巧

pandas

pandas 使用指南 一、基本数据结构二、 内部数据结构三、 下标存取四、 运算五、变换六、数据清洗七、 字符串操作八、 聚合与分组九、时间序列十、 DataFrame 绘图十一、 移动窗口函数十二、 数据加载和保存

 

参考文献:

转载于:https://www.cnblogs.com/shujuxiong/p/10768333.html

相关资源:AI算法工程师手册
最新回复(0)