查看原文
其他

数据科学家必须知道的75个机器学习术语

王海华 模型视角 2023-09-05

数据科学有着丰富的词汇表。这个列表列出了数据科学家几乎每天都会使用的75个最常见且重要的术语。

因此,了解这些术语极其关键。下面我们列出75个关键的机器学习术语(按英文字母顺序排列)。本文源自【1】,作者Chawla, Avi。

A

Accuracy (准确率): 衡量正确预测数与总预测数之间的比例。

Area Under Curve (AUC, 曲线下面积): 表示在接收者操作特性曲线(Receiver Operating Characteristic, ROC)下的区域,用于评估分类模型。

ARIMA (自回归整合移动平均): 一种时间序列预测方法。

B

Bias (偏差): 在统计模型中,真实值与预测值之间的差异。

Bayes Theorem (贝叶斯定理): 基于先验知识计算事件可能性的概率公式。

Binomial Distribution (二项分布): 概率分布,模拟固定数量的独立伯努利试验中的成功次数。

C

Clustering (聚类): 基于相似性对数据点进行分组。

Confusion Matrix (混淆矩阵): 用于评估分类模型性能的表格。

Cross-validation (交叉验证): 通过将数据划分为子集来评估模型性能的技术,用于训练和测试。

D

Decision Trees (决策树): 用于分类和回归任务的树状模型。

Dimensionality Reduction (降维): 在保留重要信息的同时,减少数据集中特征的数量的过程。

Discriminative Models (判别模型): 学习不同类别之间边界的模型。

E

Ensemble Learning (集成学习): 结合多个模型以提高预测性能的技术。

EDA (探索性数据分析): 分析和可视化数据以了解其模式和属性的过程。

Entropy (熵): 信息中不确定性或随机性的度量。

F

Feature Engineering (特征工程): 从现有数据创建新特征以提高模型性能的过程。

F-score (F分数): 用于二元分类的平衡精确度和召回率的指标。

Feature Extraction (特征提取): 自动从数据中提取有意义的特征的过程。

G

Gradient Descent (梯度下降): 用于通过迭代调整参数来最小化函数的优化算法。

Gaussian Distribution (高斯分布): 具有钟形概率密度函数的正态分布。

Gradient Boosting (梯度提升): 顺序构建多个弱学习者的集成学习方法。

H

Hypothesis (假设): 在统计推断中可测试的陈述或假设。

Hierarchical Clustering (层次聚类): 将数据组织成树状结构的聚类方法。

Heteroscedasticity (异方差性): 回归模型中错误的不等方差。

I

Information Gain (信息增益): 在决策树中用来确定特征重要性的度量。

Independent Variable (独立变量): 在实验中操纵以观察其对因变量影响的变量。

Imbalance (不平衡): 数据集中类的分布不均等的情况。

J

Jupyter: 用于数据分析和机器学习的交互式计算环境。

Joint Probability (联合概率): 两个或多个事件同时发生的概率。

Jaccard Index (杰卡德指数): 两个集合之间的相似度度量。

K

Kernel Density Estimation (核密度估计): 估计连续随机变量的概率密度函数的非参数方法。

KS Test (Kolmogorov-Smirnov Test, KS测试): 比较两个概率分布的非参数测试。

KMeans Clustering (K均值聚类): 根据相似性将数据划分为K个簇。

L

Likelihood (似然度): 给定特定模型时观察到数据的机会。

Linear Regression (线性回归): 用于建模因变量和自变量之间关系的统计方法。

L1/L2 Regularization (L1/L2正则化): 通过在模型的损失函数中添加惩罚项来防止过拟合的技术。

M

Maximum Likelihood Estimation (最大似然估计): 估计统计模型参数的方法。

Multicollinearity (多重共线性): 在回归模型中,两个或多个自变量高度相关的情况。

Mutual Information (互信息): 两个变量之间共享的信息量的度量。

N

Naive Bayes (朴素贝叶斯): 基于贝叶斯定理的概率分类器,假设特征之间独立。

Normalization (标准化): 将数据缩放到指定范围

O

Overfitting (过拟合): 当模型在训练数据上表现良好,但在新的、未见过的数据上表现不佳时。

Outliers (异常值): 在数据集中与其他数据点明显不同的数据点。

One-hot encoding (独热编码): 将分类变量转换为二进制向量的过程。

P

PCA (Principal Component Analysis, 主成分分析): 降维技术,将数据转换为正交分量。

Precision (精确度): 在分类模型中,真正预测的比例与所有正面预测之间的比例。

p-value (p值): 如果零假设为真,观察到至少与所得结果一样极端的结果的概率。

Q

QQ-plot (Quantile-Quantile Plot, 分位数-分位数图): 图形工具,用于比较两个数据集的分布。

QR decomposition (QR分解): 将矩阵分解为正交矩阵和上三角矩阵。

R

Random Forest (随机森林): 使用多个决策树进行预测的集成学习方法。

Recall (召回率): 在分类模型中,真正预测的比例与所有实际正面实例之间的比例。

ROC Curve (Receiver Operating Characteristic Curve, 接收者操作特性曲线): 图表显示了在不同阈值下二元分类器的性能。

S

SVM (Support Vector Machine, 支持向量机): 用于分类和回归的监督机器学习算法。

Standardisation (标准化): 将数据缩放到均值为0,标准差为1。

Sampling (抽样): 从较大的数据集中选择数据点子集的过程。

T

t-SNE (t-Distributed Stochastic Neighbor Embedding): 用于在较低维度中可视化高维数据的降维技术。

t-distribution (t分布): 在样本大小较小时用于假设检验的概率分布。

Type I/II Error (I/II型错误): 在假设检验中,I型错误是假阳性,II型错误是假阴性。

U

Underfitting (欠拟合): 当模型过于简单,无法捕获数据中的基本模式时。

UMAP (Uniform Manifold Approximation and Projection): 用于可视化高维数据的降维技术。

Uniform Distribution (均匀分布): 所有结果都同样可能的概率分布。

V

Variance (方差): 数据点围绕均值分布的度量。

Validation Curve (验证曲线): 图表显示了模型性能如何随不同超参数值而变化。

Vanishing Gradient (梯度消失): 在深度神经网络中,当梯度在训练过程中变得非常小的问题。

W

Word embedding (词嵌入): 在自然语言处理中将单词表示为密集向量。

Word cloud (词云): 文本数据的可视化,其中单词的频率通过单词的大小表示。

Weights (权重): 在训练过程中由机器学习模型学习的参数。

X

XGBoost: 极端梯度提升,一种流行的梯度提升库。

XLNet: Generalized Autoregressive Pretraining of Transformers,一种语言模型。

Y

YOLO (You Only Look Once): 实时对象检测系统。

Yellowbrick: 用于机器学习可视化和诊断工具的Python库。

Z

Z-score (Z得分): 表示数据点与均值之间有多少标准差的标准化值。

Z-test (Z检验): 用于比较样本均值和已知总体均值的统计测试。

Zero-shot learning (零次学习): 机器学习方法,模型可以在训练期间未见到明确示例的情况下识别新类别。


参考资料:

【1】Chawla, Avi. "75 Key Terms That All Data Scientists Remember By Heart: Must-know concepts/terms in data science." Daily Dose of DS, 24 July 2023, https://www.blog.dailydoseofds.com/p/75-key-terms-that-all-data-scientists

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存