如何在新数据集上使用 Pandas 进行编码？

小能豆

我有一个训练数据集，其中包含分类特征，我将其用于pd.get_dummies独热编码。这会生成一个具有 n 个特征的数据集。然后，我在这个具有 n 个特征的数据集上训练一个分类模型。如果我现在获得一些具有相同分类特征的新数据并再次执行独热编码，则生成的特征数量为 m < n。

如果维度与原始训练数据不匹配，我无法预测新数据集的类别。

阅读 18

2024-12-29

共1个答案

小能豆

您有与列 [‘A_1’,’A_2’] 相关的 tradf

使用新的 df 你有 column[‘A’] 但只有一个类别 1 ，你可以这样做

pd.get_dummies(df).reindex(columns=tradf.columns,fill_value=0)

2024-12-29