在 Python 中定义一个函数怎么计算重复行

一尘不染

在 Python 中定义一个函数怎么计算重复行

python

我想在 Python 中定义一个函数，它有一个输入，一个 pandas DataFrame，然后计算输入有多少重复行。

我试过这段代码：

def pandasDupl(my_df):
    duplicates = my_df.duplicated(keep=False).sum()
    return duplicates

df_test = pd.DataFrame({"A":[3,3,3,3],"B":[5,5,5,3], "C":[5, 5, 5,3], "D": [3,3,3,3]}, index=["a","b","c","d"])
print(df_test)

pandasDuplicates(df_test)

输出：3

但是但我只想计算重复项，没有原点，所以我想有 2 个作为输出（相同的行 - 原点行） - 我读到我必须删除 keep=False，但是当我删除这部分时，出现错误消息出现，告诉我该属性丢失。

阅读 88

2022-09-30

共1个答案

一尘不染

你有没有尝试过：

df_test.duplicated(keep='first').sum()  # 2


df_test = pd.DataFrame({"A":[3,3,3,3],"B":[5,5,5,3], "C":[5, 5, 5,3], "D": [3,3,3,3]}, index=["a","b","c","d"])
df_test.duplicated(keep='first').sum()

2022-09-30