一尘不染

在 Python 中定义一个函数怎么计算重复行

python

我想在 Python 中定义一个函数,它有一个输入,一个 pandas DataFrame,然后计算输入有多少重复行。

我试过这段代码:

def pandasDupl(my_df):
    duplicates = my_df.duplicated(keep=False).sum()
    return duplicates

df_test = pd.DataFrame({"A":[3,3,3,3],"B":[5,5,5,3], "C":[5, 5, 5,3], "D": [3,3,3,3]}, index=["a","b","c","d"])
print(df_test)

pandasDuplicates(df_test)

输出:3

但是但我只想计算重复项,没有原点,所以我想有 2 个作为输出(相同的行 - 原点行) - 我读到我必须删除 keep=False,但是当我删除这部分时,出现错误消息出现,告诉我该属性丢失。


阅读 77

收藏
2022-09-30

共1个答案

一尘不染

你有没有尝试过:

df_test.duplicated(keep='first').sum()  # 2


df_test = pd.DataFrame({"A":[3,3,3,3],"B":[5,5,5,3], "C":[5, 5, 5,3], "D": [3,3,3,3]}, index=["a","b","c","d"])
df_test.duplicated(keep='first').sum()
2022-09-30