我想在 Python 中定义一个函数,它有一个输入,一个 pandas DataFrame,然后计算输入有多少重复行。
我试过这段代码:
def pandasDupl(my_df): duplicates = my_df.duplicated(keep=False).sum() return duplicates df_test = pd.DataFrame({"A":[3,3,3,3],"B":[5,5,5,3], "C":[5, 5, 5,3], "D": [3,3,3,3]}, index=["a","b","c","d"]) print(df_test) pandasDuplicates(df_test)
输出:3
但是但我只想计算重复项,没有原点,所以我想有 2 个作为输出(相同的行 - 原点行) - 我读到我必须删除 keep=False,但是当我删除这部分时,出现错误消息出现,告诉我该属性丢失。
你有没有尝试过:
df_test.duplicated(keep='first').sum() # 2 df_test = pd.DataFrame({"A":[3,3,3,3],"B":[5,5,5,3], "C":[5, 5, 5,3], "D": [3,3,3,3]}, index=["a","b","c","d"]) df_test.duplicated(keep='first').sum()