如何python筛选重复数据
在duplicated和drop_duplicates方法中指定subset字段
通过在duplicated()或drop_duplicates()方法中传入subset参数,可以指定只根据某些列判断是否重复。例如:
import pandas as pd
df = pd.DataFrame({'A':[1,2,2,3],'B':[5,6,7,7],'C':[9,10,11,12]})
duplicates = df[df.duplicated(subset=['A','B'])]
print(duplicates)
这样只会根据列'A'和'B'来判断重复项。