파이썬에서 팬더를 사용하여 모든 중복 항목 목록을 얻으려면 어떻게해야합니까?

program tip

파이썬에서 팬더를 사용하여 모든 중복 항목 목록을 얻으려면 어떻게해야합니까?

radiobox 2020. 10. 13. 07:36

파이썬에서 팬더를 사용하여 모든 중복 항목 목록을 얻으려면 어떻게해야합니까?

수출 문제가있을 가능성이있는 품목 목록이 있습니다. 수동으로 비교할 수 있도록 중복 항목의 목록을 얻고 싶습니다. pandas duplicated method 를 사용하려고 하면 첫 번째 복제본 만 반환됩니다. 첫 번째가 아닌 모든 중복을 얻을 수있는 방법이 있습니까?

내 데이터 세트의 작은 하위 섹션은 다음과 같습니다.

ID,ENROLLMENT_DATE,TRAINER_MANAGING,TRAINER_OPERATOR,FIRST_VISIT_DATE
1536D,12-Feb-12,"06DA1B3-Lebanon NH",,15-Feb-12
F15D,18-May-12,"06405B2-Lebanon NH",,25-Jul-12
8096,8-Aug-12,"0643D38-Hanover NH","0643D38-Hanover NH",25-Jun-12
A036,1-Apr-12,"06CB8CF-Hanover NH","06CB8CF-Hanover NH",9-Aug-12
8944,19-Feb-12,"06D26AD-Hanover NH",,4-Feb-12
1004E,8-Jun-12,"06388B2-Lebanon NH",,24-Dec-11
11795,3-Jul-12,"0649597-White River VT","0649597-White River VT",30-Mar-12
30D7,11-Nov-12,"06D95A3-Hanover NH","06D95A3-Hanover NH",30-Nov-11
3AE2,21-Feb-12,"06405B2-Lebanon NH",,26-Oct-12
B0FE,17-Feb-12,"06D1B9D-Hartland VT",,16-Feb-12
127A1,11-Dec-11,"064456E-Hanover NH","064456E-Hanover NH",11-Nov-12
161FF,20-Feb-12,"0643D38-Hanover NH","0643D38-Hanover NH",3-Jul-12
A036,30-Nov-11,"063B208-Randolph VT","063B208-Randolph VT",
475B,25-Sep-12,"06D26AD-Hanover NH",,5-Nov-12
151A3,7-Mar-12,"06388B2-Lebanon NH",,16-Nov-12
CA62,3-Jan-12,,,
D31B,18-Dec-11,"06405B2-Lebanon NH",,9-Jan-12
20F5,8-Jul-12,"0669C50-Randolph VT",,3-Feb-12
8096,19-Dec-11,"0649597-White River VT","0649597-White River VT",9-Apr-12
14E48,1-Aug-12,"06D3206-Hanover NH",,
177F8,20-Aug-12,"063B208-Randolph VT","063B208-Randolph VT",5-May-12
553E,11-Oct-12,"06D95A3-Hanover NH","06D95A3-Hanover NH",8-Mar-12
12D5F,18-Jul-12,"0649597-White River VT","0649597-White River VT",2-Nov-12
C6DC,13-Apr-12,"06388B2-Lebanon NH",,
11795,27-Feb-12,"0643D38-Hanover NH","0643D38-Hanover NH",19-Jun-12
17B43,11-Aug-12,,,22-Oct-12
A036,11-Aug-12,"06D3206-Hanover NH",,19-Jun-12

내 코드는 현재 다음과 같습니다.

df_bigdata_duplicates = df_bigdata[df_bigdata.duplicated(cols='ID')]

몇 개의 중복 항목이 있습니다. 하지만 위의 코드를 사용하면 첫 번째 항목 만 얻습니다. API 참조에서 마지막 항목을 얻을 수있는 방법을 알지만 모든 항목을 가져 와서 시각적으로 검사하여 불일치가 발생하는 이유를 확인하고 싶습니다. 따라서이 예에서는 첫 번째 항목 대신 A036 항목 3 개와 11795 항목 및 기타 중복 항목을 모두 가져오고 싶습니다. 도움을 주시면 감사하겠습니다.

방법 # 1 : ID가 중복 된 ID 중 하나 인 모든 행을 인쇄합니다.

>>> import pandas as pd
>>> df = pd.read_csv("dup.csv")
>>> ids = df["ID"]
>>> df[ids.isin(ids[ids.duplicated()])].sort("ID")
       ID ENROLLMENT_DATE        TRAINER_MANAGING        TRAINER_OPERATOR FIRST_VISIT_DATE
24  11795       27-Feb-12      0643D38-Hanover NH      0643D38-Hanover NH        19-Jun-12
6   11795        3-Jul-12  0649597-White River VT  0649597-White River VT        30-Mar-12
18   8096       19-Dec-11  0649597-White River VT  0649597-White River VT         9-Apr-12
2    8096        8-Aug-12      0643D38-Hanover NH      0643D38-Hanover NH        25-Jun-12
12   A036       30-Nov-11     063B208-Randolph VT     063B208-Randolph VT              NaN
3    A036        1-Apr-12      06CB8CF-Hanover NH      06CB8CF-Hanover NH         9-Aug-12
26   A036       11-Aug-12      06D3206-Hanover NH                     NaN        19-Jun-12

하지만 ids그렇게 여러 번 반복되는 것을 막을 수있는 좋은 방법을 생각할 수 없었 습니다. 나는 groupbyID에 방법 # 2를 선호합니다 .

>>> pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)
       ID ENROLLMENT_DATE        TRAINER_MANAGING        TRAINER_OPERATOR FIRST_VISIT_DATE
6   11795        3-Jul-12  0649597-White River VT  0649597-White River VT        30-Mar-12
24  11795       27-Feb-12      0643D38-Hanover NH      0643D38-Hanover NH        19-Jun-12
2    8096        8-Aug-12      0643D38-Hanover NH      0643D38-Hanover NH        25-Jun-12
18   8096       19-Dec-11  0649597-White River VT  0649597-White River VT         9-Apr-12
3    A036        1-Apr-12      06CB8CF-Hanover NH      06CB8CF-Hanover NH         9-Aug-12
12   A036       30-Nov-11     063B208-Randolph VT     063B208-Randolph VT              NaN
26   A036       11-Aug-12      06D3206-Hanover NH                     NaN        19-Jun-12

Pandas 버전 0.17에서는 모든 중복 항목을 가져 오기 위해 복제 된 함수 에서 'keep = False'를 설정할 수 있습니다.

In [1]: import pandas as pd

In [2]: df = pd.DataFrame(['a','b','c','d','a','b'])

In [3]: df
Out[3]: 
       0
    0  a
    1  b
    2  c
    3  d
    4  a
    5  b

In [4]: df[df.duplicated(keep=False)]
Out[4]: 
       0
    0  a
    1  b
    4  a
    5  b

df[df.duplicated(['ID'], keep=False)]

중복 된 모든 행을 반환합니다.

reference

keep : {‘first’, ‘last’, False}, default ‘first’

first : Mark duplicates as True except for the first occurrence.
last : Mark duplicates as True except for the last occurrence.
False : Mark all duplicates as True.

df[df['ID'].duplicated() == True]

This worked for me

Using an element-wise logical or and setting the take_last argument of the pandas duplicated method to both True and False you can obtain a set from your dataframe that includes all of the duplicates.

df_bigdata_duplicates = 
    df_bigdata[df_bigdata.duplicated(cols='ID', take_last=False) |
               df_bigdata.duplicated(cols='ID', take_last=True)
              ]

As I am unable to comment, hence posting as a separate answer

To find duplicates on the basis of more than one column, mention every column name as below, and it will return you all the duplicated rows set:

df[df[['product_uid', 'product_title', 'user']].duplicated() == True]

This may not be a solution to the question, but to illustrate examples:

import pandas as pd

df = pd.DataFrame({
    'A': [1,1,3,4],
    'B': [2,2,5,6],
    'C': [3,4,7,6],
})

print(df)
df.duplicated(keep=False)
df.duplicated(['A','B'], keep=False)

The outputs:

   A  B  C
0  1  2  3
1  1  2  4
2  3  5  7
3  4  6  6

0    False
1    False
2    False
3    False
dtype: bool

0     True
1     True
2    False
3    False
dtype: bool

df[df.duplicated(['ID'])==True].sort_values('ID')

sort("ID") does not seem to be working now, seems deprecated as per sort doc, so use sort_values("ID") instead to sort after duplicate filter, as following:

df[df.ID.duplicated(keep=False)].sort_values("ID")

참고URL : https://stackoverflow.com/questions/14657241/how-do-i-get-a-list-of-all-the-duplicate-items-using-pandas-in-python

'program tip' 카테고리의 다른 글

.NET의 HttpWebRequest / Response와 함께 자체 서명 된 인증서 사용 (0)	2020.10.13
Entity Framework Code First Fluent API로 테이블 이름을 지정하는 방법 (0)	2020.10.13
Node.js + Express.js 사용자 권한 보안 모델 (0)	2020.10.12
MySQL에서 재귀 SELECT 쿼리를 수행하는 방법은 무엇입니까? (0)	2020.10.12
C에서 main ()없이 프로그램 컴파일 및 실행 (0)	2020.10.12

현재글파이썬에서 팬더를 사용하여 모든 중복 항목 목록을 얻으려면 어떻게해야합니까?

radiobox

파이썬에서 팬더를 사용하여 모든 중복 항목 목록을 얻으려면 어떻게해야합니까?

파이썬에서 팬더를 사용하여 모든 중복 항목 목록을 얻으려면 어떻게해야합니까?

'program tip' 카테고리의 다른 글

'program tip'의 다른글

티스토리툴바

파이썬에서 팬더를 사용하여 모든 중복 항목 목록을 얻으려면 어떻게해야합니까?

파이썬에서 팬더를 사용하여 모든 중복 항목 목록을 얻으려면 어떻게해야합니까?

'program tip' 카테고리의 다른 글

'program tip'의 다른글

관련글

티스토리툴바