데이터프레임 값 변경하기판다스(Pandas) 데이터프레임에서 특정 값을 원하는 값으로 변경하는 방법은 여러 가지가 있습니다. 이전에 replace로 변경하기에 대한 내용을 포스팅했었는데 비슷한 내용이지만 이번 포스팅에서는 replace 없이 다른 메쏘드를 통해 사용하는 방법을 소개합니다. 1. 특정 조건에 맞는 값 변경하기import pandas as pd# 예시 데이터프레임 생성data = {'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]}df = pd.DataFrame(data)# 조건을 만족하는 값을 원하는 값으로 변경df.loc[df['A'] == 3, 'B'] = 100df.iloc[2, 0] = 7df loc를 이용해 'A' 열에서 값이 3..
새로운 열 추가 방법R을 이용한 새로운 열 추가 방법이 여러가지가 있어서 정리합니다.$ 연산자 사용가장 간단하게 할 수 있는 $를 이용하는 방법입니다.# 데이터프레임 생성df 인덱스를 이용한 방법[]에 새로운 인덱스(컬럼명)을 넣어서 추가합니다.# 데이터프레임 생성df cbind() 사용bind는 묶는다는 뜻이 있습니다. cbind() 는 '컬럼으로 묶는다'는 뜻으로 데이터프레임에 컬럼을 추가로 묶어 넣는다는 의미로 사용하고 있습니다.# 데이터프레임 생성df mutate() 함수 사용(dplyr)dplyr 에 내장된 mutate()를 이용하는 방법입니다.dplyr은 데이터프레임 조작시 많이 쓰는 툴인데요. 위의 3가지 방법처럼 R로 할 수 있는 걸 굳이 dplyr를 불러와 해야할까? 라는 의문이 들..
dplyr 패키지를 이용한 데이터 조작안녕하세요~ 이번 포스팅에서는 R의 패키지인 dplyr에 대해 이야기해보려고 합니다. dplyr은 데이터를 효율적으로 다루기 위해 만들어진 패키지로, 간결하고 쉬운 코드를 작성하는데 유용합니다. 특히, 파이프(%>%)를 이용한 코드가 가능하기 때문에 한번에 데이터 조작을 할 수 있습니다. 그럼 주요 기능들을 살펴보겠습니다.dplyr 패키지 소개dplyr은 Hadley Wickham이 개발한 패키지로, 데이터 프레임을 조작하는데 최적화되어 있습니다. 패키지 없이 R로 다 해결하려면 코드양이 많아지지만 dplyr 를 사용하면 코드량을 획기적으로 줄일 수 있습니다.주요기능은 다음과 같습니다.filter() : 행 필터링select() : 열 선택mutate() : 새로운 ..
DtypeWarning 잘 불러오던 csv가 간혹 DtypeWarning 이라고 경고가 뜹니다. DtypeWarning: Columns (37,66) have mixed types. Specify dtype option on import or set low_memory=False. 특정 컬럼의 type이 섞여있어서 결정할 수 없다고 합니다. 그럼 다 object로 하지 않았나? 왜저러는걸까? 싶은데 컴퓨터가 인식을 그렇게한다니까 어떻게 할 수 있는 건 아닌 것 같습니다. 저 경고를 무시하고 코딩실행을 하니깐 확실히 작업속도가 현저히 느려졌습니다. 메모리 도둑이 따로없네요. 해결방법 해결방법은 두가지입니다. (1) 문제가 되는 컬럼의 타입을 정해준다 (2) csv에 쓰는 메모리 제한을 없애서 csv를 한번..
시트만 다른데 매번 다시 불러야하나? 판다스에서 엑셀시트를 불러오는 방법으로 보통 read_excel(sheet_name = '시트이름')을 쓰게 되는데 이러면 시트를 부를 때마다 excel을 부르고서 sheet_name을 다르게 해서 엑셀파일 자체를 다시 읽게 됩니다. 즉, 시간소비가 많다는 것이죠. (이런 시간낭비...) 그래서 엑셀 파일을 객체로 만드는 방법을 알아냈습니다. 판다스 내에 엑셀 파일을 객체로 불러와서 시트만 불러내는 방식을 사용할 수 있더라고요. 이 방식을 사용하면 엑셀파일은 불러와있는 상태에서 시트만 선택적으로 꺼내쓰는 방식으로 바뀝니다. 시간도 절약하고 시트관리가 좀 더 용이해집니다. 엑셀 파일 객체로 불러오기(ExcelFile) 판다스에 ExcelFile이라는 메쏘드가 있습니다...