[Pandas] DataFrame 살펴보기(생성,데이터파악)

반응형
    반응형

    DataFrame에 대해 살펴보겠습니다.

    Series가 1차원 형태의 자료구조라면 DataFrame은 2차원 형태의 자료구조입니다. 

    Series보다 훨씬 다양하게 쓸수 있고 흔히 쓰는 엑셀(Excel)의 스프레트시트와 형태가 비슷하기 때문에

    사용법을 조금 익히시면 계산측면에서는 엑셀보다 훨씬 효율적으로 쓸 수 있을겁니다.

     

    DataFrame 생성하기

    먼저 DataFrame을 생성해서 살펴보겠습니다. 

    from pandas import Series, DataFrame
    raw_data = {'col0':[1,2,3,4],'col1':[10,20,30,40],'col2':[100,200,300,400]}
    data = DataFrame(raw_data)
    print(raw_data)

    raw_data를 보시면 일반적인 딕셔너리입니다. 이렇게 딕셔너리로 이루어진 어떤 데이터가 있다면 이 데이터를 DataFrame처럼 만들어 달라는 요청을 하면 DataFrame 틀에 맞게 모양이 바뀝니다.

    (DataFrame을 import 했기 때문에 pandas.DataFrame(raw_data)로 하지 않았습니다.)

    print(data)

    엑셀에서 보던 row와 column이 존재하는 데이터로 바뀐것을 볼 수 있습니다. 이것이 바로 DataFrame입니다. 

     

    각 row 인덱스 데이터 추출은 Series에서 해봤기 때문에 column을 해보겠습니다.

     

    data['col1']

    간단한 방법으로 할 수 있습니다.

    리스트 다루듯이 col1인덱스로 이루어진 데이터를 가져올 수 있습니다.

    보시는 바와 같이 data['col1']은 Series와 같은 모양임을 알 수 있습니다.

    실제로도 타입이 Series입니다.

    type(data['col1'])

    따라서 DateFrame은 Series의 확장된 버젼임을 알 수 있습니다. 즉, 1차원의 Series를 가지고 2차원의 DataFrame을 이루게 된 것입니다. 느낌이 오시겠지만 Series에서 하던 연산이나 슬라이싱이나 DataFrame에서 다 할 수 있습니다. 

    또한, col1의 0번째같이 값 하나도 선택할수 있습니다.

    예전에 파이썬으로 데이터를 다루었던 방식으로 data['col1'][0]을 하면 값을 하나씩 골라낼 수 있습니다.

     

    data['col1'][0]

     

    DataFrame 데이터 파악

    DataFrame의 가장 큰 장점은 데이터 파악이 쉽다는 것입니다.

    describe 함수를 이용하면 column별로 count, mean, std, min, max를 한눈에 볼 수 있습니다.

    data.describe()

     

    info() 함수를 이용하면 데이터의 전체적인 정보도 볼 수 있습니다.

    data.info()

    info 함수를 이용하면 위와 같이 column의 이름이나 각 column의 원소갯수, dtype을 한눈에 볼 수 있습니다.

     

    DataFrame의 형태를 보고싶다면 Series와 같이 shape를 이용하면 됩니다.

    data.shape


    이상으로 포스팅을 마치겠습니다.

    'Python > Pandas' 카테고리의 다른 글

    [Pandas] DataFrame 인덱스 설정, 리셋  (0) 2020.12.05
    [Pandas]DataFrame column 추가,삭제,순서변경  (0) 2020.07.16
    [Pandas]Series 슬라이싱  (0) 2020.07.01
    [Pandas]Series drop, dropna  (0) 2020.06.28
    Series Boolean Select  (0) 2020.06.24

    댓글

    Designed by JB FACTORY

    ....