판다스 시트네임 확인하기빅데이터로 넘어가면 엑셀이나 csv 파일을 불러와서 뭔가 하기가 꺼려집니다. 너무 방대하거든요.특히, 일부 데이터만 필요한 경우, 다 불러올 필요가 없는 경우나 read_excel이나 read_csv를 사용하면 디폴트로 첫번째 시트만 불러와지기 때문에 다른 시트를 가져오려면 해당 시트 네임을 알아야 합니다.파이썬으로 시트 네임만 가져오는 방법을 알려드립니다.먼저, ExcelFile()을 이용해 엑셀 객체를 만들어줍니다.import pandas as pd # Excel 파일 경로 file_path = 'your_excel_file.xlsx' # Excel 파일 객체 생성 excel_file = pd.ExcelFile(file_path) sheet_names를 이용해 시트 확인을..
xls와 xlsx의 방식 차이 xls에서 xlsx로 변환되었다는 건 엑셀을 써본 사람들은 다 알겁니다. 최근 시스템 리소스 오류가 나오면서 xls와 xlsx의 방식이 어떻게 다른지 궁금해서 정리해봤습니다. 파일 형식 Xls 파일은 BIFF(Binary Interchange File Format)를 기반으로 이진 형식으로 정보를 저장합니다. 반면, Xlsx 파일은 압축된 XML 파일의 Zip 형식으로 데이터를 저장합니다. 실제로 xlsx파일을 zip으로 바꾸면 xml 형식으로 바뀐 파일모음으로 새로 만들어집니다. 파일 크기 기본적으로 xls 파일이 더 큽니다. 하지만 xls는 xlsx보다 적은 데이터를 저장합니다. xlsx가 더 많은 행과 열을 가지고 있습니다. 호환버전 xls는 2003년 이전 버전과 호..
엑셀 파일 빠르게 읽어보자 빅데이터를 다루다보면 엑셀 파일 불러올 수 밖에 없는데 데이터 자체가 크다보니 불러오는 시간이 많이 소요됩니다. 이걸 여러번 불러온다면 곤욕이 따로 없겠죠? 이전 포스팅에서 xlsx에서 csv로 변환하는 방법을 다뤘었는데 csv로 변환하고 읽는 속도가 약 70배 빨라지는 것을 알 수 있었습니다. 이번 포스팅에서는 본격적으로 불러오는 속도를 극대화하는 방법에 대해 소개할까 합니다. DASK 모듈 이용하기 방법은 생각보다 간단합니다. 데이터를 불러올 때 병렬처리를 한다면 보다 빠르게 불러올 수 있게 됩니다. 그런데 이걸 코드로 만들어내면 귀찮아지니 다 만들어진 모듈을 사용해서 간편하게 불러올 수 있을 거라 생각합니다. DASK라는 모듈을 쓸 건데요. 이 모듈은 파이썬에서 분산 병렬..
시트만 다른데 매번 다시 불러야하나? 판다스에서 엑셀시트를 불러오는 방법으로 보통 read_excel(sheet_name = '시트이름')을 쓰게 되는데 이러면 시트를 부를 때마다 excel을 부르고서 sheet_name을 다르게 해서 엑셀파일 자체를 다시 읽게 됩니다. 즉, 시간소비가 많다는 것이죠. (이런 시간낭비...) 그래서 엑셀 파일을 객체로 만드는 방법을 알아냈습니다. 판다스 내에 엑셀 파일을 객체로 불러와서 시트만 불러내는 방식을 사용할 수 있더라고요. 이 방식을 사용하면 엑셀파일은 불러와있는 상태에서 시트만 선택적으로 꺼내쓰는 방식으로 바뀝니다. 시간도 절약하고 시트관리가 좀 더 용이해집니다. 엑셀 파일 객체로 불러오기(ExcelFile) 판다스에 ExcelFile이라는 메쏘드가 있습니다...