빅데이터 분석을 위한 파이썬 목차블로그를 대학원 때 코딩이 너무 헷갈려서 지식 저장공간으로 사용하려고 시작했습니다. 글을 정리하다보니 정말 많은 글을 썼다는 걸 새삼 느낍니다. 한때 블로그가 잘 되서 수익화를 어떻게 할 수 있을지 공부하다보니 현재 제가 하고 있는 방법은 온전히 블로그로 수익화하기에는 거리가 멀다는 걸 알게 되었고 이 글을 볼 사람들보다는 제가 보기 편하게 만들어서 두서도 없었습니다. 그래서 그나마 보기 편하게 만들려면 아예 이렇게 목차로 만들어보면 어떨까 해서 지금까지 공부하고 모아논 것을 버리기는 아까워서 지금까지 쓴 글 중에 주세에 맞는 것만 모아봤습니다.대학원 다닐때는 지식 위주의 글을 열심히 쓴 것 같은데 졸업 이후로는 지식보다는 사람들이 볼만한 글에 초점을 맞추다보니 뒷내용이 ..
mysql 테이블 데이터프레임으로 불러오기sql 테이블을 데이터프레임으로 불러오는 방법입니다.큰 틀로 본다면 mysql에 연결한 후 해당 서버에서 테이블을 pd.read_sql()을 통해서 가져옵니다.pymysql을 이용한 방법pymysql 라이브러리를 이용해 테이블을 불러오겠습니다.pymysql로 mysql에 연결합니다.import pandas as pdimport pymysql# 데이터베이스 연결 설정con = pymysql.connect( host='localhost', user='root', password='비밀번호',port= port, database='your_database')# SQL 쿼리 실행 및 데이터프레임으로 변환 query = "SELECT * FROM your_..
판다스 두 시리즈가 같은지 판단하기두 시리즈가 동일한지 알아보기 위한 방법입니다. 데이터가 너무 크면 변화를 알아차리기 어렵거나 변화가 있다면 눈으로 확인하기보다 컴퓨터가 해주면 간편하게 할 수 있으니 최대한 활용하려 합니다.equals()equals라는 시리즈 매쏘드가 있습니다. 이 메쏘드는 두 시리즈가 동일하다면 True, 아니면 False를 반환합니다.import pandas as pdseries1 = pd.Series([1, 2, 3, 4])series2 = pd.Series([1, 2, 3, 4])if series1.equals(series2): print("두 시리즈가 동일합니다.")else: print("두 시리즈가 동일하지 않습니다.")== 사용== 통해서도 가능합니다.if (s..
데이터프레임 컬럼값 타입 확인하고 바꾸기데이터를 외부에서 받아오면 불가피하게 타입이 고르지 못하고 중구난방으로 다운로드됩니다. 이 상태로 데이터프레임으로 전체 행, 열 계산을 하려고 할 때 애를 먹을 수 있습니다. 이번 포스팅은 컬럼값 타입을 확인하고 혹시 다른 타입이 있다면 어떻게 바꿔야 하는지에 대해 소개합니다.컬럼값 타입을 확인하려면 isintance 함수를 알아야 합니다.파이썬 타입 확인 함수 isintance 파이썬에서 데이터타입을 boolean으로 판단하려면 isinstance()함수 사용합니다. isintance는 파이썬의 내장함수라서 따로 설치할 라이브러리가 없습니다. 파이썬이 설치되어 있다면 바로 쓸 수 있습니다. isinstance()는 object(변수나 객체), classinfo(타..
판다스 데이터프레임 문자열 조건 검색법 총정리데이터프레임 문자열 조건 검색 방법을 모아봤습니다.일반적인 방법== 조건을 이용하는 방법이 가장 일반적입니다.import pandas as pd# 예제 데이터프레임 생성data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [24, 27, 22, 32], 'City': ['New York', 'Los Angeles', 'Chicago', 'Miami']}df = pd.DataFrame(data)## Los Angeles 찾기result_and = df[df['City'] == 'Los Angeles']print(result_and)하지만, ==을 사용하면 정확히 일치한..
교차표 만들기 판다스의 메쏘드중 하나인 crosstab을 이용해 교차표를 생성합니다. 주로 범주형 변수에 쓰이는데 시각적으로 표현하기 쉽게 만드는 점에서 은근 쓰이는 곳이 많습니다. crosstab() 사용방법 사용방법은 아주 간단합니다. 교차표를 만들 두개의 범주형 변수를 가져오면 그만입니다. # 예제 데이터 프레임 생성 data = {'A': ['one', 'one', 'two', 'three'] * 3, 'B': ['A', 'B', 'C'] * 4, 'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2, 'D': [1, 2, 2, 2, 1, 1, 3, 3, 3,1,2,3]} df = pd.DataFrame(data) # crosstab 생성 cross_tab ..
데이터프레임 표를 웹에 나타내기 데이터프레임은 데이터를 표 형식으로 표시하고 저장하는 데 매우 유용한 판다스(Pandas) 라이브러리의 핵심 데이터 구조입니다. 이것을 그대로 HTML에 옮기고자 합니다. 즉, 데이터프레임을 HTML로 변환하면 데이터를 웹 페이지에 표시하거나 공유할 때 편리하게 사용할 수 있을겁니다. 이번 포스팅에서는 데이터프레임 표를 HTML에 변환하는 방법을 소개합니다. 판다스 데이터프레임 생성 먼저, 데이터프레임을 생성하고 데이터를 채워봅시다. 예시로 사용할 간단한 데이터프레임을 만들어보겠습니다. import pandas as pd data = {'이름': ['Alice', 'Bob', 'Charlie'], '나이': [25, 30, 35]} df = pd.DataFrame(data..
판다스로 Json 불러오기 Json(JavaScript Object Notation) 은 Javascript 객체 문법을 따르는 문자 기반의 데이터이입니다. 네트워크를 통해 전송할 때 유용한 면이 많기 때문에 다양한 곳에서 쉽게 볼 수 있는 포맷입니다. 데이터를 크롤링하거나 다른 외부에서 가져올 때 Json 객체로 변환되어서 가져오는 경우가 많은데 파이썬에서 json 모듈을 이용해 json 파일을 열 수도 있지만 보기 불편합니다. 가독성을 위해 판다스에서 Json파일을 저장, 불러올 수 있습니다. pd.read_json() 함수를 사용하여 JSON 파일이나 문자열을 데이터프레임으로 변환할 수 있습니다. 아래는 JSON 데이터를 판다스 데이터프레임으로 불러오는 예시 코드입니다: JSON 파일을 데이터프레임..
pct_change의 업그레이드 판입니다. 특정 기간동안의 증가율을 계산하고 싶거나 수치가 필요할 때 rolling apply이 유용합니다. pct_change는 바로 위아래의 값만 퍼센트(백분율)로 나와서 내 맘대로 못하는 단점이 있는데 상황이 여러가지가 있고 백분율이 아닌 수치로 바꿀려면 다시 계산을 해야하는 번거로움이 있습니다. 그리고 위 아래의 증가율만 따지기 때문에 며칠 후의 것들의 증가율을 하려고 한다면 필터를 적용한 후 pct_change를 써야하는 번거로움이 있는데요. 이런 불편함을 확실히 없앨 수 있는 방법으로 rolling apply를 써보는 게 어떨까 싶습니다. 일단 apply는 lambda 기법으로 간단한 함수를 만드는 방법이므로 당연히 커스텀마이징이 가능합니다.다시말하면, 퍼센트나..
판다스만으로 그래프를 그리는 방법입니다. 보통 matplotlib나 pylab을 import 해서 그래프를 그리곤 했는데 pandas만으로도 그릴 수 있습니다. 왠만한건 다 되는 것 같습니다. 기본 그래프 그리기 데이터가 시리즈나 데이터프레임 모양이면 plot() 메쏘드를 이용해 그래프를 생성할 수 있습니다. 시리즈(Series) np.random.seed(222) random_num = pd.Series(np.random.randn(1096),index=pd.date_range('2020-01-01','2022-12-31')) random_walk = random_num.cumsum() random_walk.plot() 데이터프레임(DataFrame) 위에 비슷하게 하되 컬럼을 하나 더 추가해 데이터프..
데이터프레임의 타입을 바꾸는 방법입니다. 사용 데이터는 국내 etf인 kosdaq 150 레버리지의 가격입니다. df.head() 데이터프레임 타입 확인하기 데이터프레임 타입을 확인하려면 dtypes를 이용합니다. df.dtypes 각 컬럼의 타입이 나옵니다. 지금 df 같은 경우 날짜만 datatime64[ns] 이고 나머지는 int64 입니다. 데이터프레임 타입 전체 한꺼번에 바꾸기 모든 타입이 같을 때는 df.astype('타입')을 하면 바뀌기 때문에 간단합니다. 물론 무조건 되는 건 아니고 서로 바뀔 수 있는 타입이라는 가정에서 된다는 얘기입니다. astype이 만능키가 아님을 강조합니다. astype은 다루기 쉬우니깐 요령 하나를 알려드릴까 합니다. 타입이 다른게 섞여있을 때 데이터프레임을 분..
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.