판다스(Pandas)에서 조건에 맞는 행 제외하는 방법판다스를 활용하다 보면 특정 조건에 맞는 행만 선택하거나 제외해야 하는 상황이 자주 발생합니다. 이 글에서는 판다스에서 특정 조건에 맞는 행을 제외하는 방법을 여러 가지 예제를 통해 살펴보겠습니다. 데이터 분석과 전처리 과정에서 매우 유용한 테크닉이니 꼭 알아두세요!조건에 맞는 행 제외하기: 기본 원리판다스에서 조건에 맞는 행을 제외하려면 부울 인덱싱(Boolean Indexing)과 ~ 연산자를 사용합니다. ~는 조건을 반전(negate)시켜 해당 조건에 맞는 행을 제외하도록 도와줍니다. import pandas as pd데이터프레임 생성data = {'이름': ['Alice', 'Bob', 'Charlie', 'David'],'나이': [25, ..
mysql 테이블 데이터프레임으로 불러오기sql 테이블을 데이터프레임으로 불러오는 방법입니다.큰 틀로 본다면 mysql에 연결한 후 해당 서버에서 테이블을 pd.read_sql()을 통해서 가져옵니다.pymysql을 이용한 방법pymysql 라이브러리를 이용해 테이블을 불러오겠습니다.pymysql로 mysql에 연결합니다.import pandas as pdimport pymysql# 데이터베이스 연결 설정con = pymysql.connect( host='localhost', user='root', password='비밀번호',port= port, database='your_database')# SQL 쿼리 실행 및 데이터프레임으로 변환 query = "SELECT * FROM your_..
RMySQL을 이용한 R과 MySQL 연동MySQL은 데이터베이스를 아는 사람이라면 한번쯤은 써봤을 데이터베이스관리시스템(RDBMS)입니다. 대량의 데이터를 효율적으로 저장하고 관리하는데 특화된 시스템입니다. 데이터는 DB파일로 저장됩니다.Rstudio도 데이터를 다루는 프로그램이어서 MySql과의 연동이 됩니다. Mysql과의 연동만으로도 데이터를 분석, 관리하기 좋은 환경이 되기 때문에 필히 알고 있어야 합니다. R의 패키지인 RMySQL을 통해서 MySQL 와 연동을 해보겠습니다. RMySQL 패키지 설치하기설치는 간단합니다.install.packges("RMySQL")library(RMySQL)RMySQL을 사용하면 데이터베이스의 주요기능인 DDL, DML을 할 수 있습니다. DDL,DML의 관..
ggplot2를 이용한 데이터 시각화R의 강력한 시각화 패키지인 ggplot2에 대해 살펴볼까 합니다. ggplot2는 Hadley Wickham이 개발한 R 패키지로, "Grammer of Graphics"에 기반한 데이터 시각화 도구로 직관적으로 데이터 시각화를 구성하게 해줍니다.기본 구조ggplot2의 기본 구조는 다음과 같습니다.ggplot(data, aes(x,y)) : 데이터를 설정하고, x축과 y축에 매핑geom_*(): 그래프 형태 지정산점도 : geom_point()선 그래프 : geom_line()막대그래프 : geom_bar()히스토그램 : geom_histogram()상자 그림 : geom_boxplot()패싯(Facet) : facet_*각 그래프는 직접 보는게 가장 낫겠죠? mt..
새로운 열 추가 방법R을 이용한 새로운 열 추가 방법이 여러가지가 있어서 정리합니다.$ 연산자 사용가장 간단하게 할 수 있는 $를 이용하는 방법입니다.# 데이터프레임 생성df 인덱스를 이용한 방법[]에 새로운 인덱스(컬럼명)을 넣어서 추가합니다.# 데이터프레임 생성df cbind() 사용bind는 묶는다는 뜻이 있습니다. cbind() 는 '컬럼으로 묶는다'는 뜻으로 데이터프레임에 컬럼을 추가로 묶어 넣는다는 의미로 사용하고 있습니다.# 데이터프레임 생성df mutate() 함수 사용(dplyr)dplyr 에 내장된 mutate()를 이용하는 방법입니다.dplyr은 데이터프레임 조작시 많이 쓰는 툴인데요. 위의 3가지 방법처럼 R로 할 수 있는 걸 굳이 dplyr를 불러와 해야할까? 라는 의문이 들..
dplyr 패키지를 이용한 데이터 조작안녕하세요~ 이번 포스팅에서는 R의 패키지인 dplyr에 대해 이야기해보려고 합니다. dplyr은 데이터를 효율적으로 다루기 위해 만들어진 패키지로, 간결하고 쉬운 코드를 작성하는데 유용합니다. 특히, 파이프(%>%)를 이용한 코드가 가능하기 때문에 한번에 데이터 조작을 할 수 있습니다. 그럼 주요 기능들을 살펴보겠습니다.dplyr 패키지 소개dplyr은 Hadley Wickham이 개발한 패키지로, 데이터 프레임을 조작하는데 최적화되어 있습니다. 패키지 없이 R로 다 해결하려면 코드양이 많아지지만 dplyr 를 사용하면 코드량을 획기적으로 줄일 수 있습니다.주요기능은 다음과 같습니다.filter() : 행 필터링select() : 열 선택mutate() : 새로운 ..
데이터 변환이란?빅데이터 분석과정 중에서 데이터 변환은 정제된 데이터를 분석 목적에 맞게 만드는 과정을 말합니다. 그래서 데이터 변환 단계에서는 변수를 생성하거나 데이터 선택해 필요없는 데이터는 정리하면서 데이터 차원을 축소하는 작업을 하게 됩니다.R을 통해서 데이터 변환 작업을 어떻게 하는지 알아보도록 하겠습니다.데이터 타입변경데이터의 타입 정리가 되어있지 않으면 머신러닝이나 딥러닝을 할때 방해가 될 수 있습니다. 반드시 타입변경을 해주어야 합니다. 데이터 타입 변경에 대한 내용은 아래 포스팅을 참고하시기 바랍니다. [R] 데이터 타입 변경하기R에서 데이터 타입 변경하기R에서 데이터 타입을 변경하는 방법입니다. 데이터 분석 과정에서 데이터 타입을 올바르게 지정하는 것은 매우 중요합니다. 데이터 타입..
R 결측치 처리데이터 분석에서 중요한 단계 중 하나인 데이터 정제 및 전처리에 대해 얘기해보려고 합니다. 데이터 정제는 원데이터를 분석하기 쉬운 데이터로 만드는 과정으로, 데이터의 품질을 높이고 분석 결과의 신뢰성을 보장합니다. 이 중 결측치 처리에 대해서 보겠습니다.결측치 확인먼저, 결측치를 확인하는 방법을 알아봅시다. is.na() 함수를 사용하면 데이터 프레임 내의 결측치를 확인할 수 있습니다. data를 만들어서 진행해보겠습니다.data 결측치 제거하기1. 결측치가 포함된 행 전체 제거na.omit() 함수를 이용하면 결측치가 포함된 행을 전체 제거합니다.clean_data 2. 결측치가 없는 행만 선택complete.cases() 함수를 사용해 결측치가 없는 행만 선택할 수도 있습니다. na.o..
R에서 데이터 타입 변경하기R에서 데이터 타입을 변경하는 방법입니다. 데이터 분석 과정에서 데이터 타입을 올바르게 지정하는 것은 매우 중요합니다. 데이터 타입이 올바르지 않으면 원하는 분석 결과를 얻기 어렵기 때문이죠. 그럼, R에서 데이터 타입을 변경하는 다양한 방법을 함께 살펴보겠습니다.1. 기본 데이터 타입R에는 여러 가지 기본 데이터 타입이 있습니다. 주요 데이터 타입은 다음과 같습니다:numeric: 실수형 데이터 (예: 1.5, 2.7)integer: 정수형 데이터 (예: 1, 2, 3)character: 문자열 데이터 (예: "a", "hello")factor: 범주형 데이터 (예: "male", "female")logical: 논리형 데이터 (예: TRUE, FALSE)2. 데이터 타입 확..
빅데이터란?오늘은 우리가 자주 듣게 되는 "빅데이터"라는 용어에 대해 이야기해보려고 합니다. 4차혁명이 시작되면서 빅데이터란 용어가 급부상하고 있는데요. 빅데이터가 정확히 무엇을 의미하는지, 그리고 왜 중요한지 알아보겠습니다.Pixabay로부터 입수된 Gerd Altmann님의 이미지 입니다. 빅데이터 정의빅데이터, 말만 들어도 왠지 거대한 무언가를 떠올리게 되지 않나요?빅데이터란 말 그대로 엄청나게 큰 데이터셋을 뜻합니다. 하지만 단순히 데이터가 크다고 빅데이터의 진정한 의미로 받아들이지 않습니다.기본적으로 빅데이터는 다음의 3V로 설명될 수 있습니다. 미국의 IT 자문기관인 가트너그룹에서 말한 3V는 다음과 같습니다.Volume (양): 빅데이터의 첫 번째 특징은 방대한 양입니다. 매일 전 세계에서 ..
R은 패키지 설치가 너무 어렵다R은 깔끔하게 코드를 작성할 수 있어 좋은데 호환성이 너무 안좋습니다. 조금만 엇나가면 바로 안됩니다. 힘드네요. 특히 패키지 설치로 애를 아주 많이 먹었습니다.보통 R이 한글 인식이 안되는데 윈도우 계정을 한글로 하는 경우가 대부분인데 그것 말고도 여러 문제가 있습니다.쓰기 권한이 없다다음과 같은 오류가 날 수 있습니다.해당 경로가 쓰기 형식이 아니므로 library폴더에 쓰기권한을 주라는 얘기입니다. 즉, 쓰기 권한의 문제입니다.실제 폴더 속성에 가보면 쓰기허용이 체크되어 있지 않습니다.하지만 관리자권한은 쓰기 권한이 되어 있습니다. 그렇다면 Rstutio를 관리자 권한으로 실행하면 된다는 얘기니 관리자 권한으로 일단 실행을 합니다.Rstudio 바로가기에서 다음과 같이..
독립표본 t검정독립표본 t검정은 두 개의 독립된 모집단의 평균을 비교할 때 사용하는 검정방법입니다.예를 들어, 성별에 따라 공부 성취도가 다른지를 검정한다고 할 때 서로 독립적인 남,여에 대해서 통계적 검정을 하기 위해 독립표본 t검정을 사용합니다. 이때, '성별'이 독립변수, 종속변수는 '공부 성취도'가 됩니다. 두 가지 교육 방법(A,B)에 대한 학생들의 시험 성적에 미치는 영향을 통계적으로 검정해보는 예제입니다.독립표본 t검정을 수행하려면 등분산검정 시행후 수행하게 됩니다.일반적으로 등분산검정은 F-test를 시행하는데 R에서 F-test 등분산검정 메쏘드는 다음과 같습니다. var.test(x,y,alternative) : 모집단1,모집단2 적용시var.test(formula,data,altern..
R을 이용한 대응표본 t-검정대응표본 t검정은 단일 모집단에서 두 개의 표본집단을 만들었을때, 그 두개에 대한 평균의 차이를 비교합니다.예를 들어 수면약을 만들었을 때 이 수면약이 효과가 있는지 확인하고 싶어 치료전후 결과를 비교합니다. R을 이용해 대응표본 t검정을 실시하려면 t_test() 메쏘드를 사용해야 합니다.여기서 t_test() 메쏘드에 대한 파라미터를 잠깐 살펴보겠습니다. t.test(x,y,alternate=c("two_sided","less","greater"),paired=FALSE,m=0)x : X의 관측값(수치형 벡터)y : Y의 관측값(수치형 벡터)alternative양측검정 : two-sided단측검정 : less($\mu_x \mu_y$ ), $\mu_x$ 는 X의 평균, $..
데이터프레임 컬럼값 타입 확인하고 바꾸기데이터를 외부에서 받아오면 불가피하게 타입이 고르지 못하고 중구난방으로 다운로드됩니다. 이 상태로 데이터프레임으로 전체 행, 열 계산을 하려고 할 때 애를 먹을 수 있습니다. 이번 포스팅은 컬럼값 타입을 확인하고 혹시 다른 타입이 있다면 어떻게 바꿔야 하는지에 대해 소개합니다.컬럼값 타입을 확인하려면 isintance 함수를 알아야 합니다.파이썬 타입 확인 함수 isintance 파이썬에서 데이터타입을 boolean으로 판단하려면 isinstance()함수 사용합니다. isintance는 파이썬의 내장함수라서 따로 설치할 라이브러리가 없습니다. 파이썬이 설치되어 있다면 바로 쓸 수 있습니다. isinstance()는 object(변수나 객체), classinfo(타..
판다스 시트네임 확인하기빅데이터로 넘어가면 엑셀이나 csv 파일을 불러와서 뭔가 하기가 꺼려집니다. 너무 방대하거든요.특히, 일부 데이터만 필요한 경우, 다 불러올 필요가 없는 경우나 read_excel이나 read_csv를 사용하면 디폴트로 첫번째 시트만 불러와지기 때문에 다른 시트를 가져오려면 해당 시트 네임을 알아야 합니다.파이썬으로 시트 네임만 가져오는 방법을 알려드립니다.먼저, ExcelFile()을 이용해 엑셀 객체를 만들어줍니다.import pandas as pd # Excel 파일 경로 file_path = 'your_excel_file.xlsx' # Excel 파일 객체 생성 excel_file = pd.ExcelFile(file_path) sheet_names를 이용해 시트 확인을..