RMySQL을 이용한 R과 MySQL 연동MySQL은 데이터베이스를 아는 사람이라면 한번쯤은 써봤을 데이터베이스관리시스템(RDBMS)입니다. 대량의 데이터를 효율적으로 저장하고 관리하는데 특화된 시스템입니다. 데이터는 DB파일로 저장됩니다.Rstudio도 데이터를 다루는 프로그램이어서 MySql과의 연동이 됩니다. Mysql과의 연동만으로도 데이터를 분석, 관리하기 좋은 환경이 되기 때문에 필히 알고 있어야 합니다. R의 패키지인 RMySQL을 통해서 MySQL 와 연동을 해보겠습니다. RMySQL 패키지 설치하기설치는 간단합니다.install.packges("RMySQL")library(RMySQL)RMySQL을 사용하면 데이터베이스의 주요기능인 DDL, DML을 할 수 있습니다. DDL,DML의 관..
SQL 기초 정리 DDL, DML, DCL 알아보기데이터베이스를 다루다 보면 꼭 알아야 할 개념 중 하나가 바로 SQL(Structured Query Language)입니다. SQL은 데이터베이스 관리 시스템(DBMS)과 상호 작용할 수 있게 해주는 언어로, 데이터를 정의하고, 조작하며, 제어할 수 있는 다양한 명령어들을 제공합니다. 이번 글에서는 SQL의 세 가지 주요 범주인 DDL, DML, DCL에 대해 알아보겠습니다. 1. DDL (Data Definition Language) - 데이터 정의 언어DDL은 데이터베이스의 구조를 정의하는 데 사용되는 명령어들의 집합입니다. 테이블이나 인덱스, 스키마 등의 데이터베이스 객체를 생성하거나 수정, 삭제하는 작업을 수행합니다. 즉, 데이터베이스의 골격을 ..
데이터베이스(DB) key,id 종류데이터베이스에서 key, id, primary key 등의 개념은 매우 중요하며, 각각은 데이터베이스의 무결성, 성능, 효율적인 데이터 관리에 중요한 역할을 합니다. 이 개념들을 하나씩 설명해드리겠습니다.1. Key키(Key)는 데이터베이스에서 특정 레코드를 고유하게 식별하는 데 사용되는 하나 이상의 속성을 말합니다. 키는 데이터 무결성을 보장하고, 데이터를 검색하거나 조작하는 데 사용됩니다.종류Primary Key (기본 키): 테이블에서 각 행을 고유하게 식별하는 열(또는 열들의 조합)입니다. 하나의 테이블에 하나의 Primary Key만 존재할 수 있으며, 이 키는 NULL 값을 가질 수 없습니다.Foreign Key (외래 키): 다른 테이블의 Primary K..
현대카드 해외주소 등록하기아마존이나 다른 해외 사이트에서 직구를 하게 되면 billing address와 shipping address로 나눠져 있는 걸 볼 수 있습니다.billing address : 카드사에 등록된 청구지 주소shipping address : 배송주소왜 주소를 또 쓰지? 이런 생각을 하실 수 있는데요.일부 쇼핑몰(아마존)에서는 카드사에 등록된 주소와 내가 등록한 billing address가 일치해야만 카드 구매 승인을 해줍니다. billing address가 다르면 자동으로 구매 취소해버려서 결제가 안되는 일이 발생합니다. 한국에서는 이런 시스템이 없기 때문에 배송주소만 필요한데 해외는 그렇지 않은 쇼핑몰이 있기에 직구를 해야한다면 사용할 카드의 영문 주소 등록을 해주어야 합니다. ..
R에서 리스트 벡터로 변환하기리스트도 데이터타입 변경처럼 as_*로 하면 되것같다고 생각하시는 분들 많으실 겁니다. 그런데 안타깝게도 as로 되지 않습니다.리스트는 리스트를 풀어주는 함수인 unlist() 함수를 통해 변경할 수 있습니다.몇가지 예시를 통해 확인해보시기 바랍니다.기본 리스트를 벡터로 변환하기# 리스트 생성my_list 혼합된 데이터 타입을 가진 리스트인 경우# 혼합된 데이터 타입을 가진 리스트 생성my_list 보시다시피 데이터 타입이 섞여있으면 모두 문자열로 변환됩니다.리스트가 중첩된 경우리스트 안에 리스트가 있는 경우 unlist() 하나로 모든 리스트가 다 풀려버립니다.# 중첩된 리스트 생성my_list 이름이 설정되어 있는 리스트인 경우# 이름이 있는 리스트 생성my_list 이름..
ggplot2를 이용한 데이터 시각화R의 강력한 시각화 패키지인 ggplot2에 대해 살펴볼까 합니다. ggplot2는 Hadley Wickham이 개발한 R 패키지로, "Grammer of Graphics"에 기반한 데이터 시각화 도구로 직관적으로 데이터 시각화를 구성하게 해줍니다.기본 구조ggplot2의 기본 구조는 다음과 같습니다.ggplot(data, aes(x,y)) : 데이터를 설정하고, x축과 y축에 매핑geom_*(): 그래프 형태 지정산점도 : geom_point()선 그래프 : geom_line()막대그래프 : geom_bar()히스토그램 : geom_histogram()상자 그림 : geom_boxplot()패싯(Facet) : facet_*각 그래프는 직접 보는게 가장 낫겠죠? mt..
새로운 열 추가 방법R을 이용한 새로운 열 추가 방법이 여러가지가 있어서 정리합니다.$ 연산자 사용가장 간단하게 할 수 있는 $를 이용하는 방법입니다.# 데이터프레임 생성df 인덱스를 이용한 방법[]에 새로운 인덱스(컬럼명)을 넣어서 추가합니다.# 데이터프레임 생성df cbind() 사용bind는 묶는다는 뜻이 있습니다. cbind() 는 '컬럼으로 묶는다'는 뜻으로 데이터프레임에 컬럼을 추가로 묶어 넣는다는 의미로 사용하고 있습니다.# 데이터프레임 생성df mutate() 함수 사용(dplyr)dplyr 에 내장된 mutate()를 이용하는 방법입니다.dplyr은 데이터프레임 조작시 많이 쓰는 툴인데요. 위의 3가지 방법처럼 R로 할 수 있는 걸 굳이 dplyr를 불러와 해야할까? 라는 의문이 들..
dplyr 패키지를 이용한 데이터 조작안녕하세요~ 이번 포스팅에서는 R의 패키지인 dplyr에 대해 이야기해보려고 합니다. dplyr은 데이터를 효율적으로 다루기 위해 만들어진 패키지로, 간결하고 쉬운 코드를 작성하는데 유용합니다. 특히, 파이프(%>%)를 이용한 코드가 가능하기 때문에 한번에 데이터 조작을 할 수 있습니다. 그럼 주요 기능들을 살펴보겠습니다.dplyr 패키지 소개dplyr은 Hadley Wickham이 개발한 패키지로, 데이터 프레임을 조작하는데 최적화되어 있습니다. 패키지 없이 R로 다 해결하려면 코드양이 많아지지만 dplyr 를 사용하면 코드량을 획기적으로 줄일 수 있습니다.주요기능은 다음과 같습니다.filter() : 행 필터링select() : 열 선택mutate() : 새로운 ..
데이터 변환이란?빅데이터 분석과정 중에서 데이터 변환은 정제된 데이터를 분석 목적에 맞게 만드는 과정을 말합니다. 그래서 데이터 변환 단계에서는 변수를 생성하거나 데이터 선택해 필요없는 데이터는 정리하면서 데이터 차원을 축소하는 작업을 하게 됩니다.R을 통해서 데이터 변환 작업을 어떻게 하는지 알아보도록 하겠습니다.데이터 타입변경데이터의 타입 정리가 되어있지 않으면 머신러닝이나 딥러닝을 할때 방해가 될 수 있습니다. 반드시 타입변경을 해주어야 합니다. 데이터 타입 변경에 대한 내용은 아래 포스팅을 참고하시기 바랍니다. [R] 데이터 타입 변경하기R에서 데이터 타입 변경하기R에서 데이터 타입을 변경하는 방법입니다. 데이터 분석 과정에서 데이터 타입을 올바르게 지정하는 것은 매우 중요합니다. 데이터 타입..
R 결측치 처리데이터 분석에서 중요한 단계 중 하나인 데이터 정제 및 전처리에 대해 얘기해보려고 합니다. 데이터 정제는 원데이터를 분석하기 쉬운 데이터로 만드는 과정으로, 데이터의 품질을 높이고 분석 결과의 신뢰성을 보장합니다. 이 중 결측치 처리에 대해서 보겠습니다.결측치 확인먼저, 결측치를 확인하는 방법을 알아봅시다. is.na() 함수를 사용하면 데이터 프레임 내의 결측치를 확인할 수 있습니다. data를 만들어서 진행해보겠습니다.data 결측치 제거하기1. 결측치가 포함된 행 전체 제거na.omit() 함수를 이용하면 결측치가 포함된 행을 전체 제거합니다.clean_data 2. 결측치가 없는 행만 선택complete.cases() 함수를 사용해 결측치가 없는 행만 선택할 수도 있습니다. na.o..
R에서 데이터 타입 변경하기R에서 데이터 타입을 변경하는 방법입니다. 데이터 분석 과정에서 데이터 타입을 올바르게 지정하는 것은 매우 중요합니다. 데이터 타입이 올바르지 않으면 원하는 분석 결과를 얻기 어렵기 때문이죠. 그럼, R에서 데이터 타입을 변경하는 다양한 방법을 함께 살펴보겠습니다.1. 기본 데이터 타입R에는 여러 가지 기본 데이터 타입이 있습니다. 주요 데이터 타입은 다음과 같습니다:numeric: 실수형 데이터 (예: 1.5, 2.7)integer: 정수형 데이터 (예: 1, 2, 3)character: 문자열 데이터 (예: "a", "hello")factor: 범주형 데이터 (예: "male", "female")logical: 논리형 데이터 (예: TRUE, FALSE)2. 데이터 타입 확..
R로 데이터 불러오기와 저장하기이번 포스팅에서는 R을 사용해 데이터를 불러오고 저장하는 방법에 대해 이야기해보려고 합니다. 데이터 분석의 첫 걸음은 데이터를 준비하는 것에서 시작하죠. R에서는 다양한 형식의 데이터를 쉽게 불러오고, 분석 후 저장할 수 있습니다. 엑셀파일,html, 데이터베이스, rds 파일 4가지에 대해서 저장, 불러오는 방법에 대해 하나씩 살펴보겠습니다. 데이터 불러오기1. CSV 파일 불러오기CSV(Comma Separated Values) 파일은 가벼워서 흔히 사용하는 데이터 파일 형식 중 하나입니다. R에서는 read.csv() 함수를 사용해 CSV 파일을 쉽게 불러올 수 있습니다. 예를 들어, "data.csv"라는 파일을 불러오려면 다음과 같이 합니다.data read.csv..
R로 ROC 곡선 분석하기R에서도 머신러닝이 되는만큼 모델 평가 중 하나인 ROC 곡선 분석을 할 수 있습니다. pROC 패키지로 가능한데요. 다만, pROC패키지는 2진 분류만 가능합니다.예제로 간단하게 iris 데이터를 이진분류를 한 후 ROC 곡선으로 평가해보겠습니다.iris를 이용한 ROC 곡선 평가먼저, iris는 세가지 클래스(setosa,versicolor,virginica)를 포함하고 있으므로, 두개의 클래스로 변환후 이진 분류를 수행합니다. roc는 0,1로 된 범주형 변수로 되어야 하므로 맞게 변환합니다. # 필요한 패키지 로드 library(pROC) # versicolor와 virginica만 선택 iris_binary versicolor,virginica 으로 나누..
R로 웹 스크래핑하기R을 사용해 웹 스크래핑을 하려면 rvest라는 패키지를 사용합니다. rvest는 HTML 문서를 파싱하고 데이터를 추출하는 패키지로 간편하게 웹 스크래핑을 할 수 있습니다.R을 활용한 간단한 웹 스크래핑을 단계별로 보여드리겠습니다.1. 패키지 설치 및 로드R은 패키지 설치가 잘 안될 수도 있는데 혹시 패키지 설치가 잘 안된다면 아래 포스팅에서 해결을 해보시기 바랍니다. R studio 패키지 설치 오류 모음R은 패키지 설치가 너무 어렵다R은 깔끔하게 코드를 작성할 수 있어 좋은데 호환성이 너무 안좋습니다. 조금만 엇나가면 바로 안됩니다. 힘드네요. 특히 패키지 설치로 애를 아주 많이 먹었습니seong6496.tistory.com rvest를 설치한후 불러옵니다.install.pac..
빅데이터 분석의 중요성안녕하세요, 여러분! 오늘은 왜 우리가 빅데이터 분석에 주목해야 하는지에 대해 이야기해보려고 합니다. 빅데이터 분석은 단순히 최신 유행어가 아닙니다. 실제로 우리 삶의 여러 측면을 변화시키고, 혁신을 주도하며, 더 나은 결정을 내리는 데 필수적인 역할을 하고 있습니다. 그럼 빅데이터 분석의 중요성에 대해 함께 알아볼까요? 1. 더 나은 의사 결정빅데이터 분석의 가장 큰 장점 중 하나는 데이터 기반의 의사 결정을 가능하다는 점입니다. 예전에는 경험과 직감에 의존하여 결정을 내리는 결정을 할 수밖에 없었지만 데이터를 다루는 기술이 좋아지면서 이제는 데이터를 통해 더 객관적이고 정확한 결정을 내릴 수 있습니다.예를 들어, 기업은 고객의 구매 패턴을 분석하여 재고 관리를 최적화하고, 마케팅..