데이터 변환이란?빅데이터 분석과정 중에서 데이터 변환은 정제된 데이터를 분석 목적에 맞게 만드는 과정을 말합니다. 그래서 데이터 변환 단계에서는 변수를 생성하거나 데이터 선택해 필요없는 데이터는 정리하면서 데이터 차원을 축소하는 작업을 하게 됩니다.R을 통해서 데이터 변환 작업을 어떻게 하는지 알아보도록 하겠습니다.데이터 타입변경데이터의 타입 정리가 되어있지 않으면 머신러닝이나 딥러닝을 할때 방해가 될 수 있습니다. 반드시 타입변경을 해주어야 합니다. 데이터 타입 변경에 대한 내용은 아래 포스팅을 참고하시기 바랍니다. [R] 데이터 타입 변경하기R에서 데이터 타입 변경하기R에서 데이터 타입을 변경하는 방법입니다. 데이터 분석 과정에서 데이터 타입을 올바르게 지정하는 것은 매우 중요합니다. 데이터 타입..
R 결측치 처리데이터 분석에서 중요한 단계 중 하나인 데이터 정제 및 전처리에 대해 얘기해보려고 합니다. 데이터 정제는 원데이터를 분석하기 쉬운 데이터로 만드는 과정으로, 데이터의 품질을 높이고 분석 결과의 신뢰성을 보장합니다. 이 중 결측치 처리에 대해서 보겠습니다.결측치 확인먼저, 결측치를 확인하는 방법을 알아봅시다. is.na() 함수를 사용하면 데이터 프레임 내의 결측치를 확인할 수 있습니다. data를 만들어서 진행해보겠습니다.data 결측치 제거하기1. 결측치가 포함된 행 전체 제거na.omit() 함수를 이용하면 결측치가 포함된 행을 전체 제거합니다.clean_data 2. 결측치가 없는 행만 선택complete.cases() 함수를 사용해 결측치가 없는 행만 선택할 수도 있습니다. na.o..
R에서 데이터 타입 변경하기R에서 데이터 타입을 변경하는 방법입니다. 데이터 분석 과정에서 데이터 타입을 올바르게 지정하는 것은 매우 중요합니다. 데이터 타입이 올바르지 않으면 원하는 분석 결과를 얻기 어렵기 때문이죠. 그럼, R에서 데이터 타입을 변경하는 다양한 방법을 함께 살펴보겠습니다.1. 기본 데이터 타입R에는 여러 가지 기본 데이터 타입이 있습니다. 주요 데이터 타입은 다음과 같습니다:numeric: 실수형 데이터 (예: 1.5, 2.7)integer: 정수형 데이터 (예: 1, 2, 3)character: 문자열 데이터 (예: "a", "hello")factor: 범주형 데이터 (예: "male", "female")logical: 논리형 데이터 (예: TRUE, FALSE)2. 데이터 타입 확..
R로 데이터 불러오기와 저장하기이번 포스팅에서는 R을 사용해 데이터를 불러오고 저장하는 방법에 대해 이야기해보려고 합니다. 데이터 분석의 첫 걸음은 데이터를 준비하는 것에서 시작하죠. R에서는 다양한 형식의 데이터를 쉽게 불러오고, 분석 후 저장할 수 있습니다. 엑셀파일,html, 데이터베이스, rds 파일 4가지에 대해서 저장, 불러오는 방법에 대해 하나씩 살펴보겠습니다. 데이터 불러오기1. CSV 파일 불러오기CSV(Comma Separated Values) 파일은 가벼워서 흔히 사용하는 데이터 파일 형식 중 하나입니다. R에서는 read.csv() 함수를 사용해 CSV 파일을 쉽게 불러올 수 있습니다. 예를 들어, "data.csv"라는 파일을 불러오려면 다음과 같이 합니다.data read.csv..
R로 ROC 곡선 분석하기R에서도 머신러닝이 되는만큼 모델 평가 중 하나인 ROC 곡선 분석을 할 수 있습니다. pROC 패키지로 가능한데요. 다만, pROC패키지는 2진 분류만 가능합니다.예제로 간단하게 iris 데이터를 이진분류를 한 후 ROC 곡선으로 평가해보겠습니다.iris를 이용한 ROC 곡선 평가먼저, iris는 세가지 클래스(setosa,versicolor,virginica)를 포함하고 있으므로, 두개의 클래스로 변환후 이진 분류를 수행합니다. roc는 0,1로 된 범주형 변수로 되어야 하므로 맞게 변환합니다. # 필요한 패키지 로드 library(pROC) # versicolor와 virginica만 선택 iris_binary versicolor,virginica 으로 나누..
R로 웹 스크래핑하기R을 사용해 웹 스크래핑을 하려면 rvest라는 패키지를 사용합니다. rvest는 HTML 문서를 파싱하고 데이터를 추출하는 패키지로 간편하게 웹 스크래핑을 할 수 있습니다.R을 활용한 간단한 웹 스크래핑을 단계별로 보여드리겠습니다.1. 패키지 설치 및 로드R은 패키지 설치가 잘 안될 수도 있는데 혹시 패키지 설치가 잘 안된다면 아래 포스팅에서 해결을 해보시기 바랍니다. R studio 패키지 설치 오류 모음R은 패키지 설치가 너무 어렵다R은 깔끔하게 코드를 작성할 수 있어 좋은데 호환성이 너무 안좋습니다. 조금만 엇나가면 바로 안됩니다. 힘드네요. 특히 패키지 설치로 애를 아주 많이 먹었습니seong6496.tistory.com rvest를 설치한후 불러옵니다.install.pac..
빅데이터 분석의 중요성안녕하세요, 여러분! 오늘은 왜 우리가 빅데이터 분석에 주목해야 하는지에 대해 이야기해보려고 합니다. 빅데이터 분석은 단순히 최신 유행어가 아닙니다. 실제로 우리 삶의 여러 측면을 변화시키고, 혁신을 주도하며, 더 나은 결정을 내리는 데 필수적인 역할을 하고 있습니다. 그럼 빅데이터 분석의 중요성에 대해 함께 알아볼까요? 1. 더 나은 의사 결정빅데이터 분석의 가장 큰 장점 중 하나는 데이터 기반의 의사 결정을 가능하다는 점입니다. 예전에는 경험과 직감에 의존하여 결정을 내리는 결정을 할 수밖에 없었지만 데이터를 다루는 기술이 좋아지면서 이제는 데이터를 통해 더 객관적이고 정확한 결정을 내릴 수 있습니다.예를 들어, 기업은 고객의 구매 패턴을 분석하여 재고 관리를 최적화하고, 마케팅..
빅데이터란?오늘은 우리가 자주 듣게 되는 "빅데이터"라는 용어에 대해 이야기해보려고 합니다. 4차혁명이 시작되면서 빅데이터란 용어가 급부상하고 있는데요. 빅데이터가 정확히 무엇을 의미하는지, 그리고 왜 중요한지 알아보겠습니다.Pixabay로부터 입수된 Gerd Altmann님의 이미지 입니다. 빅데이터 정의빅데이터, 말만 들어도 왠지 거대한 무언가를 떠올리게 되지 않나요?빅데이터란 말 그대로 엄청나게 큰 데이터셋을 뜻합니다. 하지만 단순히 데이터가 크다고 빅데이터의 진정한 의미로 받아들이지 않습니다.기본적으로 빅데이터는 다음의 3V로 설명될 수 있습니다. 미국의 IT 자문기관인 가트너그룹에서 말한 3V는 다음과 같습니다.Volume (양): 빅데이터의 첫 번째 특징은 방대한 양입니다. 매일 전 세계에서 ..
R은 패키지 설치가 너무 어렵다R은 깔끔하게 코드를 작성할 수 있어 좋은데 호환성이 너무 안좋습니다. 조금만 엇나가면 바로 안됩니다. 힘드네요. 특히 패키지 설치로 애를 아주 많이 먹었습니다.보통 R이 한글 인식이 안되는데 윈도우 계정을 한글로 하는 경우가 대부분인데 그것 말고도 여러 문제가 있습니다.쓰기 권한이 없다다음과 같은 오류가 날 수 있습니다.해당 경로가 쓰기 형식이 아니므로 library폴더에 쓰기권한을 주라는 얘기입니다. 즉, 쓰기 권한의 문제입니다.실제 폴더 속성에 가보면 쓰기허용이 체크되어 있지 않습니다.하지만 관리자권한은 쓰기 권한이 되어 있습니다. 그렇다면 Rstutio를 관리자 권한으로 실행하면 된다는 얘기니 관리자 권한으로 일단 실행을 합니다.Rstudio 바로가기에서 다음과 같이..
독립표본 t검정독립표본 t검정은 두 개의 독립된 모집단의 평균을 비교할 때 사용하는 검정방법입니다.예를 들어, 성별에 따라 공부 성취도가 다른지를 검정한다고 할 때 서로 독립적인 남,여에 대해서 통계적 검정을 하기 위해 독립표본 t검정을 사용합니다. 이때, '성별'이 독립변수, 종속변수는 '공부 성취도'가 됩니다. 두 가지 교육 방법(A,B)에 대한 학생들의 시험 성적에 미치는 영향을 통계적으로 검정해보는 예제입니다.독립표본 t검정을 수행하려면 등분산검정 시행후 수행하게 됩니다.일반적으로 등분산검정은 F-test를 시행하는데 R에서 F-test 등분산검정 메쏘드는 다음과 같습니다. var.test(x,y,alternative) : 모집단1,모집단2 적용시var.test(formula,data,altern..
R을 이용한 대응표본 t-검정대응표본 t검정은 단일 모집단에서 두 개의 표본집단을 만들었을때, 그 두개에 대한 평균의 차이를 비교합니다.예를 들어 수면약을 만들었을 때 이 수면약이 효과가 있는지 확인하고 싶어 치료전후 결과를 비교합니다. R을 이용해 대응표본 t검정을 실시하려면 t_test() 메쏘드를 사용해야 합니다.여기서 t_test() 메쏘드에 대한 파라미터를 잠깐 살펴보겠습니다. t.test(x,y,alternate=c("two_sided","less","greater"),paired=FALSE,m=0)x : X의 관측값(수치형 벡터)y : Y의 관측값(수치형 벡터)alternative양측검정 : two-sided단측검정 : less($\mu_x \mu_y$ ), $\mu_x$ 는 X의 평균, $..
가입 안한 넷플릭스에서 가입 축하 메일이 왔다깜짝 놀랐다. 가입하지도 않은 넷플릭스에서 가입을 축하한다며 메일이 왔다.처음엔 해킹당했다고 생각하고 내 결제내역이 추가된 곳을 찾아봤는데 다행히 아니다. 그렇다면 누군가 내 메일로 가입한 걸까?만약 그런거면 왜 남의 메일로 자기 개인정보를 남기면서 넷플릭스 가입을 하는 건지 이해가 안간다. 덕분에 나는 한번도 가입한적 없어서 유효한 1달 무료권을 날려버렸다. 하하하... 참 고마운 자식.... 다른 메일로 되려나 안써봐서 모르겠다. 귀찮아서 일단 가만 내비뒀었는데 이 와중에 알림메일을 왜 해놓는건지 넷플릭스에서 매일같이 추천 메일이 온다. 수신거부를 하면 그만이지만 내 메일을 남이 도용하고 있는데 왜 내가 수신거부로 끝내고 있는 상황이라니 말도 안된다. 로그..
내 카드 조회도요타에서 왠 이상한 메일이 오면서 내 카드 조회를 해봐야겠다는 생각이 들었다. 왜 한국에 살고 있는 나에게 일본에서 카드 결제 공지를 하는가?당연히 잘못 왔을거라고 생각하긴 하지만 너무 불안하다. 내 개인정보가 혹시 외국으로 빠져나간건 아닌가 의심스럽다.구글에서 검색을 해도 일본어 천지...아무도 이런 메일을 받아본적이 없는건지 블로그가 아예 없다.실제로 있는 카드는 맞는 것 같다.네이버 블로그에서 관련글이 하나 있는데 도요타 ts cubic 카드에서 스팸같이 왔다고 한다.https://blog.naver.com/for-infinity/222335343928이곳에서는 실제로 URL을 눌러달라는 메일이 왔다고 한다.스팸이면 url을 줄텐데 그것도 아니다. 진짜 카드 값 공지다.하.. 불안한 ..
내 카드, 계좌 조회하는 앱어카운트인포는 금융결제원에서 운영하는 계좌정보통합관리앱이다.내 계좌, 보험, 카드, 대출 등을 조회할 수 있는 앱이다.요즘은 은행에서 신청하면 마이데이터라는 이름으로 내 계좌, 카드, 대출을 한꺼번에 모아볼 수 있게 해준다. 보험쪽은 굿리치나 보닥에서도 해준다.그런데 은행이나 보험쪽은 이익을 위하는 회사이므로 광고나 부가서비스를 넣어준다. 부가서비스는 부가서비스대로 누리면 되지만 진짜 조회목적이라면 군더더기가 없고 위아래 뜨는 광고로 헷갈릴 없는 어카운트인포가 가장 나은 것 같다.안드로이드, 아이폰 모두 가능하다.현재 나는 안드로이드라서 안드로이드 위주로 설명!어카운트인포 사용하기카드 조회를 하려면 플레이 스토어에서 어카운트인포를 먼저 설치해주어야 한다.아래 링크는 플레이스토어..
워드 단락기호워드에서는 엔터를 치면 아래와 같이 단락기호로 표시가 나옵니다.글자만 할 때는 크게 거슬리지 않는데 표나 그림을 하게 되면 많이 거슬리게 됩니다.단락기호로 인해 굉장히 난잡해보입니다.단락기호 없애기단락기호를 없애는 방법은 아주 간단합니다. 먼저, 파일-옵션-표시에 들어갑니다.빨간박스로 친 단락기호를 해제해줍니다.옵션을 나오면 단락기호가 없어진 것을 확인할 수 있습니다. 함께보면 좋은글MS 워드 자주쓰는 표 등록하기워드 빈칸 기호 체크박스 표시워드 수식 삽입 단축키