Numpy 차원 이해하기일전에 Numpy 축에 관한 포스팅을 했었는데 그보다 더 개념적인 얘기를 할까 합니다.Numpy는 다차원 배열을 다루는만큼 수치계산을 한꺼번에 처리할 수 있도록 도와주는 효율적인 라이브러리입니다. Numpy는 다차원 배열을 차원으로 분류했는데 데이터 구조를 표현하는데 있어서 중요한 역할을 합니다.Numpy 차원 정의차원의 종류Numpy에서 차원은 축이라고도 불리기도 합니다. 우리는 보통 3차원을 쓰기 때문에 그렇기도 한데요. 엄밀히 따지면 차원과 축은 포커싱된 부분이 다릅니다. 차원은 깊이에 더 포커싱이 되어있습니다. 차원은 배열의 층이 얼마나 되는지를 정의합니다. 축은 데이터가 나아가는 방향에 초점이 맞춰져 있습니다. 차원내에서 데이터를 어떻게 다룰것인지를 정의합니다.다시말해, ..
빅데이터 분석을 위한 파이썬 목차블로그를 대학원 때 코딩이 너무 헷갈려서 지식 저장공간으로 사용하려고 시작했습니다. 글을 정리하다보니 정말 많은 글을 썼다는 걸 새삼 느낍니다. 한때 블로그가 잘 되서 수익화를 어떻게 할 수 있을지 공부하다보니 현재 제가 하고 있는 방법은 온전히 블로그로 수익화하기에는 거리가 멀다는 걸 알게 되었고 이 글을 볼 사람들보다는 제가 보기 편하게 만들어서 두서도 없었습니다. 그래서 그나마 보기 편하게 만들려면 아예 이렇게 목차로 만들어보면 어떨까 해서 지금까지 공부하고 모아논 것을 버리기는 아까워서 지금까지 쓴 글 중에 주세에 맞는 것만 모아봤습니다.대학원 다닐때는 지식 위주의 글을 열심히 쓴 것 같은데 졸업 이후로는 지식보다는 사람들이 볼만한 글에 초점을 맞추다보니 뒷내용이 ..
빅데이터 분석 생태계란 무엇인가?빅데이터 분석 생태계는 데이터를 수집하고 저장한 후, 이를 처리하고 분석해 유의미한 인사이트를 도출하는 일련의 기술, 도구, 플랫폼, 프로세스를 아우르는 개념입니다. 오늘날 다양한 산업 분야에서 빅데이터는 경쟁 우위를 창출하는 중요한 자산으로 자리 잡고 있으며, 이를 효과적으로 활용하기 위한 생태계도 빠르게 발전하고 있습니다.빅데이터 분석 생태계의 주요 구성 요소빅데이터 분석 생태계는 크게 5가지 핵심 요소로 나눌 수 있습니다. 데이터 수집, 데이터 저장, 데이터 처리, 데이터 분석 및 시각화, 데이터 관리 및 보안. 각 요소는 빅데이터 분석 과정에서 중요한 역할을 합니다. 자신이 빅데이터 분석을 다루고 있다면 프로젝트시 지금 어떤 역할을 하는지 아는 것이 중요합니다.1...
빅데이터 분석의 흐름빅데이터 분석은 방대한 양의 데이터를 처리하고 이를 기반으로 유용한 인사이트를 도출하는 과정을 의미합니다. 이러한 빅데이터 분석의 흐름은 데이터를 수집하고 처리한 뒤 분석하여 의사결정에 활용하는 일련의 단계로 나눌 수 있습니다. 이번 포스팅에서는 빅데이터 분석의 주요 단계와 각 과정에서의 핵심 요소들을 살펴보겠습니다.업무 이해먼저 업무목적에 대해 파악을 해야합니다. 데이터를 이용해 얻고자 하는 게 무엇인지 명확하게 결정할수록 분석 작업에서 효율적으로 일을 진척시킬 수 있습니다.핵심포인트 : 업무이해, 업무목적파악, 상황파악, 데이터마이닝 목표 설정, 프로젝트 계획수립데이터 수집데이터 수집은 다양한 소스에서 데이터를 모으는 과정입니다. 여기에는 웹 로그, 소셜 미디어, 센서 데이터, 트..
이진분류 모델 종류머신 러닝에서 가장 쉬운 문제인 이진 분류를 할 때 사용하는 모델을 정리해봤습니다. 이진 분류를 수행할 수 있는 모델은 다양합니다. 각 모델은 데이터와 문제의 특성에 따라 장단점이 있으며, 성능은 데이터의 분포와 특성에 따라 달라질 수 있습니다. 다음은 이진 분류에 사용될 수 있는 주요 머신러닝 모델과 기법들입니다.1. 서포트 벡터 머신 (Support Vector Machine, SVM)설명: SVM은 데이터 포인트를 고차원 공간으로 매핑하여 클래스 간의 최대 마진을 찾는 모델입니다. 비선형 분류를 위해 커널 함수를 사용할 수 있습니다.장점: 강력한 이진 분류 성능, 고차원 데이터에 잘 작동.단점: 큰 데이터셋에 대해 훈련이 느릴 수 있음.from sklearn.svm import S..
R로 ROC 곡선 분석하기R에서도 머신러닝이 되는만큼 모델 평가 중 하나인 ROC 곡선 분석을 할 수 있습니다. pROC 패키지로 가능한데요. 다만, pROC패키지는 2진 분류만 가능합니다.예제로 간단하게 iris 데이터를 이진분류를 한 후 ROC 곡선으로 평가해보겠습니다.iris를 이용한 ROC 곡선 평가먼저, iris는 세가지 클래스(setosa,versicolor,virginica)를 포함하고 있으므로, 두개의 클래스로 변환후 이진 분류를 수행합니다. roc는 0,1로 된 범주형 변수로 되어야 하므로 맞게 변환합니다. # 필요한 패키지 로드 library(pROC) # versicolor와 virginica만 선택 iris_binary versicolor,virginica 으로 나누..
비슷한 이미지 만드는 생성 AI 사이트 비슷한 이미지를 만들고 싶은데 직접 그리기는 어렵고 불편해서 요즘 생성 AI로 안되는 게 없는 시대이니만큼 가능한지 알아보았습니다. 역시나 있군요! 내 그림과 비슷한 이미지를 만들어주는 사이트를 소개합니다. Clipdrop 재스퍼 AI에서 운영하는 Clipdrop이라는 사이트입니다. 재스퍼는 챗GPT가 나오기 전부터 마케팅을 위한 인공지능을 구축한 회사로 유명한데요. 그래서 그런지 이미지편집 Ai 마케팅을 위한 툴 성능이 좋습니다. 비슷한 이미지 만드는 것도 마케팅 측면에서 중요한 요소인데 이걸 자동으로 만들어주니 작업시간을 아껴줍니다. 방법도 굉장히 간단합니다. Reimagine XL 툴을 선택하면 비슷한 이미지를 만들어주는데 가지고 있는 파일을 드래그앤드롭만 하..
숫자형 데이터 스케일링하기 머신러닝이나 딥러닝으로 빅데이터 분석을 하기전에 필수로 해야하는 것이 데이터값 맞추는 작업입니다. 숫자형 데이터인 경우 숫자가 중구난방이 되면 안되기 모델 정확도가 많이 떨어지기 때문에 컬러마다 범위가 같게 숫자로 맞춰주어야 합니다. 모두 비율로서 맞춰서 모델 예측력을 높입니다. 스케일링 방법 스케일링 방법에는 Min-Max Scaling, Standard Scaling, Robust Scaling이 주요한 방법입니다. Min-Max Scaling 개념: 데이터의 범위를 최솟값을 0, 최댓값을 1로 변환하여 모든 데이터값이 0~1사이의 값으로 바꿔줍니다. 수식: $$X_{\text{scaled}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - ..
인공지능은 현대 사회에서 가장 빠르게 발전하는 기술 중 하나로, 우리의 생활과 업무에 혁명적인 변화를 가져오고 있습니다. 그리고 그 핵심적인 역할을 맡고 있는 것이 바로 "머신러닝(Machine Learning)"입니다. 머신러닝은 알고리즘을 구축하는 컴퓨터 과학의 하위 분야로 최근에는 인공지능의 핵심기술로 자리잡고 있습니다. 요즘은 머신러닝으로 할 수 없는 것들도 많아지고 있는 추세지만 기본적인 베이스가 되고 있는건 변함 없습니다. 컴퓨터가 패턴을 학습하여 스스로 데이터분석과 문제를 해결하는 능력을 갖추게 된다면 얼마나 편해질까요? 데이터를 컴퓨터에게 던져주면 알아서 분석도 해주고 ppt도 만들어주고 문서도 만들어줄겁니다. 여태까지 컴퓨터로 했던 모든 것들은 이제 말이나 타이핑을 통해서 해달라고 요청하..
MNIST를 이용한 다중분류기 구현 방법입니다. 다중분류기는 여러 개의 클래스로 구별하기 위해서 만드는데 SGD, 랜덤 포레스트 ,나이브 베이즈 같은 분류기로 직접 처리가 가능합니다.다중 분류기를 사용해 직접 사용하기 전에 이진 분류기인 서포트 벡터 머신 분류기를 이용해 다중 클래스로 분류하는 방법을 소개할까 합니다. 원리를 설명하기에 좋고 전략을 세워가는 재미(?)를 아시게 되지 않을까 싶습니다. One-versus-the-rest(OvR)OvR은 숫자 하나 대 나머지를 비교하는 전략입니다. One-versus-all(OvA)라고도 합니다.숫자별로 숫자 하나만 구별하는 이진 분류기를 만들어서 점수를 매깁니다. 그럼 10개의 점수가 나오는데 이중에서 가장 높은 점수가 나오는 것을 선택하는 방식입니다. M..