빅데이터 분석을 위한 파이썬 목차블로그를 대학원 때 코딩이 너무 헷갈려서 지식 저장공간으로 사용하려고 시작했습니다. 글을 정리하다보니 정말 많은 글을 썼다는 걸 새삼 느낍니다. 한때 블로그가 잘 되서 수익화를 어떻게 할 수 있을지 공부하다보니 현재 제가 하고 있는 방법은 온전히 블로그로 수익화하기에는 거리가 멀다는 걸 알게 되었고 이 글을 볼 사람들보다는 제가 보기 편하게 만들어서 두서도 없었습니다. 그래서 그나마 보기 편하게 만들려면 아예 이렇게 목차로 만들어보면 어떨까 해서 지금까지 공부하고 모아논 것을 버리기는 아까워서 지금까지 쓴 글 중에 주세에 맞는 것만 모아봤습니다.대학원 다닐때는 지식 위주의 글을 열심히 쓴 것 같은데 졸업 이후로는 지식보다는 사람들이 볼만한 글에 초점을 맞추다보니 뒷내용이 ..
빅데이터 분석 생태계란 무엇인가?빅데이터 분석 생태계는 데이터를 수집하고 저장한 후, 이를 처리하고 분석해 유의미한 인사이트를 도출하는 일련의 기술, 도구, 플랫폼, 프로세스를 아우르는 개념입니다. 오늘날 다양한 산업 분야에서 빅데이터는 경쟁 우위를 창출하는 중요한 자산으로 자리 잡고 있으며, 이를 효과적으로 활용하기 위한 생태계도 빠르게 발전하고 있습니다.빅데이터 분석 생태계의 주요 구성 요소빅데이터 분석 생태계는 크게 5가지 핵심 요소로 나눌 수 있습니다. 데이터 수집, 데이터 저장, 데이터 처리, 데이터 분석 및 시각화, 데이터 관리 및 보안. 각 요소는 빅데이터 분석 과정에서 중요한 역할을 합니다. 자신이 빅데이터 분석을 다루고 있다면 프로젝트시 지금 어떤 역할을 하는지 아는 것이 중요합니다.1...
빅데이터 분석의 중요성안녕하세요, 여러분! 오늘은 왜 우리가 빅데이터 분석에 주목해야 하는지에 대해 이야기해보려고 합니다. 빅데이터 분석은 단순히 최신 유행어가 아닙니다. 실제로 우리 삶의 여러 측면을 변화시키고, 혁신을 주도하며, 더 나은 결정을 내리는 데 필수적인 역할을 하고 있습니다. 그럼 빅데이터 분석의 중요성에 대해 함께 알아볼까요? 1. 더 나은 의사 결정빅데이터 분석의 가장 큰 장점 중 하나는 데이터 기반의 의사 결정을 가능하다는 점입니다. 예전에는 경험과 직감에 의존하여 결정을 내리는 결정을 할 수밖에 없었지만 데이터를 다루는 기술이 좋아지면서 이제는 데이터를 통해 더 객관적이고 정확한 결정을 내릴 수 있습니다.예를 들어, 기업은 고객의 구매 패턴을 분석하여 재고 관리를 최적화하고, 마케팅..
빅데이터란?오늘은 우리가 자주 듣게 되는 "빅데이터"라는 용어에 대해 이야기해보려고 합니다. 4차혁명이 시작되면서 빅데이터란 용어가 급부상하고 있는데요. 빅데이터가 정확히 무엇을 의미하는지, 그리고 왜 중요한지 알아보겠습니다.Pixabay로부터 입수된 Gerd Altmann님의 이미지 입니다. 빅데이터 정의빅데이터, 말만 들어도 왠지 거대한 무언가를 떠올리게 되지 않나요?빅데이터란 말 그대로 엄청나게 큰 데이터셋을 뜻합니다. 하지만 단순히 데이터가 크다고 빅데이터의 진정한 의미로 받아들이지 않습니다.기본적으로 빅데이터는 다음의 3V로 설명될 수 있습니다. 미국의 IT 자문기관인 가트너그룹에서 말한 3V는 다음과 같습니다.Volume (양): 빅데이터의 첫 번째 특징은 방대한 양입니다. 매일 전 세계에서 ..
빅데이터분석기사 합격 후기 대학원 졸업하면서 취업한다고 준비한 빅데이터분석기사 필기는 붙여놓고 취업을 안하게 되면서 묻혀놓고 있다가 2년 되면 필기합격도 날라간다해서 부랴부랴 실기 준비해서 붙었습니다. 제3유형이 생겼다는 얘기를 들었는데 자료를 나름 찾아보려 했는데 자료가 진짜 없어서 애 먹었습니다. 강의를 듣는게 최고였는데 그 내용은 아래에서 참고해주세요. 빅데이터 분석기사 자격증이란 빅데이터 분석 기사 자격증은 한국데이터산업진흥원(KDIA)에서 시행하는 자격시험으로, 빅데이터 분석 분야에서 전문적인 역량을 갖추고자 하는 사람들을 대상으로 합니다. 국가기술자격증이라는 것과 한번 따면 영구보존되는게 가장 큰 매리트입니다. 비전공자, 문과출신인 경우 난이도 때문에 기사 자격증 진입하기가 어려운데 빅데이터분..
엑셀 파일 빠르게 읽어보자 빅데이터를 다루다보면 엑셀 파일 불러올 수 밖에 없는데 데이터 자체가 크다보니 불러오는 시간이 많이 소요됩니다. 이걸 여러번 불러온다면 곤욕이 따로 없겠죠? 이전 포스팅에서 xlsx에서 csv로 변환하는 방법을 다뤘었는데 csv로 변환하고 읽는 속도가 약 70배 빨라지는 것을 알 수 있었습니다. 이번 포스팅에서는 본격적으로 불러오는 속도를 극대화하는 방법에 대해 소개할까 합니다. DASK 모듈 이용하기 방법은 생각보다 간단합니다. 데이터를 불러올 때 병렬처리를 한다면 보다 빠르게 불러올 수 있게 됩니다. 그런데 이걸 코드로 만들어내면 귀찮아지니 다 만들어진 모듈을 사용해서 간편하게 불러올 수 있을 거라 생각합니다. DASK라는 모듈을 쓸 건데요. 이 모듈은 파이썬에서 분산 병렬..
인공지능은 현대 사회에서 가장 빠르게 발전하는 기술 중 하나로, 우리의 생활과 업무에 혁명적인 변화를 가져오고 있습니다. 그리고 그 핵심적인 역할을 맡고 있는 것이 바로 "머신러닝(Machine Learning)"입니다. 머신러닝은 알고리즘을 구축하는 컴퓨터 과학의 하위 분야로 최근에는 인공지능의 핵심기술로 자리잡고 있습니다. 요즘은 머신러닝으로 할 수 없는 것들도 많아지고 있는 추세지만 기본적인 베이스가 되고 있는건 변함 없습니다. 컴퓨터가 패턴을 학습하여 스스로 데이터분석과 문제를 해결하는 능력을 갖추게 된다면 얼마나 편해질까요? 데이터를 컴퓨터에게 던져주면 알아서 분석도 해주고 ppt도 만들어주고 문서도 만들어줄겁니다. 여태까지 컴퓨터로 했던 모든 것들은 이제 말이나 타이핑을 통해서 해달라고 요청하..
요즘 chapgpt니 뭐니 하면서 AI 인공지능이 엄청 뜨고 있습니다. 아무래도 저도 그런 쪽을 다루다 보니 관심이 안 갈 수 없네요. 직접 쓰는 방법은 아직은 상용화도 어렵고 여러 시도들이 있는 걸로 알고 있습니다. 이번 포스팅에서는 AI의 가장 기본 모토인 데이터를 분석해주는 사이트를 소개할까 합니다. 주로 키워드를 살펴보는 사이트들입니다. 어떻게 쓰느냐에 따라 온라인에서의 탁월함이 달라질겁니다. 한번 살펴보시기 바랍니다. 네이버 데이터랩 네이버 데이터랩 네이버의 검색 트렌드 및 급상승검색어 이력, 쇼핑 카테고리별 검색 트렌드 제공 datalab.naver.com 예전에 네이버 순위가 있었던 적이 있었습니다. 그 기능의 모토가 아닌가 싶습니다. 네이버 데이터랩에 들어가면 키워드 순위와 내가 원하는 키..