빅데이터란? 확장되고 있는 정의

반응형
    반응형

    빅데이터란?

    오늘은 우리가 자주 듣게 되는 "빅데이터"라는 용어에 대해 이야기해보려고 합니다. 4차혁명이 시작되면서 빅데이터란 용어가 급부상하고 있는데요. 빅데이터가 정확히 무엇을 의미하는지, 그리고 왜 중요한지 알아보겠습니다.

    Pixabay로부터 입수된 Gerd Altmann님의 이미지 입니다.

     

    빅데이터 정의

    빅데이터, 말만 들어도 왠지 거대한 무언가를 떠올리게 되지 않나요?
    빅데이터란 말 그대로 엄청나게 큰 데이터셋을 뜻합니다. 하지만 단순히 데이터가 크다고 빅데이터의 진정한 의미로 받아들이지 않습니다.

    기본적으로 빅데이터는 다음의 3V로 설명될 수 있습니다. 미국의 IT 자문기관인 가트너그룹에서 말한 3V는 다음과 같습니다.

    1. Volume (양): 빅데이터의 첫 번째 특징은 방대한 양입니다. 매일 전 세계에서 생성되는 데이터의 양은 기하급수적으로 증가하고 있습니다. 우리가 사용하는 스마트폰, 소셜 미디어, 온라인 쇼핑, GPS 등에서 끊임없이 데이터가 생성되고 있죠. 예를 들어, 매일 페이스북에는 수백만 개의 사진이 업로드되고, 유튜브에는 수천 시간 분량의 동영상이 업로드됩니다.
    2. Velocity (속도): 두 번째 특징은 데이터 생성 속도입니다. 데이터는 실시간으로 생성되고, 빠르게 전송되며, 거의 즉각적으로 분석되어야 할 필요가 있습니다. 실시간 데이터 분석은 금융 거래, 소셜 미디어 트렌드 분석, 실시간 추천 시스템 등 다양한 분야에서 매우 중요합니다.
    3. Variety (다양성): 세 번째 특징은 데이터의 다양성입니다. 빅데이터는 단순한 숫자 데이터뿐만 아니라, 텍스트, 이미지, 동영상, 소리 등 다양한 형태로 존재합니다. 이러한 다양한 형식의 데이터를 통합하고 분석하는 것은 매우 도전적이지만, 동시에 흥미로운 통찰을 제공할 수 있는 기회를 제공합니다.

     

    가치추가 4V

    Pixabay 로부터 입수된  Alexandra_Koch 님의 이미지 입니다.

     

    빅데이터의 정의는 확장되고 있는데요. 3V에서 가치라는 항목을 추가해 4V를 더 만들어 현재는 7V로 알려져 있습니다.

    나머지 4V는 다음과 같습니다.

    1. 가치(Value) : 데이터 자체의 가치는 그 데이터를 통해 얻을 수 있는 통찰력, 의사 결정에의 도움, 비즈니스 기회 창출 능력에 있습니다. 빅데이터 분석의 목표는 데이터를 통해 실질적인 가치를 창출하는 것입니다. 예를 들어, 소비자 행동 분석을 통해 마케팅 전략을 개선하거나, 기계 유지보수 데이터를 분석하여 예측적 유지보수를 실행하는 것이 데이터의 가치를 실현하는 예입니다.
    2. 진실성(Veracity) : 데이터의 신뢰성과 정확성을 의미합니다. 데이터가 얼마나 정확하고 믿을 수 있는지를 나타내며, 데이터 소스의 신뢰성, 데이터의 품질, 오류나 왜곡의 가능성을 포함합니다. 소셜 미디어 데이터를 분석할 때, 가짜 뉴스나 스팸 계정으로 인한 왜곡된 정보를 걸러내는 작업이 될 수 있습니다. 이를 통해 신뢰할 수 있는 분석 결과를 얻을 수 있습니다.
    3. 정확성(Validity) : 데이터가 실제 측정하고자 하는 것을 제대로 반영하고 있는지를 의미합니다. 이는 데이터가 본래의 목적에 부합하게 사용될 수 있는지를 나타냅니다. 예를 들어, 설문조사 데이터를 활용할 때, 질문이 명확하고 응답이 일관되며 목적에 맞는지를 확인하는 과정이 필요합니다. 데이터가 올바르게 수집되고 분석될 때 그 결과의 정확성을 확보할 수 있습니다.
    4. 휘발성(Volatility) : 데이터의 유효 기간과 관련이 있으며, 데이터가 얼마나 자주 변경되거나 업데이트되는지를 의미합니다. 일부 데이터는 시간이 지나면서 가치가 감소하거나 아예 무의미해질 수 있습니다. 주식 시장 데이터의 경우 매우 휘발성이 강합니다. 가격 정보는 실시간으로 변하며, 오래된 데이터는 시장 상황을 반영하지 않기 때문에 금세 무의미한 데이터가 됩니다.

     

    마치며

    7V를 종합하면 빅데이터는 단순히 크기만 큰 데이터가 아니라, 빠르게 생성되고 다양한 형식으로 존재하는 데이터들을 의미합니다. 더하여 정확성, 신뢰성 확보는 물론 의사 결정에 도움이 될 수 있는 가치까지 겸비해주어야 합니다. 시대가 변한만큼 이러한 데이터를 효과적으로 수집, 저장, 분석하는 능력은 매우 중요한 경쟁력으로 작용하고 있습니다. 앞으로의 글에서는 이러한 빅데이터를 어떻게 다룰 수 있는지에 대해 살펴보겠습니다.

     

    함께 보면 좋은 글

     

     

    빅데이터 분석이 뜨고 있는 6가지 이유

    빅데이터 분석의 중요성안녕하세요, 여러분! 오늘은 왜 우리가 빅데이터 분석에 주목해야 하는지에 대해 이야기해보려고 합니다. 빅데이터 분석은 단순히 최신 유행어가 아닙니다. 실제로 우리

    seong6496.tistory.com

     

     

    [Python] FinanceDataReader로 주식데이터 가져오기

    FinanceDataReader라는 라이브러리가 있어서 소개겸 포스팅하려 합니다. 이 라이브러리를 쓰면 국내 주식, 미국 주식, 지수, 환율, 주요 암호화폐 가격 데이터를 가져올 수 있습니다. 제가 이 포스팅

    seong6496.tistory.com

     

     

    [웹크롤링] 네이버증권에서 재무제표 가져오기

    네이버 증권에서 재무제표를 가져오는 방법입니다. 삼성전자를 예로 하겠습니다. 네이버증권에서 삼성전자 검색해서 들어가면 사이트 이름이 다음과 같이 나옵니다. 여기서 '005930' 이 종목코드

    seong6496.tistory.com

     

    '데이터 사이언스' 카테고리의 다른 글

    빅데이터 분석이 뜨고 있는 6가지 이유  (0) 2024.07.23

    댓글

    Designed by JB FACTORY

    ....