빅데이터 분석의 흐름빅데이터 분석은 방대한 양의 데이터를 처리하고 이를 기반으로 유용한 인사이트를 도출하는 과정을 의미합니다. 이러한 빅데이터 분석의 흐름은 데이터를 수집하고 처리한 뒤 분석하여 의사결정에 활용하는 일련의 단계로 나눌 수 있습니다. 이번 포스팅에서는 빅데이터 분석의 주요 단계와 각 과정에서의 핵심 요소들을 살펴보겠습니다.업무 이해먼저 업무목적에 대해 파악을 해야합니다. 데이터를 이용해 얻고자 하는 게 무엇인지 명확하게 결정할수록 분석 작업에서 효율적으로 일을 진척시킬 수 있습니다.핵심포인트 : 업무이해, 업무목적파악, 상황파악, 데이터마이닝 목표 설정, 프로젝트 계획수립데이터 수집데이터 수집은 다양한 소스에서 데이터를 모으는 과정입니다. 여기에는 웹 로그, 소셜 미디어, 센서 데이터, 트..
R로 웹 스크래핑하기R을 사용해 웹 스크래핑을 하려면 rvest라는 패키지를 사용합니다. rvest는 HTML 문서를 파싱하고 데이터를 추출하는 패키지로 간편하게 웹 스크래핑을 할 수 있습니다.R을 활용한 간단한 웹 스크래핑을 단계별로 보여드리겠습니다.1. 패키지 설치 및 로드R은 패키지 설치가 잘 안될 수도 있는데 혹시 패키지 설치가 잘 안된다면 아래 포스팅에서 해결을 해보시기 바랍니다. R studio 패키지 설치 오류 모음R은 패키지 설치가 너무 어렵다R은 깔끔하게 코드를 작성할 수 있어 좋은데 호환성이 너무 안좋습니다. 조금만 엇나가면 바로 안됩니다. 힘드네요. 특히 패키지 설치로 애를 아주 많이 먹었습니seong6496.tistory.com rvest를 설치한후 불러옵니다.install.pac..
옴니보어로 웹스크랩하기 옴니보어는 여타 노트앱의 webclipper랑은 다릅니다. 전자책 뷰어처럼 스크랩한 내용을 하이라이트하고 메모를 할 수 있습니다. 거기에 옵시디언으로 보낼 수 있어서 옵시디언과 연동하면 스크랩 내용을 정리가 되면서 옮겨놓을 수 있습니다. 사실 스크랩하고서 노트앱에 갖다넣으면 가독성이 많이 떨어져서 보기 싫거나 URL만 가져와서 내가 중요 표시하거나 메모가 어려운데 옴니보어 하나로 다 해결했습니다. 옴니보어 기능 옴니보어 기능 무료 오픈소스 크롬,사파리,웨일,엣지, 파이어폭스 주요 웹 확장프로그램으로 사용 가능 모바일 앱(안드로이드(베타버전),IOS) 옵시디언 플러그인 지원 Logseq,Readwise,Webhooks 호환 그림은 URL 링크로서 연결됨(용량 과부하 문제 해결) 옴니..
인터넷에 있는 표 가져오는 방법입니다. 웹에서 표를 복사해서 word나 기타 노트앱에 바로 가져오면 아주 그냥.... 엉망진창으로 가져오기 때문에 그걸 수정하느니 그냥 손으로 쓰고 만다는 생각이 절로 듭니다. 개발자 모드 사용 아는 사람은 다 알겠지만 인터넷상의 표는 HTML로 가져오기 쉽습니다. 저 사이트를 쓸 필요는 없습니다. 개발자 모드에서 html 가져오면 됩니다. 물론 해당 사이트에서 조치를 취해놓지 않은 경우에 한해서만 가능합니다. 위 그림처럼 버튼을 클릭해서 웹에 있는 표를 가져오면 됩니다. 그럼 그림처럼 html내에서 table의 위치로 이동합니다. 해당 element를 복사하고 옮겨넣으면 됩니다. 번거롭긴 하지만 급할때는 좋은것같기도 하지만 html이 정리되지 않은 상태로 복사될 수도 있..
newspaper 모듈 소개 뉴스 스크래핑 하는 방법은 많습니다. 일반적으로 셀레니움이나 requests 써도 되는데 편리함을 추구하는 사람으로써 newspaper를 써봤습니다. (좀... 늦었나?) newspaper는 사용자가 지정한 url에서 text를 추출해주는 모듈입니다. 그러니깐 뉴스말고 웹 전체를 다 텍스트화 한다고 생각하시면 됩니다. 이미지랑 동영상도 가능합니다. 이미지는 다 되는데 동영상은 일부 안 되는 경우도 있습니다. 자세한 내용은 newspaper 공식 가이드에서 확인할 수 있습니다. Newspaper 설치 지금도 python2를 쓰는 분이 있나봅니다. newspaper 설치를 그냥 하면 python2 버전으로 설치되서 python3에서는 안됩니다. # python2 pip insta..
이번 블로그 글에서는 파이썬에서 RSS를 가져오는 방법을 다루려고 합니다. RSS란? RSS(Rich Site Summary 또는 Really Simple Syndication)는 웹 사이트에서 발행되는 최신 정보를 구독자에게 쉽게 제공하기 위한 XML 기반의 웹 피드입니다. RSS를 이용하면 웹 사이트의 새로운 글, 뉴스, 팟캐스트 등을 매우 쉽게 받아볼 수 있습니다. 파이썬에서 파싱하는 방법 파이썬에서 RSS를 가져오는 방법은 크게 두 가지로 나눌 수 있습니다. 첫 번째는 파이썬 라이브러리를 사용하는 방법이고, 두 번째는 HTTP 요청을 통해 직접 RSS 데이터를 가져오는 방법입니다. 파이썬 라이브러리 사용하기 파이썬에서는 feedparser 라이브러리를 사용하여 RSS를 파싱할 수 있습니다. 이 라..
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.