R로 웹 스크래핑하기R을 사용해 웹 스크래핑을 하려면 rvest라는 패키지를 사용합니다. rvest는 HTML 문서를 파싱하고 데이터를 추출하는 패키지로 간편하게 웹 스크래핑을 할 수 있습니다.R을 활용한 간단한 웹 스크래핑을 단계별로 보여드리겠습니다.1. 패키지 설치 및 로드R은 패키지 설치가 잘 안될 수도 있는데 혹시 패키지 설치가 잘 안된다면 아래 포스팅에서 해결을 해보시기 바랍니다. R studio 패키지 설치 오류 모음R은 패키지 설치가 너무 어렵다R은 깔끔하게 코드를 작성할 수 있어 좋은데 호환성이 너무 안좋습니다. 조금만 엇나가면 바로 안됩니다. 힘드네요. 특히 패키지 설치로 애를 아주 많이 먹었습니seong6496.tistory.com rvest를 설치한후 불러옵니다.install.pac..
옴니보어로 웹스크랩하기 옴니보어는 여타 노트앱의 webclipper랑은 다릅니다. 전자책 뷰어처럼 스크랩한 내용을 하이라이트하고 메모를 할 수 있습니다. 거기에 옵시디언으로 보낼 수 있어서 옵시디언과 연동하면 스크랩 내용을 정리가 되면서 옮겨놓을 수 있습니다. 사실 스크랩하고서 노트앱에 갖다넣으면 가독성이 많이 떨어져서 보기 싫거나 URL만 가져와서 내가 중요 표시하거나 메모가 어려운데 옴니보어 하나로 다 해결했습니다. 옴니보어 기능 옴니보어 기능 무료 오픈소스 크롬,사파리,웨일,엣지, 파이어폭스 주요 웹 확장프로그램으로 사용 가능 모바일 앱(안드로이드(베타버전),IOS) 옵시디언 플러그인 지원 Logseq,Readwise,Webhooks 호환 그림은 URL 링크로서 연결됨(용량 과부하 문제 해결) 옴니..
There is no such driver by url 오랜만에 셀레니움을 써야해서 크롬드라이버 자동으로 받게 했는데 안되네요. 크롬 드라이버 매니저가 되지 않습니다. 'There is no such driver by url' 이라고 합니다. 즉, 이런 다운로드 링크 없다는 얘기입니다.(정말...구글...이럴거야?) 왜그런가 하니 사이트를 바꿔놨습니다. 그걸 chromemaneger는 인지하지 못한 것 같습니다. 그래서 115 버전부터는 다른 사이트에서 운영하니 그 사이트를 가서 받아주어야 합니다. (짜증...) 그럼 최신버전은 더이상 최신버전이 아니니 더이상 chromemaneger는 쓸 수 없게 되는 것... 또르르륵.... 여태 chromemaneger로 해놨던거 다 바꾸게 생겼습니다. 그래서 어느..
인터넷에 있는 표 가져오는 방법입니다. 웹에서 표를 복사해서 word나 기타 노트앱에 바로 가져오면 아주 그냥.... 엉망진창으로 가져오기 때문에 그걸 수정하느니 그냥 손으로 쓰고 만다는 생각이 절로 듭니다. 개발자 모드 사용 아는 사람은 다 알겠지만 인터넷상의 표는 HTML로 가져오기 쉽습니다. 저 사이트를 쓸 필요는 없습니다. 개발자 모드에서 html 가져오면 됩니다. 물론 해당 사이트에서 조치를 취해놓지 않은 경우에 한해서만 가능합니다. 위 그림처럼 버튼을 클릭해서 웹에 있는 표를 가져오면 됩니다. 그럼 그림처럼 html내에서 table의 위치로 이동합니다. 해당 element를 복사하고 옮겨넣으면 됩니다. 번거롭긴 하지만 급할때는 좋은것같기도 하지만 html이 정리되지 않은 상태로 복사될 수도 있..
newspaper 모듈 소개 뉴스 스크래핑 하는 방법은 많습니다. 일반적으로 셀레니움이나 requests 써도 되는데 편리함을 추구하는 사람으로써 newspaper를 써봤습니다. (좀... 늦었나?) newspaper는 사용자가 지정한 url에서 text를 추출해주는 모듈입니다. 그러니깐 뉴스말고 웹 전체를 다 텍스트화 한다고 생각하시면 됩니다. 이미지랑 동영상도 가능합니다. 이미지는 다 되는데 동영상은 일부 안 되는 경우도 있습니다. 자세한 내용은 newspaper 공식 가이드에서 확인할 수 있습니다. Newspaper 설치 지금도 python2를 쓰는 분이 있나봅니다. newspaper 설치를 그냥 하면 python2 버전으로 설치되서 python3에서는 안됩니다. # python2 pip insta..