스캔된 pdf을 epub으로 바꾸기(feat.비추) pdf가 이미지로 구성된 경우가 있다. 책이 스캔된 경우가 그렇다. 이 pdf를 epub으로 만들면 글자변환이 안되고 이미지 자체가 변환이 된다. 무사히 넘기면 좋으련만 반전이나 회전이 되어서 변환된다. 이번 포스팅은 어쩔 수 없이 epub으로 써야한다면 다음과 같은 문제들이 발생할 때 어떻게 해결하는지에 대한 얘기다. 지금 하는 방법은 케바케 성향이 강해서 혹시 잘되는 엔틱한 방법이 있을지도 모르기에 일단 기초적인 아이디어를 올려놓는다. 페이지 반전pdf를 epub으로 변환하는 과정은 간단하다. pdf 페이지 한장한장 다 따서 파일로 저장후 html로 다시 합치는 과정으로 변환을 마친다. 그런데 pdf 페이지 각각이 이미 이미지라면 초기값으로 세팅되어..
문서를 주로 PDF 형식으로 주고받는데 PDF는 수정이 불가합니다. 하지만 수정이 불가능한 PDF 파일의 내용은 가져올 수 있습니다. 사실 워드에 쓰면 되는 것인데 파이썬을 쓰면 이런 일을 조금이나마 줄일 수 있을 것 같습니다. PDF 읽고 추출하기 PDF 파일을 읽고 데이터를 추출하기 위해 파이썬에서는 PyPDF2, pdfminer.six, textract 등의 라이브러리를 활용할 수 있습니다. 이러한 라이브러리들은 PDF 파일을 열어서 내용을 읽고 특정한 텍스트나 이미지 데이터를 추출할 수 있는 기능을 제공합니다. 파이썬 코드를 사용하여 PDF 파일을 열고 원하는 데이터를 추출하는 작업은 데이터 분석, 텍스트 처리, 문서 요약 등 다양한 분야에서 유용하게 활용될 수 있습니다. PyPDF2 설치 pyp..