PDF 처리 (2)

스캔된 PDF EPUB으로 바꾸기(feat.비추)

데이터목장
ETC / 옵시디언
2024.08.29

스캔된 pdf을 epub으로 바꾸기(feat.비추) pdf가 이미지로 구성된 경우가 있다. 책이 스캔된 경우가 그렇다. 이 pdf를 epub으로 만들면 글자변환이 안되고 이미지 자체가 변환이 된다. 무사히 넘기면 좋으련만 반전이나 회전이 되어서 변환된다. 이번 포스팅은 어쩔 수 없이 epub으로 써야한다면 다음과 같은 문제들이 발생할 때 어떻게 해결하는지에 대한 얘기다. 지금 하는 방법은 케바케 성향이 강해서 혹시 잘되는 엔틱한 방법이 있을지도 모르기에 일단 기초적인 아이디어를 올려놓는다. 페이지 반전pdf를 epub으로 변환하는 과정은 간단하다. pdf 페이지 한장한장 다 따서 파일로 저장후 html로 다시 합치는 과정으로 변환을 마친다. 그런데 pdf 페이지 각각이 이미 이미지라면 초기값으로 세팅되어..

파이썬으로 PDF 불러오기,병합하기

데이터목장
Python / GUI
2023.07.06

문서를 주로 PDF 형식으로 주고받는데 PDF는 수정이 불가합니다. 하지만 수정이 불가능한 PDF 파일의 내용은 가져올 수 있습니다. 사실 워드에 쓰면 되는 것인데 파이썬을 쓰면 이런 일을 조금이나마 줄일 수 있을 것 같습니다. PDF 읽고 추출하기 PDF 파일을 읽고 데이터를 추출하기 위해 파이썬에서는 PyPDF2, pdfminer.six, textract 등의 라이브러리를 활용할 수 있습니다. 이러한 라이브러리들은 PDF 파일을 열어서 내용을 읽고 특정한 텍스트나 이미지 데이터를 추출할 수 있는 기능을 제공합니다. 파이썬 코드를 사용하여 PDF 파일을 열고 원하는 데이터를 추출하는 작업은 데이터 분석, 텍스트 처리, 문서 요약 등 다양한 분야에서 유용하게 활용될 수 있습니다. PyPDF2 설치 pyp..

1

Sidebar - Right

블로그 정보

데이터목장

데이터분석, 코딩, 수학을 융합하는 몸짓

공지사항

검색

달력

링크

살구살구찡

Copyright © 파이프마임 All Rights Reserved

Designed by JB FACTORY

티스토리툴바