PDF 텍스트 추출 - 페이지, 블록, 라인 w/ PyMuPDF들어가며여러 개의 PDF에서 텍스트가 필요할 때, 파이썬을 활용하여 원하는 단위만큼 추출할 수 있습니다. 전체 PDF 추출뿐만 아니라 페이지 단위, 블록 단위, 라인 단위 또한 가능합니다. 이 글에서는 PyMuPDF 패키지를 활용하여 PDF 파일을 읽고, 특정 단위에 맞춰 텍스트를 추출하는 방법을 소개합니다.예제로 활용할 파일의 제목은 "Attention Is All You Need"로 Google Brain 팀의 연구자들이 작성한 NLP 관련 논문입니다. arXiv에 업로드된 논문이므로 누구나 무료로 다운로드하고 읽을 수 있습니다.PDF 전체 텍스트 추출PDF 페이지 단위 텍스트 추출PDF 블록 단위 텍스트 추출PDF 라인 단위 텍스트 추출..