반응형

pdf 3

[파이썬] opendataloader-pdf를 활용한 PDF 변환: txt, json, html, markdown

opendataloader-pdf를 활용한 PDF 변환: txt, json, html, markdown들어가며한컴에서 PDF를 TXT, JSON, HTML, 마크다운 Markdown 형태로 변환할 수 있는 기술을 오픈소스로 공개했습니다. 다양한 형태로 변환 가능하고, 빠르고 가볍다는 장점으로 RAG, 벡터 검색 등 AI 기술에 매우 유용하게 활용할 수 있습니다. 이 글에서는 opendataloader-pdf를 활용하여 PDF를 TXT, JSON, HTML, 마크다운 Markdown 형식으로 변환하는 방법을 소개합니다. opendataloader-pdf에 대한 더 자세한 정보는 아래 링크를 참고해 주세요:) OpenDataLoaderPDF Data loader for AI/ML datasets. Easi..

Python 2025.10.26

[파이썬] OCR을 활용한 PDF/이미지 텍스트 추출 - pytesseract

OCR을 활용한 PDF/이미지 텍스트 추출 - pytesseract들어가며본문 문서 혹은 이미지 속 텍스트를 자동으로 인식하는 OCR(Optical Character Recognition, 광학 문자 인식) 기술은 디지털 전환 시대에 꼭 필요한 기술입니다. OCR은 온라인 명함 관리, 종이 문서 디지털화 등 다양한 분야에서 활용되고 있습니다.이 글에서는 OCR 라이브러리인 pytesseract를 활용하여 이미지나 PDF 파일에서 텍스트를 추출하는 방법을 소개합니다. pytesseract 설치이미지 텍스트 추출PDF 텍스트 추출pytesseract 설치 pytesseract를 사용하기 위한 설치 방법은 다음과 같습니다.1. pytesseract 설치먼저 pip를 활용하여 이미지를 처리하는 Pillow 패키..

Python 2025.06.13

[파이썬] PDF 텍스트 추출 - 페이지, 블록, 라인 w/ PyMuPDF

PDF 텍스트 추출 - 페이지, 블록, 라인 w/ PyMuPDF들어가며여러 개의 PDF에서 텍스트가 필요할 때, 파이썬을 활용하여 원하는 단위만큼 추출할 수 있습니다. 전체 PDF 추출뿐만 아니라 페이지 단위, 블록 단위, 라인 단위 또한 가능합니다. 이 글에서는 PyMuPDF 패키지를 활용하여 PDF 파일을 읽고, 특정 단위에 맞춰 텍스트를 추출하는 방법을 소개합니다.예제로 활용할 파일의 제목은 "Attention Is All You Need"로 Google Brain 팀의 연구자들이 작성한 NLP 관련 논문입니다. arXiv에 업로드된 논문이므로 누구나 무료로 다운로드하고 읽을 수 있습니다.PDF 전체 텍스트 추출PDF 페이지 단위 텍스트 추출PDF 블록 단위 텍스트 추출PDF 라인 단위 텍스트 추출..

Python 2025.02.27
반응형