반응형

Python 75

[파이썬] opendataloader-pdf를 활용한 PDF 변환: txt, json, html, markdown

opendataloader-pdf를 활용한 PDF 변환: txt, json, html, markdown들어가며한컴에서 PDF를 TXT, JSON, HTML, 마크다운 Markdown 형태로 변환할 수 있는 기술을 오픈소스로 공개했습니다. 다양한 형태로 변환 가능하고, 빠르고 가볍다는 장점으로 RAG, 벡터 검색 등 AI 기술에 매우 유용하게 활용할 수 있습니다. 이 글에서는 opendataloader-pdf를 활용하여 PDF를 TXT, JSON, HTML, 마크다운 Markdown 형식으로 변환하는 방법을 소개합니다. opendataloader-pdf에 대한 더 자세한 정보는 아래 링크를 참고해 주세요:) OpenDataLoaderPDF Data loader for AI/ML datasets. Easi..

Python 2025.10.26

[파이썬] 특정 키워드 네이버 뉴스 제목 크롤링 - BeautifulSoup

특정 키워드 네이버 뉴스 제목 크롤링 - BeautifulSoup들어가며크롤링은 웹사이트에서 자동으로 데이터를 수집하는 기술입니다. 사람이 직접 웹사이트를 클릭하여 데이터를 수집하는 대신, 파이썬 등을 활용하면 편리하게 데이터를 추출할 수 있습니다. 하지만, 서버에 부담을 줄 수 있는 요청은 IP 차단을 초래할 수 있어 조심해야 합니다.이 글에서는 예제로 '비트코인'에 대한 네이버 뉴스 제목을 크롤링하는 방법을 소개합니다.키워드, URL 설정웹 페이지 요청뉴스 제목 데이터프레임 생성전체 코드키워드, URL 설정먼저 필요한 패키지인 requests와 BeautifulSoup를 import합니다.import requestsfrom bs4 import BeautifulSoup위에서 설명한 대로 검색할 키워드..

Python 2025.10.19

[파이썬] 데이터프레임 행, 열 선택 - iloc, loc

데이터프레임 행, 열 선택 - loc, iloc들어가며파이썬에서 데이터프레임의 행, 열을 선택하는 경우에는 loc, iloc를 사용합니다. 여러 행 또는 열을 선택할 때, 인덱스를 통하여 손쉽게 원하는 데이터 형태로 인덱싱할 수 있습니다.iloc와 loc를 사용하기 위해서는 인덱스와 라벨에 대한 이해가 필요합니다. 파이썬에서 인덱스는 0부터 시작하므로 순서대로 아래의 이미지와 같이 번호가 부여됩니다. 즉, 행과 열의 위치를 나타내는 번호입니다. 라벨은 컬럼명을 의미합니다. 예를 들어, 아래 데이터프레임의 Occupation 컬럼의 인덱스 번호는 3이고, 라벨은 'Occupation'입니다.데이터 소개 이 글에서 활용할 데이터는 캐글 데이터셋 중 Online Food Dataset로 온라인 음식 주문 플..

Python 2025.10.04

[파이썬] MongoDB JSON 데이터 import 및 기본 쿼리 - pymongo

MongoDB JSON 데이터 import 및 기본 쿼리 - pymongo들어가며pymongo는 MongoDB 데이터베이스를 다룰 수 있는 파이썬 패키지입니다. 이 글에서는 파이썬과 pymongo 라이브러리를 활용하여 MongoDB 데이터베이스에 JSON 데이터를 import하고, 다양한 쿼리를 활용하여 데이터를 조회하는 방법을 소개합니다.JSON 데이터 import파이썬을 활용한 MongoDB 데이터 조회전체 데이터 조회데이터 개수 제한 조회데이터 정렬 조회단일 조건 데이터 조회복합 조건 데이터 조회단일 데이터 조회정규표현식을 활용한 데이터 조회JSON 데이터 importJSON 데이터를 MongoDB에 import하는 방법은 다음과 같습니다. 먼저, MongoDB 와 JSON 데이터를 위한 패키지를 ..

Python 2025.09.08

[파이썬] bokeh를 활용한 인터랙티브 시각화 기초 - 꺾은선, 산점도, 막대 그래프

bokeh를 활용한 인터랙티브 시각화 기초 - 꺾은선, 산점도, 막대그래프들어가며bokeh는 인터랙티브한 웹 기반 시각화를 위한 파이썬 패키지입니다. matplotlib처럼 정적인 이미지 대신, 웹 브라우저에서 동적인 시각화를 제공합니다. 이 글에서는 bokeh의 다양한 기능 중 간단한 시각화를 할 수 있는 plotting에 대해 소개합니다. 다음 예제 데이터를 활용하여 꺾은선 그래프, 산점도, 막대그래프를 시각화하겠습니다.예제 데이터 예제 데이터는 scikit-learn의 캘리포니아 주택 가격 데이터셋을 활용합니다.import pandas as pdfrom sklearn.datasets import fetch_california_housingcalifornia = fetch_california_hous..

Python 2025.07.16

[파이썬] 특정 조건에 해당하는 컬럼 선택 - 리스트 컴프리핸션, 정규식

특정 조건에 해당하는 컬럼 선택 - 리스트 컴프리핸션, 정규식들어가며데이터 분석을 할 때, 데이터프레임에서 특정 조건에 해당하는 컬럼을 선택해야하는 상황이 종종 발생합니다. 변수의 개수가 적을 때는 직접 지정해도 괜찮지만, 변수가 많은 데이터프레임의 경우 모든 컬럼을 나열하는 방식은 코드의 가독성을 저하시킵니다.이 글에서는 데이터프레임에서 특정 조건에 해당하는 컬럼을 선택하는 방법을 리스트 컴프리핸션 기반 컬럼 필터링과 정규표현식 기반 컬럼 필터링 2가지로 나누어 소개합니다.예제 데이터프레임 예제로 활용할 데이터프레임은 다음과 같습니다. id, uid, vid로 시작하는 컬럼을 3개씩 생성하고, 랜덤으로 값을 생성했습니다.리스트 컴프리핸션 기반 컬럼 필터링정규표현식 기반 컬럼 필터링리스트 컴프리핸션 기반..

Python 2025.07.09

[파이썬] 벌집 Hexbin 그래프 시각화와 Plotly 대체 방법: matplotlib vs plotly

벌집 Hexbin 그래프 시각화와 Plotly 대체 방법: matplotlib vs plotly들어가며 히트맵 벌집 그래프(Hexbin plot)는 2차원의 평면을 육각형으로 그리드를 나누고, 각 셀에 해당하는 값을 색으로 표현하는 그래프입니다. 점의 밀도를 시각적으로 보여줌으로써 데이터의 분포나 군집을 파악할 때 매우 효과적입니다. 이 글에서는 파이썬의 matplotlib과 plotly을 활용하여 히트맵 벌집 그래프를 그리는 방법을 소개합니다. 2가지 방법의 가장 큰 차이점은 bin의 형태입니다. matplotlib은 육각형, plotly는 사각형으로 시각화합니다. 예제 데이터 이 글에서 예제로 활용할 데이터는 sciki-learn의 iris 데이터입니다. 먼저, 필요한 패키지를 import합니다.im..

Python 2025.07.04

[파이썬] 구글 제미나이 Gemini API 활용 방법 - API 키 발급, 예제

구글 제미나이 Gemini API 활용 방법 - API KEY 발급, 예제들어가며ChatGPT, Claude, Gemini와 같은 생성형 AI 모델의 등장으로 텍스트 요약, 코드 생성 등을 빠르고 간편하게 작업할 수 있습니다. 이 글에서는 파이썬 코드로 Gemini API를 활용하는 방법을 소개합니다. API 키 발급 과정부터 간단한 예제를 통해 실제 사용하는 방법을 확인할 수 있습니다.API 키 발급Gemini 모델 준비Gemini API 예제API 키 발급프로젝트 생성 구글 클라우드 콘솔에서 프로젝트를 생성합니다. 좌측 상단의 '프로젝트 선택'을 클릭합니다.'새 프로젝트' 클릭 후, 프로젝트 이름 등 필요한 항목을 작성하면 새로운 프로젝트가 생성됩니다.API 사용 신청 'API 및 서비스' - '라이..

Python 2025.06.27

[파이썬] 링크 공유를 위한 QR코드 생성, 글자/이미지 삽입 - qrcode

링크 공유를 위한 QR코드 생성, 글자/이미지 삽입 - qrcode들어가며QR코드는 이미지, 링크 등을 간편하게 공유할 수 있고, 온라인은 물론 오프라인으로도 배포가 가능합니다. 또한, 로고나 색상을 삽입하여 커스터마이징한 QR코드는 브랜드를 강조하고, 마케팅에도 효과적입니다.이 글에서는 QR코드를 생성하고, 텍스트와 이미지 로고를 삽입하는 방법을 함께 소개합니다. 먼저, QR코드 생성에 필요한 패키지를 다운로드합니다.! pip install qrcode링크 공유 QR코드 생성링크 공유 QR코드 - 텍스트 삽입링크 공유 QR코드 - 이미지 삽입전체 코드링크 공유 QR 코드 생성링크를 공유하기 위한 QR코드 생성은 다음과 같습니다.베이스 QR코드 생성먼저 베이스가 되는 QR코드를 생성합니다.version은..

Python 2025.06.17

[파이썬] OCR을 활용한 PDF/이미지 텍스트 추출 - pytesseract

OCR을 활용한 PDF/이미지 텍스트 추출 - pytesseract들어가며본문 문서 혹은 이미지 속 텍스트를 자동으로 인식하는 OCR(Optical Character Recognition, 광학 문자 인식) 기술은 디지털 전환 시대에 꼭 필요한 기술입니다. OCR은 온라인 명함 관리, 종이 문서 디지털화 등 다양한 분야에서 활용되고 있습니다.이 글에서는 OCR 라이브러리인 pytesseract를 활용하여 이미지나 PDF 파일에서 텍스트를 추출하는 방법을 소개합니다. pytesseract 설치이미지 텍스트 추출PDF 텍스트 추출pytesseract 설치 pytesseract를 사용하기 위한 설치 방법은 다음과 같습니다.1. pytesseract 설치먼저 pip를 활용하여 이미지를 처리하는 Pillow 패키..

Python 2025.06.13
반응형