'Python' 태그의 글 목록

Python 25

[파이썬] 벌집 Hexbin 그래프 시각화와 Plotly 대체 방법: matplotlib vs plotly

벌집 Hexbin 그래프 시각화와 Plotly 대체 방법: matplotlib vs plotly들어가며 히트맵 벌집 그래프(Hexbin plot)는 2차원의 평면을 육각형으로 그리드를 나누고, 각 셀에 해당하는 값을 색으로 표현하는 그래프입니다. 점의 밀도를 시각적으로 보여줌으로써 데이터의 분포나 군집을 파악할 때 매우 효과적입니다. 이 글에서는 파이썬의 matplotlib과 plotly을 활용하여 히트맵 벌집 그래프를 그리는 방법을 소개합니다. 2가지 방법의 가장 큰 차이점은 bin의 형태입니다. matplotlib은 육각형, plotly는 사각형으로 시각화합니다. 예제 데이터 이 글에서 예제로 활용할 데이터는 sciki-learn의 iris 데이터입니다. 먼저, 필요한 패키지를 import합니다.im..

Python 2025.07.04

[파이썬] OCR을 활용한 PDF/이미지 텍스트 추출 - pytesseract

OCR을 활용한 PDF/이미지 텍스트 추출 - pytesseract들어가며본문 문서 혹은 이미지 속 텍스트를 자동으로 인식하는 OCR(Optical Character Recognition, 광학 문자 인식) 기술은 디지털 전환 시대에 꼭 필요한 기술입니다. OCR은 온라인 명함 관리, 종이 문서 디지털화 등 다양한 분야에서 활용되고 있습니다.이 글에서는 OCR 라이브러리인 pytesseract를 활용하여 이미지나 PDF 파일에서 텍스트를 추출하는 방법을 소개합니다. pytesseract 설치이미지 텍스트 추출PDF 텍스트 추출pytesseract 설치 pytesseract를 사용하기 위한 설치 방법은 다음과 같습니다.1. pytesseract 설치먼저 pip를 활용하여 이미지를 처리하는 Pillow 패키..

Python 2025.06.13

[파이썬] 제21대 대선 후보 검색 트렌드 시각화 - pytrends, 네이버 데이터랩

제21대 대선 후보 검색 트렌드 시각화 - pytrends, 네이버 데이터랩들어가며2025년 6월 3일은 제21대 대통령 선거입니다. 선거가 일주일 앞으로 다가온 시점에서, 검색 트렌드를 분석하여 유권자들의 관심이 어디에 집중되고 있는지 파악해 보겠습니다.이 글에서는 pytrends와 네이버 데이터랩을 사용하여 대선 후보자의 검색량을 추출하고, 시각화하는 방법을 소개합니다. 분석은 장기간(5년), 단기간(1개월)로 나누어 살펴보며, 관심도의 변화를 확인해 보겠습니다.pytrends와 네이버 데이터랩pytrends는 Google에서 제공하는 검색 트렌드 데이터인 Google Trends를 파이썬에서 쉽게 사용할 수 있도록 도와주는 비공식 API 래퍼 라이브러리입니다. 특정 키워드에 대한 관심도 변화, 지역..

Python 2025.05.27

[파이썬] 결측값 확인 및 처리 - 행/열별 결측값 개수, isna(), fillna()

결측값 확인 및 처리 - 행/열별 결측값 개수, isna(), fillna()들어가며데이터 분석을 하기 전, 결측값에 대한 처리는 매우 중요합니다. 분석의 결과에 영향을 미치는 것뿐만 아니라 신뢰성 저하의 문제도 있습니다. 데이터 전처리 과정에서 어떤 변수에서 결측이 존재하는지 확인하고, 결측값을 처리하는 방법을 소개합니다. 먼저, 결측값이 존재하는 컬럼과 행/열별 결측값 개수를 분석하고, 결측에 대한 처리 순서로 진행합니다.예제 데이터결측값 확인결측값 처리예제 데이터이 글에서 활용할 데이터는 임의로 생성된 난수입니다. 결측값을 전체의 30% 비율로 랜덤하게 삽입했습니다. 아래 파일을 다운로드하여 연습해 보세요.먼저 필요한 패키지인 pandas를 import 하고, 데이터를 불러옵니다.# pip inst..

Python 2025.05.19

[파이썬] 이미지 객체 탐지 - CCTV 이미지를 활용한 교통량 검지

이미지 객체 탐지 - CCTV 이미지를 활용한 교통량 검지들어가며yolov5와 OpenCV를 활용하여 이미지 안의 객체를 탐지하는 방법을 소개합니다. yolov5는 pytorch를 기반으로 구현된 모델이므로 사전에 pytorch 설치가 필요합니다. 공식 github를 참고하세요. 이 글에서는 모든 패키지가 설치되어 있다는 가정 하에 패키지 로드부터 시작합니다.이 글에서는 CCTV 이미지를 활용하여 고속도로의 교통량을 검지하는 방법을 소개합니다. 이미지 안에 차량의 개수를 산출하고 더 나아가 차종을 구분하여 교통량을 산출해 보겠습니다.CCTV 이미지이미지 객체 탐지전체 코드CCTV 이미지CCTV 이미지는 'AI Hub'의 교통문제 해결을 위한 CCTV 교통 영상(고속도로)에서 다운로드했습니다. sampl..

Python 2025.05.01

[파이썬] 날짜 차이 계산, 날짜 범위 리스트 생성 - DateOffset, date_range

날짜 차이 계산, DateOffset/ 날짜 범위 리스트 생성들어가며데이터 분석을 하기 전, 조심해야 하는 부분 중 하나는 날짜, 시간 데이터에 관한 처리입니다. 이 글에서는 날짜 차이 계산, DateOffset을 통하여 특정 기간에 대한 차이 계산, 날짜 범위 추출에 관한 방법을 설명합니다. 예제로 사용하는 데이터는 캐글의 지진 데이터셋입니다.먼저 위의 링크에서 데이터 다운로드 후 read_csv로 데이터를 불러옵니다.df = pd.read_csv('earthquake_1995-2023.csv')df.head()날짜 차이 계산DateOffset날짜 범위날짜 차이 계산 날짜 데이터의 차이를 계산하기 위해서는 데이터 타입을 일치시키는 것이 가장 중요합니다.df 데이터셋에 date_time이라는 지진이 발생..

Python 2025.04.27

[파이썬] 데이터프레임 행 반복 처리 - iterrows, itertuples

데이터프레임 행 반복 처리 - iterrows, itertuples들어가며파이썬에서 데이터프레임의 행을 반복해서 처리하는 작업이 필요할 때 사용하는 iterrows와 itertuples에 대해 소개합니다. 이 글에서 활용할 데이터는 seaborn의 iris 데이터입니다.import seaborn as snsdf = sns.load_dataset('iris')df.head()iterrowsitertuplesiterrowsiterrows는 Pandas DataFrame에서 각 행을 반복할 수 있게 해주는 메서드입니다. 이 메서드는 DataFrame의 행을 순차적으로 처리할 때 유용하며, 각 행에 대해 행의 인덱스와 데이터를 반환합니다. for index, row in df.iterrows(): prin..

Python 2025.04.24

[파이썬] Slack API를 활용한 슬랙 메시지 전송

Slack API를 활용한 슬랙 메시지 전송들어가며파이썬을 활용한 자동화 프로그램을 실행할 때, 슬랙 API를 통해 실시간으로 진행 상황을 확인할 수 있습니다. 예를 들어, 비트코인 자동 매매 프로그램에서 매수/매도에 대한 메시지를 전송하여 현황을 파악할 수 있습니다.이 글에서는 슬랙 API를 활용하여 슬랙 메시지를 전송하는 방법을 소개합니다.앱 생성 w/ 슬랙 API파이썬을 활용한 슬랙 메시지 전송앱 생성 w/ 슬랙 API slack api 페이지에서 Your apps를 클릭합니다.앱 생성을 위한 Create New App을 클릭합니다.From scratch를 선택합니다. From scratch는 처음 앱을 만들고 설정할 때, 더 직관적이고, GUI로 설정을 추가할 수 있습니다.앱 이름(App Name..

Python 2025.04.22

[파이썬] 파이썬을 활용한 좌표 변환 - pyproj

파이썬을 활용한 좌표 변환 - pyproj들어가며파이썬의 pyproj는 지리 데이터를 처리하는 데 매우 유용합니다. 이 글에서는 pyproj를 활용하여 좌표를 변환하는 방법을 소개합니다.예제로 사용할 데이터는 각각의 ID에 대한 좌표에 대한 정보이고, 좌표계는 GRS80입니다. 예제 데이터의 GRS80 좌표를 WGS84 좌표로 변환하겠습니다. 데이터의 구조는 다음과 같습니다. GRS80: 1980년에 정의된 지구 타원체(ellipsoid)를 기반으로 하는 좌표계로 주로 우리나라의 지리 데이터에서 사용WGS84: 전세계적으로 가장 널리 사용되는 좌표계로 1984년에 정의된 세계 지구 좌표계import pandas as pddf = pd.read_csv('coordinates.csv')df1개의 좌표 변환좌..

Python 2025.04.20

[파이썬] 지진 데이터 지도 시각화 - 히트맵, 클러스터링, folium

지진 데이터 지도 시각화 - 히트맵, 클러스터링, folium들어가며파이썬으로 지도를 시각화하는 여러 방법 중 folium 패키지를 활용하여 시각화하는 방법을 소개합니다. folium은 leaflet.js를 기반으로 하여 웹 지도를 만들 수 있는 라이브러리입니다. 인터랙티브 지도를 웹브라우저에서 렌더링 할 수 있으며, 간단한 사용법으로 다양한 마커, 경로 등을 추가할 수 있습니다. 이 글에서는 folium을 활용하여 지진 데이터를 히트맵으로 시각화하는 방법을 소개합니다.지진 데이터지진 데이터를 활용한 히트맵 시각화지진 데이터를 활용한 클러스터링 시각화지진 데이터이 글에서 활용할 데이터는 미국 지질조사국(USGS)에서 제공하는 지진 데이터입니다. USGS는 전 세계 지진 데이터를 제공하는 가장 중요한 기관..

Python 2025.04.17

1 2 3

안녕하세요 6년차 데이터사이언티스트/데이터분석가 GH입니다. 매일의 발견과 지금까지 겪었던 시행착오에 관해 기록합니다. 찾아와주셔서 감사합니다. ** 한걸음(명): 쉬지 아니하고 더 나아가 걷는 걸음이나 움직임. e-mail: wewegahyun@gmail.com

160x600

Folium, numpy, cx_oracle, pandas, json, openweather, pivot_table, matplotlib, 딥러닝, AttributeError, datetime, RDS, API, KONLPY, tfidvectorizer, xlsx, 파이썬, Python, OS, BeautifulSoup,

Today :
Yesterday :

데이터 사이언스로 한걸음

Python 25

티스토리툴바