반응형

Python 59

[파이썬] 텍스트 빈도 분석을 위한 워드 클라우드(영문) - wordcloud, matplotlib

텍스트 빈도 분석을 위한 워드 클라우드(영문) - wordcloud, matplotlib들어가며워드클라우드는 텍스트 데이터에 존재하는 단어의 빈도에 따라 크기별로 시각화합니다. 한 눈에 데이터의 전반적인 상태를 파악할 수 있다는 장점이 있습니다. 이 글에서는 파이썬으로 워드클라우드를 생성하고, 특정 단어를 제외하거나 커스터마이징하는 방법을 소개합니다.이 글에서 활용할 데이터는 캐글의 스포티파이 이용자 리뷰 데이터 셋입니다. 아래 링크에서 다운로드 받을 수 있습니다.  Spotify User ReviewsExploring Positive and Negative Feedback from Real Users to Uncover Key Insightswww.kaggle.com워드클라우드 생성특정 단어를 제외한 ..

Python 2024.10.30

[파이썬] CCTV 이미지를 활용한 이미지 객체 탐지 - 박스 표시, yolov5

CCTV 이미지를 활용한 이미지 객체 탐지 - 박스 표시, yolov5들어가며CCTV 이미지를 활용하여 객체를 탐지하고, 탐지한 객체에 박스를 표시하는 방법을 소개합니다. yolov5는 pytorch를 기반으로 구현된 모델이므로 사전에 pytorch 설치가 필요합니다. 공식 github를 참고하세요. 이 글에서는 모든 패키지가 설치되어 있다는 가정 하에 패키지 로드부터 시작합니다. cv2와 torch 패키지를 import합니다.import cv2import torchCCTV 이미지이미지 객체 탐지탐지된 객체에 박스 표시CCTV 이미지CCTV 이미지는 'AI Hub'의 교통문제 해결을 위한 CCTV 교통 영상(고속도로)에서 다운로드했습니다. sample 이미지를 matplotlib을 활용하여 확인하겠습니다..

Python 2024.10.22

[파이썬] 데이터프레임 형태 변환 - pandas, melt

데이터프레임 형태 변환 - pandas, melt들어가며  데이터프레임의 형태 변환이 필요할 때, pandas의 melt를 활용한다. melt는 단어 그대로 데이터프레임을 녹여 원하는 형태로 재생성하는 것이다. 특정 열을 기준으로 다른 하나의 열을 활용하여 새로운 데이터프레임을 생성한다.melt먼저 필요한 패키지인 pandas를 import 하고, 데이터를 불러옵니다. sample_melt.csv는 난수를 활용하여 생성한 sample 데이터입니다. 위 파일을 다운로드하여 연습해 보세요.import pandas as pddf = pd.read_csv('sample_melt.csv')dfdf는 10x10 형태의 데이터프레임입니다. df를 melt를 활용하여 데이터 분석에 적합한 형태로 변환하면 다음과 같습니..

Python 2024.10.21

[파이썬] 결측값 확인 및 처리 - 행/열별 결측값 개수, isna(), fillna()

결측값 확인 및 처리 - 행/열별 결측값 개수, isna(), fillna()들어가며데이터 분석을 하기 전, 결측값에 대한 처리는 매우 중요합니다. 분석의 결과에 영향을 미치는 것뿐만 아니라 신뢰성 저하의 문제도 있습니다. 데이터 전처리 과정에서 어떤 변수에서 결측이 존재하는지 확인하고, 결측값을 처리하는 방법을 소개합니다. 먼저, 결측값이 존재하는 컬럼과 행/열별 결측값 개수를 분석하고, 결측에 대한 처리 순서로 진행합니다.예제 데이터결측값 확인결측값 처리예제 데이터이 글에서 활용할 데이터는 임의로 생성된 난수입니다. 결측값을 전체의 30% 비율로 랜덤하게 삽입했습니다. 아래 파일을 다운로드하여 연습해 보세요.먼저 필요한 패키지인 pandas를 import 하고, 데이터를 불러옵니다.# pip inst..

Python 2024.10.16

[파이썬] 데이터 집계 및 요약 - pandas, pivot_table, aggfunc

데이터 집계 및 요약 - pandas, pivot_table들어가며파이썬으로 데이터 분석을 하기 위해 데이터를 집계하고 요약이 필요한 경우에는 pandas의 pivot_table이 매우 유용합니다. 한눈에 보기 편한 표를 만들 수 있는 피벗 테이블 기능에 집계를 할 때 사용하는 groupby의 기능을 aggfunc으로 옵션을 추가하여 사용할 수 있습니다.캐글 데이터 소개이 글에서 활용할 데이터는 캐글 데이터셋 중 미국의 전력 가격에 대한 데이터셋입니다. 2001년부터 2024년 기간 동안의 연도별 월별 지역별 전력 가격, 수익, 판매량에 대한 정보가 있습니다. 자세한 내용은 캐글 사이트를 참고 부탁드립니다.데이터 분석위에서 설명한 데이터셋으로 여러 컬럼들을 활용하여 피벗테이블을 만들어보겠습니다. 피벗테이..

Python 2024.10.14

[파이썬] 파이썬을 활용한 이미지 배경 제거 - PIL, rembg

파이썬을 활용한 이미지 배경 제거 - PIL, rembg들어가며이미지를 활용하여 학습 데이터셋을 생성할 때, 이미지 전처리가 필요합니다. 불필요한 노이즈가 많이 생긴 이미지는 배경 제거가 필수 과정입니다. 이 글에서는 파이썬으로 이미지의 배경을 제거하는 방법을 소개합니다.먼저 필요한 패키지를 import합니다.from rembg import removefrom PIL import Image배경을 제거할 이미지의 input 경로와 output 경로를 input_path와 output_path에 저장합니다.input_path = 'horse_asis.jpg'output_path = 'output.png'이미지 샘플은 픽사베이의 무료 이미지를 사용하겠습니다. 샘플은 다음과 같습니다. 샘플 이미지의 배경인 잔디..

Python 2024.10.07

[파이썬] 데이터프레임 행, 열 선택 - iloc, loc

데이터프레임 행, 열 선택 - loc, iloc들어가며파이썬에서 데이터프레임의 행, 열을 선택하는 경우에는 loc, iloc를 사용합니다. 여러 행 또는 열을 선택할 때, 인덱스를 통하여 손쉽게 원하는 데이터 형태로 인덱싱할 수 있습니다.iloc와 loc를 사용하기 위해서는 인덱스와 라벨에 대한 이해가 필요합니다. 파이썬에서 인덱스는 0부터 시작하므로 순서대로 아래의 이미지와 같이 번호가 부여됩니다. 즉, 행과 열의 위치를 나타내는 번호입니다. 라벨은 컬럼명을 의미합니다. 예를 들어, 아래 데이터프레임의 Occupation 컬럼의 인덱스 번호는 3이고, 라벨은 'Occupation'입니다.데이터 소개  이 글에서 활용할 데이터는 캐글 데이터셋 중 Online Food Dataset로 온라인 음식 주문 플..

Python 2024.10.07

[파이썬] 이미지 객체 탐지 - CCTV 이미지를 활용한 교통량 검지

이미지 객체 탐지  - CCTV 이미지를 활용한 교통량 검지들어가며yolov5와 OpenCV를 활용하여 이미지 안의 객체를 탐지하는 방법을 소개합니다. yolov5는 pytorch를 기반으로 구현된 모델이므로 사전에 pytorch 설치가 필요합니다. 공식 github를 참고하세요. 이 글에서는 모든 패키지가 설치되어 있다는 가정 하에 패키지 로드부터 시작합니다.이 글에서는 CCTV 이미지를 활용하여 고속도로의 교통량을 검지하는 방법을 소개합니다. 이미지 안에 차량의 개수를 산출하고 더 나아가 차종을 구분하여 교통량을 산출해 보겠습니다.CCTV 이미지이미지 객체 탐지전체 코드CCTV 이미지CCTV 이미지는 'AI Hub'의 교통문제 해결을 위한 CCTV 교통 영상(고속도로)에서 다운로드했습니다. sampl..

Python 2024.09.26

[파이썬] 날짜 차이 계산, DateOffset/ 날짜 범위 리스트 생성

날짜 차이 계산, DateOffset/ 날짜 범위 리스트 생성들어가며데이터 분석을 하기 전, 조심해야 하는 부분 중 하나는 날짜, 시간 데이터에 관한 처리입니다. 이 글에서는 날짜 차이 계산, DateOffset을 통하여 특정 기간에 대한 차이 계산, 날짜 범위 추출에 관한 방법을 설명합니다. 예제로 사용하는 데이터는 캐글의 지진 데이터셋입니다.먼저 위의 링크에서 데이터 다운로드 후 read_csv로 데이터를 불러옵니다.df = pd.read_csv('earthquake_1995-2023.csv')df.head()날짜 차이 계산DateOffset날짜 범위날짜 차이 계산 날짜 데이터의 차이를 계산하기 위해서는 데이터 타입을 일치시키는 것이 가장 중요합니다.df 데이터셋에 date_time이라는 지진이 발생..

Python 2024.09.23
반응형