반응형

전체 글 95

[파이썬] 결측값 확인 및 처리 - 행/열별 결측값 개수, isna(), fillna()

결측값 확인 및 처리 - 행/열별 결측값 개수, isna(), fillna()들어가며데이터 분석을 하기 전, 결측값에 대한 처리는 매우 중요합니다. 분석의 결과에 영향을 미치는 것뿐만 아니라 신뢰성 저하의 문제도 있습니다. 데이터 전처리 과정에서 어떤 변수에서 결측이 존재하는지 확인하고, 결측값을 처리하는 방법을 소개합니다. 먼저, 결측값이 존재하는 컬럼과 행/열별 결측값 개수를 분석하고, 결측에 대한 처리 순서로 진행합니다.예제 데이터결측값 확인결측값 처리예제 데이터이 글에서 활용할 데이터는 임의로 생성된 난수입니다. 결측값을 전체의 30% 비율로 랜덤하게 삽입했습니다. 아래 파일을 다운로드하여 연습해 보세요.먼저 필요한 패키지인 pandas를 import 하고, 데이터를 불러옵니다.# pip inst..

Python 2025.05.19

[파이썬] pyfiglet을 활용한 ASCII ART 아스키 아트

pyfiglet을 활용한 ASCII ART 아스키 아트들어가며ASCII 아트란 다음 이미지와 같이 단순한 텍스트 출력이 아닌 그림이나 디자인처럼 보이도록 꾸민 텍스트 표현 방식입니다.ASCII 아트 활용 방법파이썬을 활용한 ASCII 아트ASCII 아트 - 폰트 변경ASCII 아트 - 폰트 색상 변경ASCII 아트 - 배경 색상 변경ASCII 아트 활용 방법 ASCII 아트는 다음과 같이 다양한 용도로 활용할 수 있습니다. 1. 로고 및 배너: 프로젝트의 독특한 로고나 배너를 만들 때 사용될 수 있습니다. 특히 터미널 기반 애플리케이션이나 초기 화면에서 유용합니다. 2. 문서화: 코드 파일의 주석으로 사용하여, 코드의 섹션을 명확히 구분하거나 중요 정보를 강조할 수 있습니다.3. 디버깅 및 로그: 로그 ..

Python 2025.05.13

[NLP] TF-IDF, Term Freq.-Inverse Document Freq. 개념 정리

TF-IDF, Term Frequency-Inverse Document Frequency 개념 정리들어가며TF-IDF(Term Frequency- Inverse Document Frequency)는 문서 집합에서 단어의 중요도를 평가하는 데 사용하는 통계적 수치입니다. 예를 들어, TF-IDF를 활용하여 자주 등장하는 일반적인 단어보다는 특정 문서에만 등장하는 '알고리즘', '신경망' 같은 단어를 더 중요한 키워드로 판단할 수 있습니다. 단순히 등장 횟수만으로 중요성을 판단할 경우, 너무 자주 등장하는 단어(the, and, is)가 불필요하게 높게 평가되므로 전체 문서의 희귀성을 함께 고려하여 중요한 단어를 가려냅니다.TF-IDF 수식TF-IDF 예제파이썬을 활용한 TF-IDFTF-IDF 수식 TF |..

이론 2025.05.06

[파이썬] 이미지 객체 탐지 - CCTV 이미지를 활용한 교통량 검지

이미지 객체 탐지 - CCTV 이미지를 활용한 교통량 검지들어가며yolov5와 OpenCV를 활용하여 이미지 안의 객체를 탐지하는 방법을 소개합니다. yolov5는 pytorch를 기반으로 구현된 모델이므로 사전에 pytorch 설치가 필요합니다. 공식 github를 참고하세요. 이 글에서는 모든 패키지가 설치되어 있다는 가정 하에 패키지 로드부터 시작합니다.이 글에서는 CCTV 이미지를 활용하여 고속도로의 교통량을 검지하는 방법을 소개합니다. 이미지 안에 차량의 개수를 산출하고 더 나아가 차종을 구분하여 교통량을 산출해 보겠습니다.CCTV 이미지이미지 객체 탐지전체 코드CCTV 이미지CCTV 이미지는 'AI Hub'의 교통문제 해결을 위한 CCTV 교통 영상(고속도로)에서 다운로드했습니다. sampl..

Python 2025.05.01

[Algorithm] 선형 회귀분석 - Linear Regression Analysis

선형 회귀분석 - Linear Regression Analysis들어가며선형 회귀분석은 머신러닝의 가장 기초가 되는 모델입니다. 선형 회귀분석의 기본 구성은 다음과 같이 종속변수와 독립변수로 이루어집니다.종속변수 Target: 연속형 변수. ex) 집 가격, 주식 가격 등독립변수 Feature: 종속변수에 영향을 미칠 수 있는 변수. ex) 집의 크기, 위치, 방의 개수 등종속변수가 연속형 데이터일 때 사용하며, 특정 독립변수가 종속변수에 미치는 영향을 분석하여 연속적인 수치 값을 예측하는 데 적합합니다. 선형 회귀분석은 독립변수의 개수에 따라 단순/다중 선형 회귀분석으로 분류할 수 있습니다. 독립변수가 1개일 때는 단순 선형 회귀분석, 2개 이상일 때는 다중 선형 회귀분석으로 분류합니다.단순 선형 회귀..

이론 2025.04.30

[파이썬] API를 활용한 유튜브 크롤링 - 댓글, 조회수, 좋아요 수 수집

API를 활용한 유튜브 크롤링 - 댓글, 조회수, 좋아요 수 수집들어가며이 글에서는 유튜브의 댓글, 조회수, 좋아요 수를 크롤링하는 방법을 소개합니다. Google의 YouTube Data API v3을 활용하여 공식적으로 안정적인 데이터 수집이 가능합니다.본격적인 데이터 수집을 하기 전에 구글 클라우드에서 API KEY를 발급받는 과정부터 시작합니다. 그리고 검색 쿼리에 해당하는 영상ID를 추출 후, 영상의 댓글, 조회수, 좋아요 수를 수집합니다. 마지막 단계에서는 크롤링 자동화를 위해 영상ID, 댓글, 지표 추출을 모두 사용자 정의 함수로 구현합니다. Google YouTube Data API v3는 기본적으로 무료로 제공되지만, 일일 사용량 쿼터 제한이 있습니다. 제한을 초과할 경우, 과금이 발생할..

Python 2025.04.28

[파이썬] 날짜 차이 계산, 날짜 범위 리스트 생성 - DateOffset, date_range

날짜 차이 계산, DateOffset/ 날짜 범위 리스트 생성들어가며데이터 분석을 하기 전, 조심해야 하는 부분 중 하나는 날짜, 시간 데이터에 관한 처리입니다. 이 글에서는 날짜 차이 계산, DateOffset을 통하여 특정 기간에 대한 차이 계산, 날짜 범위 추출에 관한 방법을 설명합니다. 예제로 사용하는 데이터는 캐글의 지진 데이터셋입니다.먼저 위의 링크에서 데이터 다운로드 후 read_csv로 데이터를 불러옵니다.df = pd.read_csv('earthquake_1995-2023.csv')df.head()날짜 차이 계산DateOffset날짜 범위날짜 차이 계산 날짜 데이터의 차이를 계산하기 위해서는 데이터 타입을 일치시키는 것이 가장 중요합니다.df 데이터셋에 date_time이라는 지진이 발생..

Python 2025.04.27

[파이썬] 데이터프레임 행 반복 처리 - iterrows, itertuples

데이터프레임 행 반복 처리 - iterrows, itertuples들어가며파이썬에서 데이터프레임의 행을 반복해서 처리하는 작업이 필요할 때 사용하는 iterrows와 itertuples에 대해 소개합니다. 이 글에서 활용할 데이터는 seaborn의 iris 데이터입니다.import seaborn as snsdf = sns.load_dataset('iris')df.head()iterrowsitertuplesiterrowsiterrows는 Pandas DataFrame에서 각 행을 반복할 수 있게 해주는 메서드입니다. 이 메서드는 DataFrame의 행을 순차적으로 처리할 때 유용하며, 각 행에 대해 행의 인덱스와 데이터를 반환합니다. for index, row in df.iterrows(): prin..

Python 2025.04.24

[파이썬] 토이 프로젝트 - 테니스 코트 정보 확인(날씨 예보, 주차 등)

토이 프로젝트 - 테니스 코트 정보 확인(날씨 예보, 주차 등)들어가며파이썬을 활용해서 재밌는 프로젝트를 찾던 와중에 좋은 생각이 났다. 테니스 동호회 활동을 하고 있는데, 비가 오는 날씨면 코트 주변에 살고 있는 사람들에게 시간 단위로 비가 오는지 안 오는지 묻는 과정에서 코트에 대한 날씨 정보 사이트를 만들어보기로 했다. 현재까지 사이트에 추가하려고 생각한 내용은 코트에 대한 시간별 날씨 예보, 주차 정보, 예약 사이트, 위치(지도)이다. 자세한 내용은 하나씩 추가를 하며 좀 더 고민해봐야 할 것 같다.사용한 툴은 파이썬과 streamlit이다. 올해 초에 대시보드 툴로 알게 된 streamlit을 활용하여 작성했다. 나중에 사이트가 좀 더 완성도를 갖추게 되면 깃허브로 공개할 예정이다.테니스 코트 ..

Python 2025.04.23

[파이썬] Slack API를 활용한 슬랙 메시지 전송

Slack API를 활용한 슬랙 메시지 전송들어가며파이썬을 활용한 자동화 프로그램을 실행할 때, 슬랙 API를 통해 실시간으로 진행 상황을 확인할 수 있습니다. 예를 들어, 비트코인 자동 매매 프로그램에서 매수/매도에 대한 메시지를 전송하여 현황을 파악할 수 있습니다.이 글에서는 슬랙 API를 활용하여 슬랙 메시지를 전송하는 방법을 소개합니다.앱 생성 w/ 슬랙 API파이썬을 활용한 슬랙 메시지 전송앱 생성 w/ 슬랙 API slack api 페이지에서 Your apps를 클릭합니다.앱 생성을 위한 Create New App을 클릭합니다.From scratch를 선택합니다. From scratch는 처음 앱을 만들고 설정할 때, 더 직관적이고, GUI로 설정을 추가할 수 있습니다.앱 이름(App Name..

Python 2025.04.22
반응형