반응형

pandas 7

[파이썬] 날짜 차이 계산, 날짜 범위 리스트 생성 - DateOffset, date_range

날짜 차이 계산, DateOffset/ 날짜 범위 리스트 생성들어가며데이터 분석을 하기 전, 조심해야 하는 부분 중 하나는 날짜, 시간 데이터에 관한 처리입니다. 이 글에서는 날짜 차이 계산, DateOffset을 통하여 특정 기간에 대한 차이 계산, 날짜 범위 추출에 관한 방법을 설명합니다. 예제로 사용하는 데이터는 캐글의 지진 데이터셋입니다.먼저 위의 링크에서 데이터 다운로드 후 read_csv로 데이터를 불러옵니다.df = pd.read_csv('earthquake_1995-2023.csv')df.head()날짜 차이 계산DateOffset날짜 범위날짜 차이 계산 날짜 데이터의 차이를 계산하기 위해서는 데이터 타입을 일치시키는 것이 가장 중요합니다.df 데이터셋에 date_time이라는 지진이 발생..

Python 2025.04.27

[파이썬] 데이터 건수, 평균, 최대/최소값 집계 - pandas groupby

데이터 건수, 평균, 최대/최소값 집계 - 판다스 groupbypandas groupbyjobs_in_data 데이터 소개건수 집계평균 집계2개 이상의 함수 집계pandas groupby데이터 분석을 진행하기 전에, EDA에서 전체 데이터의 분포를 알기 위한 첫 번째 단계는 '데이터 집계'입니다. 집계를 통해 본격적인 분석에 앞서 데이터의 건수는 얼마나 되는지, 통계값으로 분포는 어떻게 되는지를 확인할 수 있습니다. 개략적인 분석이지만, 심화 분석의 방향을 설정하는 데 도움을 줄 수 있습니다. 집계를 하기 위한 여러 방법 중 자주 쓰이는 Pandas의 groupby에 대해 설명합니다.jobs_in_data 데이터 소개 이 글에서 활용할 데이터는 캐글 데이터셋 중 Jobs and Salaries in Da..

Python 2025.03.27

[파이썬] 대용량 csv 파일 부분 조회 - pandas, read_csv, nrows, chunksize

대용량 csv 파일 부분 조회 - pandas, read_csv, nrows, chunksize들어가며용량이 큰 csv 파일을 읽을 때, 전체가 아닌 일부만 조회하여 불필요하게 소요되는 시간을 줄일 수 있습니다.이 글에서 활용할 데이터는 캐글 데이터셋 중 Netflix Movies and TV Shows로 넷플릭스의 영화와 TV쇼에 관한 자료입니다. 데이터는 캐글 사이트에서 다운로드할 수 있습니다. 데이터는 출연진, 감독, 등급, 연도, 기간 등과 같은 세부 정보와 넷플릭스에서 제공되는 모든 영화 및 TV 프로그램 목록으로 구성됩니다. 먼저 필요한 패키지인 pandas를 설치하고 import 합니다.# pip install pandasimport pandas as pd예를 들어, netflix_title..

Python 2025.03.25

[파이썬] 엑셀 통합파일 시트명 리스트 생성 - pandas, ExcelFile

엑셀 통합파일 시트명 리스트 생성 - pandas, ExcelFile들어가며엑셀에서 시트의 개수가 많은 통합파일(.xlsx)의 경우에는 파일을 읽을 때 시트명을 일일이 입력해야 하는 번거로움이 있습니다. 이런 경우에 ExcelFile을 활용하여 시트명을 리스트로 한 번에 불러올 수 있습니다.엑셀 통합파일 시트명 리스트 생성먼저 필요한 패키지인 pandas를 설치하고 import합니다.# pip install pandasimport pandas as pdpandas의 ExcelFile을 활용하여 엑셀 파일을 불러옵니다.xls = pd.ExcelFile('C:/Users/USER/Desktop/excel_sheet_test.xlsx')위에서 불러온 엑셀 통합파일의 시트들을 sheet_names 옵션을 통해 ..

Python 2025.03.23

[파이썬] 디스플레이 옵션 설정 - pandas set_option, reset_option

디스플레이 옵션 설정 - pandas set_option, reset_option들어가며파이썬 판다스에는 디스플레이 옵션을 설정할 수 있는 set_option, reset_option 함수가 있습니다. 데이터프레임에 맞게 세팅 옵션을 맞추면 편리하게 데이터를 조회할 수 있습니다. 활용할 데이터는 kaggle의 Grocery Store Dataset입니다. 아래 사이트에서 다운로드할 수 있습니다.먼저 판다스를 import 하고, 데이터를 불러옵니다.import pandas as pddf = pd.read_csv(r'GroceryDataset.csv')최대 행 수 디스플레이 옵션 최대 열 수 디스플레이 옵션최대 컬럼 폭 디스플레이 옵션디스플레이 옵션 초기화최대 행 수 디스플레이 옵션pd.set_option(..

Python 2025.03.22

[파이썬] zip 파일 read, 압축/ 해제 - read_csv, compression, zipfile

zip 파일 read, 압축/ 해제 - read_csv, compression, zipfile들어가며파이썬에서 zip 파일을 읽고, 쓰는 방법을 소개합니다. read_csv의 compression 옵션을 통하여 압축을 해제하지 않고도 파일을 읽을 수 있습니다. zipfile 패키지를 통해서는 zip 파일을 압축 해제하고, 압축 파일을 생성할 수 있습니다.zip 파일 read - pd.read_csv, compression먼저 필요한 패키지인 pandas를 다운로드하고, import 합니다.# pip install pandasimport pandas as pd만약에 압축된 csv인 test_fc.zip를 읽는다고 가정하겠습니다. read_csv로 파일을 읽을 때, compression='zip' 옵션을 넣..

Python 2025.03.19

[파이썬] 지수 표현 없이 숫자 출력하는 방법 - numpy 배열, 데이터프레임

지수 표현 없이 숫자 출력하는 방법 - numpy 배열, 데이터프레임들어가며다음 예시와 같이 숫자가 매우 크거나 매우 작은 경우에는 읽기 쉽고 간결한 표현을 위해 지수 표기법으로 출력됩니다.ex 1)  $ 123,000 = 1.23 \times 10^{5} \rightarrow 1.23e+5 $ex 2) $ 0.0000123 = 1.23 \times 10^{-5} \rightarrow 1.23e-5 $하지만, 데이터를 직관적으로 파악하기 어렵기 때문에, 일반적인 숫자 표현이 필요합니다. 이 글에서는 지수 표기법으로 출력된 숫자를 소수점으로 출력하는 방법에 대해 numpy 배열과 데이터프레임으로 분류하여 설명합니다. Numpy 배열의 지수 표현필요한 패키지인 numpy를 import 하고, 지수 표기로 표..

Python 2024.12.17
반응형