반응형

Python 69

[파이썬] 파일 이동, 폴더 변경 - shutil

파일 이동, 폴더 변경 - shutil들어가며파일을 이동할 때 사용하는 윈도우 cmd의 mv 명령어를 파이썬에서도 사용할 수 있습니다. 파이썬의 shutil을 활용하면, 여러 개의 파일을 빠르게 이동할 수 있습니다. 1개의 파일 이동뿐만 아니라 여러 개의 파일 이동도 가능합니다.1) 1개의 파일 이동먼저 필요한 패키지인 shutil을 import 합니다. shutil은 파이썬 내장 메모리에 포함되어 있으므로 따로 설치가 필요하지 않습니다.import shutil바탕화면에 위치한 test_sample.txt를 바탕화면의 imsi 폴더로 이동해 보겠습니다. 다음과 같이 shutil.move를 통해 이동 전 경로와 이동 후 경로를 넣어주기만 하면 됩니다.shutil.move('C:/Users/USER/Desk..

Python 2025.04.04

[파이썬] datetime 타입 변환/ 날짜 요소 추출(dt)/ 현재 날짜, 시간 표현

datetime 타입 변환/ 날짜 요소 추출(dt)/ 현재 날짜, 시간 표현들어가며데이터 분석을 하기 전, 조심해야 하는 부분 중 하나는 날짜, 시간 데이터에 관한 처리입니다. 이 글에서는 to_datetime을 통한 데이터 타입 변경과 dt 함수를 통한 날짜 요소추출 그리고 현재 날짜, 시간을 표현하는 방법에 대해 설명하겠습니다. 예제로 사용하는 데이터는 캐글의 지진 데이터셋입니다. 먼저 데이터 다운로드 후 read_csv로 데이터를 불러옵니다.df = pd.read_csv('earthquake_1995-2023.csv')print(len(df))df.head()datetime 타입 변환dt 연산자 활용 날짜 요소 추출현재 날짜, 시간 표현datetime 타입 변환 날짜 데이터를 다루기 위해서 판다스의..

Python 2025.04.04

[파이썬] 내장함수 str - len, split, replace

내장함수 str - len, split, replace[파이썬] 내장함수 str - 슬라이싱, find, contains, strip에 이어서 작성합니다.str.len()str.split()str.replace()str.len()str.len은 문자열의 길이를 반환합니다. 가장 긴/짧은 문자열을 확인할 때 유용합니다.title 변수의 길이를 확인하는 title_len 변수 생성을 한다면 다음과 같습니다.netflix['title_len'] = netflix['title'].str.len()netflix[['title','title_len']].head()title 변수에서 길이가 가장 긴 제목을 찾는다면, 결과는 다음과 같습니다. 넷플릭스 데이터에서 가장 긴 제목은 Chris Smith 감독의 'Jim ..

Python 2025.04.03

[파이썬] 히트맵 그래프, 원하는 색상 설정 - seaborn, matplotlib

히트맵 그래프, 원하는 색상 설정 - sns.heatmap들어가며파이썬에서 sns 패키지를 활용하여 히트맵 그래프 그리는 방법을 소개합니다. matplotlib에서 제공하는 컬러맵 외에 특정 값에 대해 특정 색상을 매핑하여 그래프를 그릴 수도 있습니다. seaborn과 matplotlib을 통하여 다양한 옵션을 넣어 원하는 그래프로 시각화를 할 수 있습니다.데이터 소개히트맵히트맵 색상 설정데이터 소개이 글에서 활용할 데이터는 도로의 일부 구간에 대하여 특정 시간대별 속도를 나타낸 csv 파일입니다. 아래 파일을 다운로드하여 사용해 보세요.import pandas as pddf = pd.read_csv('heatmap_sample.csv', index_col='SECTION_ID')df.head()히트맵m..

Python 2025.04.02

[파이썬] Daum 뉴스 기사 제목, 본문 크롤링 - BeautifulSoup

Daum 뉴스 기사 본문 크롤링 - BeautifulSoup들어가며Daum(다음) 뉴스는 HTML 크롤링이 가능하고, BeautifulSoup을 사용하여 본문 텍스트를 추출할 수 있습니다. 이 글에서는 파이썬으로 뉴스 기사 제목과 기사 본문을 크롤링하는 방법을 소개합니다.Daum 다음 뉴스 크롤링Daum 다음 뉴스 URL 구조Daum 뉴스는 다음과 같이 URL 패턴을 갖고 있습니다. URL 설정크롤링에 필요한 패키지를 import 하고, url 변수에 크롤링할 뉴스 기사의 주소를 저장합니다.import requestsfrom bs4 import BeautifulSoupurl = 'https://v.daum.net/v/20250327161803473'HTTP 요청requests.get() 함수를 사용해 u..

Python 2025.04.01

[파이썬] 특정 폴더 안의 확장자별 파일 리스트 생성 - os.listdir()

특정 폴더 안의 확장자별 파일 리스트 생성 - os.listdir()들어가며여러 개의 파일이 저장된 폴더에서 특정 확장자 파일만을 추출할 때, 파이썬 os의 listdir을 사용하여 편리하게 리스트를 불러올 수 있습니다.파일 리스트 생성먼저 필요한 패키지인 os를 import 합니다.import os원하는 폴더의 경로를 적고 os의 listdir을 활용하여 리스트를 불러옵니다. 현재 monthly_fc 폴더에는 오른쪽 이미지와 같이 csv와 txt 파일이 모두 저장되어 있습니다.csv_list = os.listdir('/Users/monthly_fc/')csv_list[0:5]특정 확장자 파일만 추출하고 싶다면, find를 사용합니다. 만약 위 폴더처럼 csv 파일과 txt 파일이 함께 있는 경우에 cs..

Python 2025.03.28

[파이썬] 특정 키워드 네이버 뉴스 크롤링 - BeautifulSoup

특정 키워드 네이버 뉴스 크롤링 - BeautifulSoup들어가며비트코인 자동 매매 프로그램을 만들기 전에 '비트코인'에 대한 뉴스를 크롤링해서 텍스트 분석을 먼저 진행하기로 했습니다. 우선, '비트코인'을 키워드로 네이버 뉴스 제목을 추출하는 방법을 소개합니다.키워드, URL 설정웹 페이지 요청뉴스 제목 데이터프레임 생성키워드, URL 설정먼저 필요한 패키지인 requests와BeautifulSoup를  import합니다.import requestsfrom bs4 import BeautifulSoup검색할 키워드는 '비트코인'으로 설정했습니다. 네이버 뉴스 url은 형식이 잘 갖춰져있어 크롤링하기 매우 편리합니다.keyword = '비트코인'url = f'https://search.naver.com/..

Python 2025.03.27

[파이썬] 데이터 건수, 평균, 최대/최소값 집계 - pandas groupby

데이터 건수, 평균, 최대/최소값 집계 - 판다스 groupbypandas groupbyjobs_in_data 데이터 소개건수 집계평균 집계2개 이상의 함수 집계pandas groupby데이터 분석을 진행하기 전에, EDA에서 전체 데이터의 분포를 알기 위한 첫 번째 단계는 '데이터 집계'입니다. 집계를 통해 본격적인 분석에 앞서 데이터의 건수는 얼마나 되는지, 통계값으로 분포는 어떻게 되는지를 확인할 수 있습니다. 개략적인 분석이지만, 심화 분석의 방향을 설정하는 데 도움을 줄 수 있습니다. 집계를 하기 위한 여러 방법 중 자주 쓰이는 Pandas의 groupby에 대해 설명합니다.jobs_in_data 데이터 소개 이 글에서 활용할 데이터는 캐글 데이터셋 중 Jobs and Salaries in Da..

Python 2025.03.27

[파이썬] 대용량 csv 파일 부분 조회 - pandas, read_csv, nrows, chunksize

대용량 csv 파일 부분 조회 - pandas, read_csv, nrows, chunksize들어가며용량이 큰 csv 파일을 읽을 때, 전체가 아닌 일부만 조회하여 불필요하게 소요되는 시간을 줄일 수 있습니다.이 글에서 활용할 데이터는 캐글 데이터셋 중 Netflix Movies and TV Shows로 넷플릭스의 영화와 TV쇼에 관한 자료입니다. 데이터는 캐글 사이트에서 다운로드할 수 있습니다. 데이터는 출연진, 감독, 등급, 연도, 기간 등과 같은 세부 정보와 넷플릭스에서 제공되는 모든 영화 및 TV 프로그램 목록으로 구성됩니다. 먼저 필요한 패키지인 pandas를 설치하고 import 합니다.# pip install pandasimport pandas as pd예를 들어, netflix_title..

Python 2025.03.25

[파이썬] 엑셀 통합파일 시트명 리스트 생성 - pandas, ExcelFile

엑셀 통합파일 시트명 리스트 생성 - pandas, ExcelFile들어가며엑셀에서 시트의 개수가 많은 통합파일(.xlsx)의 경우에는 파일을 읽을 때 시트명을 일일이 입력해야 하는 번거로움이 있습니다. 이런 경우에 ExcelFile을 활용하여 시트명을 리스트로 한 번에 불러올 수 있습니다.엑셀 통합파일 시트명 리스트 생성먼저 필요한 패키지인 pandas를 설치하고 import합니다.# pip install pandasimport pandas as pdpandas의 ExcelFile을 활용하여 엑셀 파일을 불러옵니다.xls = pd.ExcelFile('C:/Users/USER/Desktop/excel_sheet_test.xlsx')위에서 불러온 엑셀 통합파일의 시트들을 sheet_names 옵션을 통해 ..

Python 2025.03.23
반응형