본문 바로가기

728x90

코딩이야기

(4)
하루하루 코딩이야기 4 : XGBoost 실습 - 위스콘신 유방암 예측 오랜만에 포스팅하는 것 같은데 오늘은 정형데이터를 다룰 때 자주 사용하는 기법 중 하나인 Boosting계열 그 중에서도 XGB 실습을 해보려고 한다. import xgboost print(xgboost.__version__) # xgboost 버전 확인 XGBoost는 전통적인 파이썬 래퍼 방식이 있고 사이킷런 방식이 있다. 순서는 파이썬 래퍼 XGBoost -> 사이킷런 래퍼 XGBoost로 소개하겠다. ### 파이썬 래퍼 XGBoost 적용 - 위스콘신 유방암 예측 import xgboost as xgb from xgboost import plot_importance import pandas as pd import numpy as np from sklearn.datasets import load_b..
하루하루 코딩이야기 3 : pd.to_datetime(), Datetime feature 다루기 얼마 전에 데이콘에서 열렸던 현대 AI Challenge의 선박 대기시간 예측 데이터를 일부 활용하여 분석 ship data Loading import pandas as pd import datetime # 선박 대기시간 예측 데이터 - 일부만 발췌 ship = pd.read_csv('ship.csv') ship.ATA = pd.to_datetime(ship['ATA']) ship.head() Datetime column인 ATA column을 datetime 형식으로 변환하고 여러 feature 생성하기 1. 연도 : year, 짝수 해, 윤년 ship['year'] = ship.ATA.dt.year # 연도 column 생성 ship['year_2'] = ship.year.apply(lambda x ..
하루하루 코딩이야기 2 : 타이타닉 생존자 예측 2023.11.17 제주도 공모전이 아직 끝나지 않았지만 대구 공모전 데이터도 보면서 리더보드에 점수도 남기고.. 그 기념으로 코딩이야기 두 번째, 타이타닉 생존자 예측 실습을 "내 방식대로" 다시 한 번 정리해보기로 했다. 글의 순서는1. 타이타닉 데이터셋 살펴보기 2. Feature Engineering 3. Pipeline 구축import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.rcParams = "Malgun Gothic" titanic = pd.read_csv('titanic.csv') titanic우리가 예측할 target column은 Survived 1 : 생존 / 0 ..
하루하루 코딩 이야기 1 : Iris 붓꽃 품종 예측하기 2023.11.14 동아리, 공모전, 팀플 등 매우 바쁜 와중에 내가 공부하는, 공부했던 자료에 대한 정리의 필요성을 느껴 정리해보고자 한다. 첫 시작은 사이킷런 패키지에서 제공하는 Iris Data 를 활용한 iris 붓꽃 품종 예측하기 글의 순서는 1. 사이킷런에 대한 소개와 특징 2. 데이터 불러오기 3. 학습 / 테스트 데이터셋 분리 후 점수 측정 4. 시각화 1. 사이킷런 패키지에 대한 소개와 특징 (1) 사이킷런이란? - 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리 (2) 사이킷런의 특징 - 가장 이해하기 쉽고 간편한 API - 다양한 알고리즘 및 프레임워크 제공 - 실전에서 검증된 라이브러리 (3) 사이킷런의 한계 - pytorch, tensorflow와 같은 딥러닝 전문 패..