05_Data preprocessing: 누락된 데이터 다루기(범주형)
import pandas as pd df = pd.DataFrame([['green', 'M', 10.1, 'class2'], ['red', 'L', 13.5, 'class1'], ['blue', 'XL', 15.3, 'class2']]) df.columns = ['color', 'size', 'price', 'classlabel'] df 순서가 있는 특성 매핑 1) 학습 알고리즘이 순서 특성을 올바르게 인식하려면, 범주형의 문자열 값 ==> 정수로 변환 2) 매핑 함수를 직접 만들어야 한다. In [3]: size_mapping = {'XL': 3, 'L': 2, 'M': 1} df['size'] = df['size'].map(size_mapping) df 나중에 정수값을 다시 원래 문자열 표현으로 변..
2023. 1. 1.
02_머신러닝 with 분류모델(k-neighbor)
가장 간단한 머신러닝 알고리즘(K-최근접 이웃) 사용, 2개의 종류를 분류. In [1]: bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0] bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 500.0, 340.0, 600.0, ..
2022. 12. 2.