'2024/06/16 글 목록

Notice

지지플랏의 Data Science

Recent Posts

Recent Comments

Link

« 2024/06 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

목록2024/06/16 (2)

지지플랏의 DataScience

(12) DSforS: Chap6. 6.1. k-최근접 이웃, 거리지표(마할라노비스)

1. 책 목차6.1. k-최근접 이웃6.1.1. 예제: 대출 연체 예측6.1.2. 거리 지표6.1.3. 원-핫인코더6.1.4. 표준화(정규화, z점수)6.1.5. k 선택하기6.1.6. KNN 통한 피처 엔지니어링 2. 본문머신러닝알고리즘을 설명할 때 나는 딱 2가지 알고리즘 중에 하나를 선택해서 설명을 시작한다. 첫 번째는 중학교 때 배웠던 일차방정식을 적용할 수 있는 선형회귀 그리고 유유상종의 원리를 이용한 k-최근접 이웃 방법(KNN). 사실 선형회귀를 시작으로 머신러닝을 설명하는 것은 어느 책이나 동일할 것이다. 반면 KNN부터 설명하는 책은 박해선님의 혼자공부하는머신러닝+딥러닝 에서 발견했는데 이런 시작 방법도 좋다고 생각한다.그런의미에서 k-NN은 꽤나 애정이 가는 알고리즘이기도 하고 지금은..

Data Science/데이터과학을 위한 통계 2024. 6. 16. 17:56

(11) DSforS : Chap5 5.5 불균형 데이터 다루기

1. 책 목차 5.5: 불균형 데이터 다루기5.5.1. 과소표본추출5.5.2. 과잉표본추출과 상향/하향가중치5.5.3. 데이터 생성5.5.4. 비용기반 분류5.5.5. 예측 결과 분석5.6. 마치며2. 본문불균형 데이터는 분류문제에서 굉장히 중요한 데이터 전처리 과정이라고 생각하지만 입문자들에게는 평가절하되는 면이 많다. 이유인 즉슨 Toy Project에서 제시되는 데이터는 일반적으로 전처리하는 과정에서 Class 불균형을 해결하고 오는 경우가 많기 때문이다. 그래서 실제로는 분류문제에서 중요한 방법이다. 하지만 그 처리 방법이 데이터마다, 산업마다 다르기 때문에 예시가 잘 없는 것일 수도 있다는 생각이다. 2.1. 과소표본추출 방법: 가중치 적용일반적으로 데이터가 많아 과소표본(Undersampl..

Data Science/데이터과학을 위한 통계 2024. 6. 16. 15:25

이전 Prev 1 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지지플랏의 DataScience

목록2024/06/16 (2)

지지플랏의 DataScience

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역