본문 바로가기
생활정보, 레포트, 숙제/독후감

‘데이터 과학자와 데이터 엔지니어를 위한 인터뷰’를 읽고

by 팁텍북 2020. 8. 29.

데이터 과학자와 데이터 엔지니어를 위한 인터뷰를 읽고

로지스틱 회귀, 랜덤 포레스트 등 저농적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지

제이펍

저자는 Zhuge Yue님 등 15명은 칭화대학교 컴퓨터 공학과를 수학하고 Hulu 베이징 연구소에서 근무하고 있습니다. Hulu는 최첨단 비디오 미디어 회사입니다. 한국에서 서비스를 하고 있지 않아 생소할 수 있으며, 넷플릭스를 잡기 위해 디즈니, 21세기 폭스, 파임 워너 등 전통 미디어기업의 공동 투자로 만들어진 기업이라고 합니다. 옮긴이에 따르면 3천만명의 유료구독자를 가지고 있고 추천 시스템, 알고리즘 마케팅, 영상 및 텍스트 분석에 특화된 AI기술을 보유하고 있습니다.

Zhuge Yue는 책을 통해 인공지능과 머신러닝에 관심 있는 독자들이 이 분야의 기본 기능을 더 깊게 이해시키고, 기본기가 있는 독자는 고수가 되도록 돕고 싶다고 하였습니다.

책의 내용은 인공지능의 실무 엔지니어가 아닌 제 입장에서는 책 내용이 어려운 부분도 있었는데, 책은 각 문제에 난이도를 별 하나에서 다섯 개로 구분해주며 이를 참고하고 간단한 내용부터 학습하는 것을 권하고 있습니다.

 

책을 통해 특히, 현업에서 경사하강법을 사용하여 해를 구하는 모델들은 일반적으로 정규화가 필요하다는 것을 알게 되었습니다.

피처 정규화 중 선형함수 정규화와 표준 정규화에 대한 소개가 있었으며, 먼저 피처는Feature, 특성을 의미한다고 합니다. 데이터 피처 사이의 영향을 줄이기 위해 정규화를 한다고 소개하였습니다.

 

[책에서 배운 내용으로 직접 사례를 찾아 활동함]

선형함수 정규화를 잘 배워 키와 몸무게 데이터에 대해 실제 정규화를 해보았습니다.

국가기술표준원의 SIZE 코리아에서 제공하는 키와 몸무게의 데이터를 내려 받고, 가장먼저 결측치를 회귀 대체하였습니다.

그 다음, 전 데이터에 대해 선형함수 정규화 수식을 이용하여 데이터를 정리할 수 있었습니다.

키와 몸 무계를 생각해볼 때 서로간의 단위가 다르고 수치의 범위가 키에 비해 몸무게가 큽니다. 두 데이터형태를 0에서 1사이의 값으로 정규화하면 bias를 없애는 효과도 있습니다.

선형함수 정규화

 

앞으로 책의 내용을 더욱 공부하여 전체 머신러닝에 대한 지식을 얻고, 편미분 등 수학을 더욱 학습 후 경사하강법을 유도 및 업무에 응용하고 활용하는 데까지 지식을 넓히고 싶습니다.

감사합니다.

 

* 이 게시물은 제이펍으로부터 감사히 도서를 제공받고 작성한 게시물입니다. 지원해주셔서 고맙습니다.

댓글