Rucrazia's Blog

[번역] 성공적인 데이터 과학자가 되려면 어떤게 필요할까? What Does It Take to be a Successful Data Scientist? 본문

기술 - Review/ Software

[번역] 성공적인 데이터 과학자가 되려면 어떤게 필요할까? What Does It Take to be a Successful Data Scientist?

DoyoungJ 2020. 1. 3. 21:10

[출처 : Harvard Data Science Review, https://hdsr.mitpress.mit.edu/pub/5irjez4q]

Abstract
데이터 과학이 사용하기 쉬운 도구를 통해 완전히 자동화되거나 비 데이터 과학자가 접근할 수 있다는 최근의 주장을 감안할 때, 나는 조직 내에서 데이터 과학의 다양한 역할을 설명한다. 그런 다음, 나는 데이터 과학이 실제 데이터 과학 프로젝트에서 얻은 완전한 경험뿐만 아니라 기초적인 방법에 대한 자세한 이해를 필요로 한다고 결론짓고, 성공적인 데이터 과학자들의 필요한 기술 세트와 그들이 어떻게 얻을 수 있는지에 대한 관점을 제공한다. 자동화나 사용하기 쉬운 도구를 사용하여 특정 분야에서 몇 가지 쉬운 승리를 거두었음에도 불구하고, 성공적인 데이터 과학 프로젝트는 여전히 교육과 훈련을 필요로 한다.
Keywords: data science, analytics, practitioner, education, insights, discovery

데이터 과학자는 드물지만, 새로운 것은 아니다. 수요를 충족시키기 위해 더 많은 교육 프로그램들이 생겨나고 있다. 대학들은 데이터 과학 부서, 센터, 또는 심지어 전체 학부와 학교를 만들고 있다. 온라인 대학에서는 좌우 강좌를 개설하고 있다. 민간 사업자도 단 몇 주 또는 몇 달(또는 때로는 주말에 걸쳐) 데이터 과학 인증을 제시한다.
하지만 여러분의 한계를 극복하고 스스로를 성공적인 데이터 과학자라고 부르는 올바른 접근법은 무엇일까?

1. 이론 or 실천?
지난 몇 년 어느 시점에서, 우리가 그들에게 올바른 도구를 제공한다면, 모든 사람들이 하나의 단순한 솔루션으로 데이터 과학자가 될 수 있다는 희망이 있었다. 그러나 인간의 몸이 어떻게 기능하는지 알아야 하는 의사와 비슷하게, 데이터 과학자는 선택과 권고를 할 수 있도록 최첨단 모델과 알고리즘을 이해할 필요가 있다. 우리는 여기서 데이터 과학자들에 대해 이야기하고 있는 것이지, 데이터 과학자들에 의해 디자인된 블랙박스의 사용자들에 대해서만 이야기하는 것이 아니다. 의사는 우리에게 어떤 약을 먹어야 할지 말함으로써 우리를 의사로 만들고 있지 않다.

 그러나 이론 교육은 충분한가? 여기서 내 대답은 '아니오'이다. 데이터 과학은 툴을 실제 문제에 적용한 경험만큼 알고, 결과가 의심스러울 정도로 긍정적일 때(또는 그저 이상할 뿐) 눈썹을 치켜올리는 ‘gut 느낌’을 갖는 것에 관한 것이다. 나는 우리의 데이터 과학 수업에서 학생들과 함께 이것을 수없이 보아왔다. 초기에, 야심찬 데이터 과학자들이 실기 연습을 시작할 때, 그들이 아무리 똑똑하더라도, 그들은 완전히 벗어난 결과를 내놓는다. 일단 ‘이것이 정말 말이 되느냐?’라는 질문을 받으면, 그들은 자신의 결과를 깨닫고 의문을 갖기 시작하지만, 이것은 학습된 행동이다. 이것들은 종종 신용 거래 벤치마크에서 98%의 정확성에 의문을 제기하는 것만큼 간단한 것이다. 이것이 데이터 오염 문제(결과에 대한 일부 정보를 포함하는 테스트 데이터)를 지적할 수 있는지 궁금해하기 보다는, 학생들은 동기보다 25%의 마진을 자랑스럽게 제시한다.

 성공적인 데이터 과학자가 되기 위해서는 이론에 대해 아는 것과 당신의 결과에서 노하우를 얻고, 믿을 수 있는가를 아는 것이 필요하다. 중요한 문제는 우리가 과정에서도 ‘실제 경험’을 가르칠 수 있느냐 하는 것이다.

2. 연습은 충분한가?
 데이터 과학자가 되고 싶은 사람들은 온라인 데이터 분석 과제인 케글이나 다른 문제에서 실제 경험을 얻었다고 주장한다. 그러나 이러한 도전들은 실무의 중요하지만 작고 상당히 정적인 부분에만 집중되어 있기 때문에 그것은 부분적으로만 사실이다. 일부 데이터 과학자들의 트레이너들은 실제 세계 트랩들을 모델링하면서 실제적인 연습을 하기 시작했다. 예를 들어 KNIME는 데이터를 분석하는 것 외에 데이터를 생성하는 데 사용될 수 있다. 우리는 이것을 우리 자신의 교육 과정에 사용하여 결혼 여부, 소득, 쇼핑 행동, 선호도 및 기타 특징에 대한 주어진 분포와 종속성을 가진 인공 고객에 대한 실제적이고 유사한 데이터베이스를 만든다. 데이터 생성 모듈은 또한 우리가 더 일찍 감지하지 못할 경우 표준 분석 방법을 깨는 특이치, 이상치 및 기타 패턴을 주입할 수 있게 해준다. 하지만 이것은 여전히 놀이터에서 운전하는 법을 배우는 것과 매우 유사하다; 그것은 여러분이 맨하탄 시내에서 운전할 준비를 하지 못했다는 것이다. 우리는 집이나 교실에서 실무를 준비할 수 없다.

 데이터 과학자가 실제로 무엇을 하는지 좀 더 자세히 살펴보자. 많은 글들이 이미 활동의 수평적 확산을 다루었다. 즉, 데이터 소싱, 블랜딩, 변환에서부터 상호작용적이고 분석적인 애플리케이션을 만들거나 모델을 운영 환경에 배치하는 데 이르기 까지 모든 것이다 (그리고 나는 그러한 생산 모델을 모니터링하고 지속적으로 업데이트하는 것에 손도 대지 않는다). 온라인상의 많은 대회는 이러한 주변 활동을 무시하고 모델링 파트에만 초점을 맞춘다. 하지만 문제는 이것만이 아니다. 또한 작업의 수직적 확산을 고려해보자. 왜 우리는 데이터 과학이 필요한가?

3. 데이터 과학?
 데이터 과학은 다양한 유형의 활동에 필요하며, 정교한 기술과 전문지식을 필요로 한다.

초보자
 이것은 우리가 적어도 부분적으로만 따로 연습할 수 있는 가장 쉬운 설정이다. 문제와 목표는 잘 정의되어 있고, 데이터는 대부분 양호한 상태(그리고 존재한다!)이며, 보다 나은 결과를 제공하기 위해 모델을 최적화하는 것을 목표로 한다. 고객 이탈을 예측하고 온라인 광고를 게재하는 등의 과제가 그 예다. 이것들은 근본적으로 사업 이해관계자가 알고 있는 것을 지원하고 확인하며 이 지식을 실천에 옮기는 프로젝트들이다.

이러한 유형의 문제를 다루기 위해 데이터 과학자는 모델과 알고리즘의 안팎을 이해할 필요가 있고 성능을 최적화하기 위해 많은 작은 노브(knob)들을 조정할 수 있어야 한다. 이것은 어느 정도 자동화할 수 있는 작업이며, 실험을 통해 표준 과제에 대한 모델 자동화에 있어서는 경험이 부족한 데이터 과학자를 능가할 수 있다는 것을 알 수 있다.

그러나 이 기본 수준에서도 우리의 데이터 과학자는 데이터가 오염되지 않도록 보장할 수 있을 뿐만 아니라 목표를 최적화하기 위한 [출처 : Harvard Data Science Review, https://hdsr.mitpress.mit.edu/pub/5irjez4q]

 

Abstract

데이터 과학이 사용하기 쉬운 도구를 통해 완전히 자동화되거나 비 데이터 과학자가 접근할 수 있다는 최근의 주장을 감안할 때, 나는 조직 내에서 데이터 과학의 다양한 역할을 설명한다. 그런 다음, 나는 데이터 과학이 실제 데이터 과학 프로젝트에서 얻은 완전한 경험뿐만 아니라 기초적인 방법에 대한 자세한 이해를 필요로 한다고 결론짓고, 성공적인 데이터 과학자들의 필요한 기술 세트와 그들이 어떻게 얻을 수 있는지에 대한 관점을 제공한다. 자동화나 사용하기 쉬운 도구를 사용하여 특정 분야에서 몇 가지 쉬운 승리를 거두었음에도 불구하고, 성공적인 데이터 과학 프로젝트는 여전히 교육과 훈련을 필요로 한다.

Keywords: data science, analytics, practitioner, education, insights, discovery

 

데이터 과학자는 드물지만, 새로운 것은 아니다. 수요를 충족시키기 위해 더 많은 교육 프로그램들이 생겨나고 있다. 대학들은 데이터 과학 부서, 센터, 또는 심지어 전체 학부와 학교를 만들고 있다. 온라인 대학에서는 좌우 강좌를 개설하고 있다. 민간 사업자도 단 몇 주 또는 몇 달(또는 때로는 주말에 걸쳐) 데이터 과학 인증을 제시한다. 

하지만 여러분의 한계를 극복하고 스스로를 성공적인 데이터 과학자라고 부르는 올바른 접근법은 무엇일까?

 

1. 이론 or 실천?

지난 몇 년 어느 시점에서, 우리가 그들에게 올바른 도구를 제공한다면, 모든 사람들이 하나의 단순한 솔루션으로 데이터 과학자가 될 수 있다는 희망이 있었다. 그러나 인간의 몸이 어떻게 기능하는지 알아야 하는 의사와 비슷하게, 데이터 과학자는 선택과 권고를 할 수 있도록 최첨단 모델과 알고리즘을 이해할 필요가 있다. 우리는 여기서 데이터 과학자들에 대해 이야기하고 있는 것이지, 데이터 과학자들에 의해 디자인된 블랙박스의 사용자들에 대해서만 이야기하는 것이 아니다. 의사는 우리에게 어떤 약을 먹어야 할지 말함으로써 우리를 의사로 만들고 있지 않다.

 

 그러나 이론 교육은 충분한가? 여기서 내 대답은 '아니오'이다. 데이터 과학은 툴을 실제 문제에 적용한 경험만큼 알고, 결과가 의심스러울 정도로 긍정적일 때(또는 그저 이상할 뿐) 눈썹을 치켜올리는 ‘gut 느낌’을 갖는 것에 관한 것이다. 나는 우리의 데이터 과학 수업에서 학생들과 함께 이것을 수없이 보아왔다. 초기에, 야심찬 데이터 과학자들이 실기 연습을 시작할 때, 그들이 아무리 똑똑하더라도, 그들은 완전히 벗어난 결과를 내놓는다. 일단 ‘이것이 정말 말이 되느냐?’라는 질문을 받으면, 그들은 자신의 결과를 깨닫고 의문을 갖기 시작하지만, 이것은 학습된 행동이다. 이것들은 종종 신용 거래 벤치마크에서 98%의 정확성에 의문을 제기하는 것만큼 간단한 것이다. 이것이 데이터 오염 문제(결과에 대한 일부 정보를 포함하는 테스트 데이터)를 지적할 수 있는지 궁금해하기 보다는, 학생들은 동기보다 25%의 마진을 자랑스럽게 제시한다.

 

 성공적인 데이터 과학자가 되기 위해서는 이론에 대해 아는 것과 당신의 결과에서 노하우를 얻고, 믿을 수 있는가를 아는 것이 필요하다. 중요한 문제는 우리가 과정에서도 ‘실제 경험’을 가르칠 수 있느냐 하는 것이다.

 

2. 연습은 충분한가? 

 데이터 과학자가 되고 싶은 사람들은 온라인 데이터 분석 과제인 케글이나 다른 문제에서 실제 경험을 얻었다고 주장한다. 그러나 이러한 도전들은 실무의 중요하지만 작고 상당히 정적인 부분에만 집중되어 있기 때문에 그것은 부분적으로만 사실이다. 일부 데이터 과학자들의 트레이너들은 실제 세계 트랩들을 모델링하면서 실제적인 연습을 하기 시작했다. 예를 들어 KNIME는 데이터를 분석하는 것 외에 데이터를 생성하는 데 사용될 수 있다. 우리는 이것을 우리 자신의 교육 과정에 사용하여 결혼 여부, 소득, 쇼핑 행동, 선호도 및 기타 특징에 대한 주어진 분포와 종속성을 가진 인공 고객에 대한 실제적이고 유사한 데이터베이스를 만든다. 데이터 생성 모듈은 또한 우리가 더 일찍 감지하지 못할 경우 표준 분석 방법을 깨는 특이치, 이상치 및 기타 패턴을 주입할 수 있게 해준다. 하지만 이것은 여전히 놀이터에서 운전하는 법을 배우는 것과 매우 유사하다; 그것은 여러분이 맨하탄 시내에서 운전할 준비를 하지 못했다는 것이다. 우리는 집이나 교실에서 실무를 준비할 수 없다.

 

 데이터 과학자가 실제로 무엇을 하는지 좀 더 자세히 살펴보자. 많은 글들이 이미 활동의 수평적 확산을 다루었다. 즉, 데이터 소싱, 블랜딩, 변환에서부터 상호작용적이고 분석적인 애플리케이션을 만들거나 모델을 운영 환경에 배치하는 데 이르기 까지 모든 것이다 (그리고 나는 그러한 생산 모델을 모니터링하고 지속적으로 업데이트하는 것에 손도 대지 않는다). 온라인상의 많은 대회는 이러한 주변 활동을 무시하고 모델링 파트에만 초점을 맞춘다. 하지만 문제는 이것만이 아니다. 또한 작업의 수직적 확산을 고려해보자. 왜 우리는 데이터 과학이 필요한가?

3. 데이터 과학? 

 데이터 과학은 다양한 유형의 활동에 필요하며, 정교한 기술과 전문지식을 필요로 한다. 

 

초보자

 이것은 우리가 적어도 부분적으로만 따로 연습할 수 있는 가장 쉬운 설정이다. 문제와 목표는 잘 정의되어 있고, 데이터는 대부분 양호한 상태(그리고 존재한다!)이며, 보다 나은 결과를 제공하기 위해 모델을 최적화하는 것을 목표로 한다. 고객 이탈을 예측하고 온라인 광고를 게재하는 등의 과제가 그 예다. 이것들은 근본적으로 사업 이해관계자가 알고 있는 것을 지원하고 확인하며 이 지식을 실천에 옮기는 프로젝트들이다. 

 이러한 유형의 문제를 다루기 위해 데이터 과학자는 모델과 알고리즘의 안팎을 이해할 필요가 있고 성능을 최적화하기 위해 많은 작은 노브(knob)들을 조정할 수 있어야 한다. 이것은 어느 정도 자동화할 수 있는 작업이며, 실험을 통해 표준 과제에 대한 모델 자동화에 있어서는 경험이 부족한 데이터 과학자를 능가할 수 있다는 것을 알 수 있다. 

 그러나 이 기본 수준에서도 우리의 데이터 과학자는 데이터가 오염되지 않도록 보장할 수 있을 뿐만 아니라 목표를 최적화하기 위한 수학적 방법으로 적절하게 변환할 수 있는 약간의 경험이 필요하다. 주니어들의 실수의 전형적인 예로는 다양한 유형의 오류에 대해 서로 다른 비용을 무시하거나 학습(Training)에 사용된 데이터가 바이어스가 없음을 깨닫지 못하는 최적화 메트릭을 사용하고 있다 (예: 기존 고객에 대한 모델을 학습하는 것은 완전히 새로운 사람이 좋은 사람인지 아닌지에 대한 추천 사항을 만드는 좋은 기준이 아니다).

 

견습생(Apprentice)
 실제로 이 일은 대개 훨씬 덜 정의되어 있다. 사업주는 그들이 최적화하고자 하는 것이 무엇인지 알고 있지만 명확한 문제 제기도 없고, 올바른 데이터를 가지고 있지도 않다. 이 설정에 대한 고정관념적인 설명은 ‘우리는 이 데이터를 가지고 있다. 그 질문에 대답해 달라!’라는 유형의 프로젝트 설명이다. 그 예로는 기계 고장을 예측하는 것("우리는 모든 것을 측정한다. 기계가 고장나기 하루 전에 우리에게 말해라.")에서부터 고객 만족도를 예측하는 것까지 다양하다.

 여기에서 우리의 데이터 과학자는 수집할 데이터를 식별하고 올바른 질문에 대한 답을 제공하기 위한 올바른 모델을 찾고 학습시키기 위해 이해관계자 및 도메인 전문가와 소통하는 경험이 필요하다. 이것은 또한 데이터의 블랜딩과 변환과 적절한 모델 배치와 모니터링을 보장하는 것에 관한 이론적이지는 않지만 실용적인 많은 작업을 포함한다. 교육에서 우리는 유사한 애플리케이션에 대한 청사진을 제공함으로써 데이터 과학자를 도울 수 있지만, 데이터 유형이 제대로 다루어지지 않거나 모델 최적화 루틴이 약간씩 빗나가기 때문에 자동화는 종종 실패한다. 이 또한 현장의 성숙도에 관한 문제다. 우리는 아직 모든 유형의 문제에 직면하지 않았고, 이러한 유형의 프로젝트들 중 많은 것들이 그들의 해결책에서 창의력을 필요로 한다. 자동화된 해결책이나 경험이 부족한 데이터 과학자가 만든 해결책은 올바른 유형의 해답을 제공하는 것처럼 보일 수 있지만, 그것은 항상 가능한 최선의 해답을 제공하기는 어려울 것이다.

 

전문가
 데이터 과학 활동의 마지막 유형은 사실 정말 흥미로운 것이다. 그 목표는 새로운 분석 활동을 촉발하고 미래 일이 이루어지는 방식을 완전히 바꿀 수 있는 새로운 통찰력을 만드는 것이다. 이런 종류의 설정들은 종종 처음에 잘 설명되지 않는다("해결책이 어떻게 생겼는지 모르지만 내가 보면 알게 될 거야!"). 그리고 데이터 과학자의 일은 이런 유형의 탐구적 가설 생성을 지원하는 것이다. 과거에는 단순하고 상호작용적인 데이터 시각화 환경으로 제한되었지만, 오늘날에는 경험 많은 데이터 과학자가 다른 유형의 패턴 발견 알고리즘이나 예측 모델을 신속하게 시험해 보고 사용자의 피드백을 구체화하는 데 도움을 줄 수 있다. 일반적으로 이러한 피드백의 많은 부분이 ‘우리는 이것을 안다’ 또는 ‘우리는 그것에 대해 신경쓰지 않는다’ 유형의 피드백이 될 것이며, 이는 지속적인 개선으로 이어질 것이다. 그러나 진정한 돌파구는 종종 ‘이상하다, 나는 궁금하다...’라는 유형의 논평에 의해 시작되어 근본적인 종속성에 대한 새로운 가설을 촉발시킨다.

 이러한 유형의 활동을 위해 데이터 과학자는 개방형 연구 유형 질문 및 다양한 유형의 분석 방법과 모델을 신속하게 반복할 수 있는 능력을 필요로 한다. 그것은 상투적인 사고와 기존의 청사진을 뛰어넘을 수 있는 능력을 필요로 하며, 물론 과거의 경험으로부터 배우는 것도 필요로 한다. 이런 종류의 시나리오에서는, 과거 통찰력이 데이터 과학자와 도메인 전문가 모두의 지식을 발전시키고 변화시켰기 때문에, 어제 생성된 통찰력의 유형은 오늘날 흥미롭지 않을수 있다!

 아마도, 이 세분화는 약간 모호하다. 어떤 견습생들은 전문가를 결코 꿈꾸지 않을 것이며, 그것은 잘 정의되어 있고 표준 기술을 사용하여 해결할 수 있는 직업 요건을 가지고 있을 것이다. 그리고 분명히, 이것은 데이터 과학 분야가 성숙함과 시간이 지남에 따라 변할 것이다. KNIME에서 볼 때(우리의 내장 추천 엔진은 익명의 도구 사용 정보에 의존한다) 유명한 90-9-1은 여기에 잘 적용되지 않지만, 여전히 전문가 모듈로 언급되는 노드를 정기적으로 사용하는 사용자(<10%)의 극히 일부에 불과하다. 대다수의 사용자들은 예제 워크플로우 중 하나로 시작하거나(또한 전문가 노드에 의존한다), 비교적 표준적인 모듈 자체를 사용한다. 이는 또한 우리의 대규모 고객과의 대화를 통해 입증된 관점이다. 그곳의 많은 사용자들은 스크래치로부터 처음부터 복잡한 워크플로우를 만드는 대신 워크플로우를 템플릿으로 사용한다.

 

4. 어디로?(Where to?)

 데이터 과학은 컴퓨터 과학과 마찬가지로 이론과 실제의 혼합을 요구한다. 우리가 현재 대부분의 컴퓨터 과학 커리큘럼의 일부로 소프트웨어 프로젝트를 운영하는 방식과 유사하게, 우리는 데이터 과학 커리큘럼에 실용적인 프로젝트를 추가해야 한다. 그러나 성공적인 프로그래머들처럼, 성공적인 데이터 과학자들도 실제 문제를 독립적으로 해결할 수 있기 전에 수년간의 실제적이고 실제적인 경험을 필요로 할 것이다.

 더 쉬운 작업 중 일부를 위해 후배 데이터 과학자들에게 작업을 시키거나 프로세스를 자동화(일부)할 수도 있다. 그러나 데이터 과학의 진정으로 흥미로운 분야를 위해, 우리는 깊은 이론적 이해, 많은 경험, 그리고 명백한 것을 뛰어넘는 사고력을 가진 진정한 마스터 데이터 과학자를 필요로 한다.

 

'기술 - Review > Software' 카테고리의 다른 글

DataBase 1. DBMS 개요  (0) 2017.07.10