오하이오의 낚시꾼

데이터 사이언스 도구를 쓰고 (소위 돌리고) 해석할 줄만 알면 되고, 그 뒤에서 뭐가 어떻게 돌아가는지는 몰라도 상관없다는 태도에 대한 좋은 반례가 하나 있는 것 같아 포스팅합니다. Zillow는 미국의 부동산 관련 회사입니다. 데이터 사이언스 업계에서는 몇 년 전 집값 예측 대회를 주최한 것으로 유명합니다. 최근 사업상 어려움으로 인해 인력을 감축하기도 했습니다.

https://www.businessinsider.com/zillow-homebuying-unit-shutting-down-layoffs-2021-11

그런 Zillow에서 time-series forecasting 관련해서 말들이 나오면서 조금 시끄럽습니다. 집값 예측이 잘 안 맞는다는 것인 듯합니다. 문제는 Zillow가 페이스북에서 내놓은 forecasting library인 Prophet을 사용한 것 같은데, 그게 안 좋은 결과로 이어지지 않았나 하는 추측입니다. (이 추측이 정확한지에 대해서는 의견이 분분한 것 같습니다) 자세한 것은 아래 글을 참조하시기 바랍니다.

https://ryxcommar.com/2021/11/06/zillow-prophet-time-series-and-prices/?fbclid=IwAR0TRaNOgraq6I8ImhU_zP5XGl-6bT8V0WVERr00vnhaaCeYulQNMmWg0Z4

Prophet은 시계열 예측 업무를 거의 다 자동화하는 도구인 듯합니다. 페이스북 측에 의하면 "Get a reasonable forecast on messy data with no manual effort. Prophet is robust to outliers, missing data, and dramatic changes in your time series." 라고 합니다. 보통 시계열 예측에 사용되는 ARIMA, exponential smoothing, harmonic regression 등은 많은 parameter들을 튜닝해 주어야 하는데 Prophet에서는 거의 자동으로 이루어지는 것 같습니다. 그런 점에서 autoML과도 철학상 공통점이 있는 것 같아 보입니다.

아무튼 위 블로그 포스팅 본문 중 이런 지적이 있습니다:

"The requirement that people come to your company knowing how to use piss easy baby tools is an extremely dumb and lazy hiring practice. It is also, unfortunately, a common practice in data science job postings. The aggregate effect of this practice being widespread is that talented people with unusual backgrounds get gatekept out of good paying jobs that they’d be exceptional at. Making fun of the job posting and using Prophet has been compared to gatekeeping. To be clear, the Prophet prerequisite is an actual form of gatekeeping being undertaken by a major company that has actual material impacts on people’s careers. The job post excludes people not based on aptitude, but based on whether they have previous experience and familiarity with a tool they could be introduced to and then master in under 15 minutes. A tweet making fun of the job posting is not gatekeeping. Get over it, LinkedIn clout chasers."

흔히들 자동화 도구만 나오면 모든 문제에 적용할 수 있고, 따라서 그 분야를 깊이 아는 사람들의 필요성은 줄어드는 것처럼 이야기하곤 합니다. 저는 그런 입장에 (물론) 반대하는 편이고요. 그런 점에서 한 번쯤 들여다볼만한 반면교사 사례가 아닌가 하여 포스팅해 봅니다. 물론 모든 도구를 아주 자세하게 이해하는 것은 어렵습니다. 그러나 도구를 안정적으로, 그리고 오남용하지 않는 방식으로 쓰기 위한 정도의 최소한의 이해가 있어야 한다는 점은 고려돼야 하지 않을까 합니다. 더불어 이 글에서도 지적하듯, 데이터과학자 선발 절차에서도 실제로 자신이 무엇을 하고 있는지 이해하는 사람을 선발해야 한다는 취지에도 크게 공감이 됩니다.

'자료실 > 주식' 카테고리의 다른 글

강병호 - 삼성전자와 GAA, HighNA EUV, FinFET  (0) 2021.12.03
전환사채와 풋옵션 제3자 지정  (0) 2021.11.11
초국가적 괴물 된 GAFA에 소송법개정은 ...  (0) 2021.11.03
샤프슈터 베터리  (0) 2021.10.29
KOYFIN  (0) 2021.10.27

+ Recent posts