정우준 한국R사용자커뮤니티 대표, 조셉 리커트(Joseph Rickert) R스튜디오 앰배서더

[컴퓨터월드] 데이터 분석은 오늘날 전 세계 모든 기업들의 핵심 키워드다. 오랫동안 축적된 데이터로부터 새로운 인사이트를 찾고 비즈니스 결정의 기반을 마련하는 것은 이제 선택이 아닌 필수가 됐다.

데이터 분석이 기업의 핵심 키워드로 떠오르면서, 이를 수행하려는 데이터 과학자들의 선택은 크게 두 가지로 나뉘고 있다. 바로 분석용 프로그래밍 언어의 양대 산맥을 이루고 있는 R과 파이썬(Python)이다. 대부분의 데이터 과학자들은 R과 파이썬 중 하나, 혹은 양쪽 모두를 통해 데이터 분석을 수행한다.

국내 R 사용자들을 위한 ‘R 유저 컨퍼런스 in 코리아 2019(R User Conference in Korea 2019)’가 지난 10월 25일 서울에서 개최됐다. 한국R사용자커뮤니티(R Korea)에 의해 주최된 해당 컨퍼런스에서는 다양한 현업 R 사용자들과 데이터 분석 실무 담당자들이 모여 데이터 분석과 관련된 이슈들을 소개하는 한편, 실제로 R을 사용해 데이터 분석을 수행한 사례들을 통해 산업 현장의 요구와 목소리를 공유하는 자리가 마련됐다.

‘R 유저 컨퍼런스 2019’의 연사를 맡은 정우준 한국R사용자커뮤니티 대표와 R스튜디오의 조셉 리커트(Joseph Rickert)를 만나, 국내외 데이터 분석가들에 대한 조언과 R 사용자 커뮤니티의 이슈에 대해 들어봤다.

▲ 조셉 리커트 R스튜디어 앰배서더

Q. 데이터 분석 수요가 높아지면서 R에 대한 관심도 뜨겁다. 이러한 변화에 어떻게 적응해나가야 하는지?
- 조셉 리커트 : 데이터 분석의 중요성이 더없이 높아진 오늘날, 살아남기 위해서는 누구나 데이터 분석을 수행할 수 있어야 한다. 본인의 역할과 직군에 관계없이 데이터 분석의 중요성이 꾸준히 높아지고 있기 때문이다. 따라서 데이터 분석이 가능한 프로그래밍 언어를 최소한 하나 이상 다룰 수 있어야 한다. 조직 내 데이터 분석 업무를 모두 분석가들에게 맡겨서는 업무 프로세스가 원활히 돌아가지 않는다.

최근 프로그래밍 언어를 다룰 줄 모르는 현업 사용자들을 위해 기능을 간소화한 셀프서비스 데이터 분석 도구들이 많이 나오고 있다. 하지만 이런 도구들에는 범용성이 없다. 특정 데이터 분석 도구를 사용하게 되면 해당 도구를 사용하지 않는 업무나 기업으로 옮겨갔을 경우 할 수 있는 역할에 제한이 생긴다. 그렇기 때문에 편리한 도구를 사용해 지름길로 나아가기보다는 간단한 수준의 데이터 분석은 직접 할 수 있을 정도로 하나 이상의 언어를 익혀두어야 한다.


Q. 전 세계 데이터 분석 시장과 R 사용자들에 비추어, 한국 시장의 특징이 있다면?
- 조셉 리커트 :
가장 두드러지는 점은 새로운 것을 받아들이는 것에 대해 관심이 많고 민첩하다는 것이다. 기업과 개발자들 모두 데이터 분석이라는 새로운 트렌드를 빠르게 받아들였으며 분석을 위한 전문 언어들에도 높은 관심을 보이고 있다. 한국에서 개최된 ‘R 유저 컨퍼런스’ 역시 참가자들이 몇 년 사이에 빠르게 늘어나서 상당한 규모가 됐다.

다만 아쉬운 점이 있다면 커뮤니티에 대한 기여(contribution)가 적다는 점이다. 이는 한국 내 R 사용자 개개인의 문제라기보다는 조직의 문화적인 특성에 영향을 받는 것 같다. 한국 내 사용자들은 새로운 기술에 대해 관심고 습득도 빠르지만, 소속된 조직의 보수적이고 유보적인 형태에 의해 습득한 기술을 사용하는 것에 제한을 받고 있다고 생각한다.

많은 한국 내 조직들은 기술이 안정화됐다고 생각될 때까지 도입을 미루는 경우가 많고, 그래서 새로운 제품이나 프로세스로 받아들일 때까지는 많은 시간이 걸린다. 사용자는 새롭게 익힌 기술을 빠르게 활용할 수 없고, 활용이 늦어지다보니 대가도 늦게 받는다. 이에 따라 처음 기술을 받아들일 때의 열정을 오래 지속하기 힘들고, 열정이 사그라들면서 커뮤니티에 대한 기여도 줄어든다.

- 정우준 : 조셉 리커트가 말한 문화적인 문제는 비단 R 사용자들만이 아니라 국내 조직 대부분이 가지고 있는 문제라고 생각한다. 조직에서 새로운 기술을 전면적으로 도입하고 실패를 감수하며 배워나가려는 문화가 잘 형성돼 있지 않은 것 같다.

한편 국내에서 R 사용자의 증가세는 한풀 꺾인 추세다. 계기는 아마 텐서플로우 API가 파이썬으로 나온 시점이라고 생각한다. 그 이전까지는 R 사용자가 급격하게 늘어났고 지금도 여전히 증가세를 유지하고 있지만, 증가폭은 이전보다 조금 감소했다. 하지만 R과 파이썬 각각의 특징이 있고 주로 사용되는 영역도 다르기 때문에 앞으로도 R에 대한 기업과 사용자들의 수요는 꾸준히 있을 거라고 생각한다.

▲ 정우준 한국R사용자커뮤니티 대표

Q. R과 파이썬은 오늘날 데이터 분석 시장을 이끌어가는 두 개의 핵심 축이다. 흔히 분석의 목적에 따라 둘을 구분해서 사용해야 한다고 하는데, 이에 대한 생각을 들려달라.
- 조셉 리커트 :
두 가지 언어를 굳이 구분해서 쓸 필요는 없다. R과 파이썬 모두 대부분의 데이터 분석 수요에 대응할 수 있고, 어느 언어를 선택하더라도 불편하지 않을 것이다. 예를 들어 텐서플로우를 활용하려는 경우, 공통된 자원(central resource)을 파이썬이나 R 어느 쪽으로도 변환해서 사용할 수 있다. 파이썬은 되고 R은 안된다거나, 혹은 그 반대의 경우가 일어나는 경우는 없다.

그럼에도 불구하고 새롭게 데이터 분석에 입문하려는 사람이 R과 파이썬을 놓고 고민하고 있다면, 두 언어의 장단점을 따지기보다는 본인이 어떤 사람인지를 생각하는 게 중요하다. R은 통계학자들이 만든 언어고 파이썬은 컴퓨터 공학자들이 만든 언어다. 만약 수학적인 개념이나 통계학에 관심이 많다면 R이, 개발자 출신이거나 컴퓨터 공학에 관심이 많다면 파이썬이 더 잘 맞을 것이다.


Q. 개발자들 사이에서는 흔히 파이썬이 R보다 입문하기 쉽다고 여겨진다. 이러한 평가 생기는 이유는 무엇인가?
- 정우준 :
사용자들의 시작점이 저마다 다르기 때문이다. 어떤 문제를 접했을 때 해결책을 떠올리는 방식의 차이, 그런 것 때문에 서로에 대한 오해가 있는 것 같다.

예를 들어 통계학자들이 만든 R은 분석에 특화된 언어라서 코드를 짠다거나 개발에 적합하지 않다는 인식이 있다. 언어를 배우는 것뿐만 아니라 통계이론이나 데이터 분석에 대한 전반적인 지식을 함께 습득해야 한다. 반편 파이썬은 데이터 분석을 수행할 때도 코드 위주로 접근한다. 개발용 언어다보니 개발자들 입장에서는 언어적인 특성이 더 쉽게 느껴질 수 있다.

하지만 이를 뒤집어서 생각하면, 통계학자 입장에서는 파이썬보다 R이 더 쉬울 수 있다. 이들은 이미 많은 통계이론들을 익히고 있지만 코딩은 익숙하지 않기 때문이다. R은 파이썬에 비해 데이터 분석과 관련된 라이브러리를 더 잘 갖추고 있기에, 코딩이 미숙한 통계학자들 입장에서는 보다 편리하게 접근할 수 있다. 반면 개발자들은 파이썬이 요구하는 몇 줄의 코딩이 그다지 어렵지 않다. 가령 몬테카를로 시뮬레이션(Monte Carlo Simulation)을 수행할 때 정규 분포된 데이터에서 100개의 값을 가져온다면, 파이썬이 R보다 더 많은 코드를 입력해야 한다.

- 조셉 리커트 : 어느 언어가 더 쉽냐고 묻는 것은 그 언어를 공부하는 개인에 따라 다르다고 답할 수 밖에 없다. 파이썬이 접근성이 좋다는 건 머신러닝을 포함한 다양한 라이브러리를 R보다 쉽게 쓸 수 있기 때문이다. 하지만 R은 수학적인 쿼리나 커뮤니케이션에 능한 언어다. 통계학에 대한 지식이 많거나 본인의 업무에서 수학적인 모델을 자주 사용한다면 R이 편하게 느껴질 것이다. 따라서 본인이 지금까지 익혀온 것들과 앞으로 수행할 것으로 예상되는 업무를 잘 분석해서 본인에게 맞는 언어를 찾아야 할 것이다.


Q. 새롭게 R을 통해 데이터 분석에 입문하고자 하는 이들에게 조언한다면?
- 조셉 리커트 :
만약 어느 정도 업계 경력이 있지만 데이터 분석은 처음 입문하는 입장이라면, 쿡북(CookBook)을 활용해 재미와 만족감을 얻을 수 있을 것이다. 예를 들어 금융권에서 근무하던 사람이라면 고객에게 최적의 금융 서비스를 제공하기 위해 어떤 데이터를 어떻게 표현해야 할지 구상해낼 수 있을 것이다. 다만 이런 아이디어를 R을 통해 구체화시키고 그래프로 표현해내기 위해서는 따로 공부를 해야할 것이다. 이 경우 손쉬운 예시와 방법을 소개해주는 쿡북을 활용한다면 즉각적인 효과를 볼 수 있고, 이를 통해 만족감을 얻으며 지속적인 학습 동기를 얻을 수 있다.

완전히 처음부터 경력을 시작하는 입장이라면 본인이 R을 통해 무엇을 하고 싶은 지부터 생각해야 할 것이다. 최근 많이 사용되는 자연어처리 기술을 예시로 들어보자. 자연어처리는 용도가 다양하고 많은 가능성을 가진 기술이지만, 업계에 대한 지식이 부족하면 무엇을 위해 사용해야 할지 모르게 된다. 지속적으로 동기를 확보하기 위해서는 목표가 필요하고 이는 R도 마찬가지다. 새로운 언어를 익히고 데이터 분석의 방법론을 학습하기 전에 R을 통해 하고 싶은 것을 찾아야 한다.

가장 중요한 것은, 경력과 무관하게 R을 사용하다가 막히는 부분이 있다면 커뮤니티를 적극적으로 활용해야 한다는 점이다. 전 세계에서 R은 가장 중요한 언어 중 하나고, 많은 사람들이 R 커뮤니티에서 활동하고 있다. 커뮤니티에서 도움을 구한다면 다함께 해결책을 찾아볼 수 있을 것이다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지