[데이터사이언티스트를 찾아서] “한국형 빅데이터 찾아야”

윤석용 포스코경영연구소 빅데이터TF팀 부장

[컴퓨터월드] ‘빅데이터’라는 개념이 국내에 알려지고 인구에 회자되기 시작한지도 어느덧 수년이 흘렀다. 미국을 위시한 소프트웨어(SW) 선진국들의 빅데이터 산업이 성장단계에 진입한 사이, 국내 빅데이터 산업은 정체된 채 새로운 기회를 창출하지 못하고 있다는 우려가 일고 있다. 전문인력과 성공사례의 부족은 세간의 부분적으로 왜곡된 인식과 맞물려, 일각에서는 ‘빅데이터는 한물갔다’고 언급되기도 한다.

이 가운데 윤석용 포스코경영연구소 빅데이터TF팀 부장은 “국내 빅데이터 산업의 성공을 위해 ‘한국형 빅데이터’를 찾아야 한다”고 주장한다. 이를 위해 ‘빅데이터 방법론’이라는 새로운 돌파구를 제시하는 그의 이야기에 귀기울여본다.

윤석용 포스코경영연구소(포스리) 빅데이터TF팀 부장은 1989년 포항제철(현 포스코)에 입사해 전산업무를 맡으면서 데이터 분석에 관심을 두게 됐다. 데이터와는 거리가 멀 것 같은 철강 제조과정에서 수많은 데이터가 생성되고, 이를 분석한 수식모델을 조업용 제어시스템에 적용하는 것이 신선한 경험이었다고 한다.

포스리에서 정보관리기술사로서 업무를 수행해온 윤석용 부장은 2010년 하둡(Hadoop)을 이용한 서버 백업시스템을 자체 개발하면서 본격적으로 빅데이터에 대해 연구하기 시작했다. 플룸(Flume), 스쿱(Sqoop), HDFS, H베이스(HBase) 등을 이용한 데이터 수집·저장 기술과 하이브(Hive), 피그(Pig), 맵리듀스(MapReduce), 자바(Java), 파이썬(Python)을 이용한 데이터 전처리 기술을 비교적 일찍 접할 수 있었던 것. 이때 비용절감의 성과를 거둔 것은 이후 사내 빅데이터 관련 업무의 밑거름이 됐다.

특히 윤석용 부장은 기존의 SAS나 SPSS와는 다른 성격을 지닌 분석도구인 R을 접하게 되면서 데이터 분석에 더욱 빠지게 됐다고 밝혔다. 익숙해져있던 절차적 언어나 객체지향 언어와는 달리 ‘R스럽게 코딩’한다는 것이 처음에는 쉽지 않았지만, 간단하게 대량의 데이터를 처리할 수 있는 점에 큰 매력을 느껴 지속적으로 공부하고 활용해왔다는 설명이다.

포스코 그룹이 2013년부터 빅데이터를 전략적으로 추진하면서 윤석용 포스리 부장은 그룹 내 빅데이터 연구반의 일원으로 참여, 포스코의 빅데이터 방법론을 구축하는데 일익을 담당했다. 현재는 포스리 빅데이터 TF팀에서 회사 내·외부의 빅데이터 분석 프로젝트와 빅데이터 컨설팅 업무를 수행하고 있다.

빅데이터의 성공적인 국내 정착을 위해 동분서주하는 그로부터 들은 빅데이터와 데이터 사이언티스트에 대한 견해를 일문일답 형태로 정리했다.

빅데이터 방법론이란 무엇인가.

빅데이터는 데이터 분석을 위한 통계처리나 데이터 수집·저장 기술 등 단지 나무 한 그루를 키우는 이벤트가 아니라, 빅데이터를 통해 기업의 혁신문화 및 기업의 가치를 새롭게 창출할 수 있는 임업(林業)과 같은 비즈니스를 하는데 그 의미가 있다. 데이터를 수집하고 분석모델을 구축하는 과정에 필요한 디지털식 사고는 물론, 이를 비즈니스에 연결해 ROI(투자수익률) 등 유의미한 가치를 고려하는 아날로그식 사고 또한 요구된다.

빅데이터 방법론이 필요한 이유도 이와 같은 맥락이다. 일각에서는 ‘창의성이 요구되는 데이터 분석에 방법론을 적용하는 것은 어렵다’고 이야기한다. 하지만, 한 개인의 역량에 따라 프로젝트의 성패가 좌우된다면, 이는 불확실성을 야기하게 된다. 기업의 프로젝트는 일정 수준의 성과에 대한 반복을 가정, 그 절차와 산출물이 객관적으로 정리되고 품질이 보장돼야 한다. 단발성 프로젝트로 그칠 것이 아니라면, 기업에서 빅데이터 방법론을 준비하는 것은 기본이라고 본다.

빅데이터 방법론을 구축하려면.

방법론은 구성원의 암묵지(暗默知)가 조직의 형식지(形式知)로 정착되는 순환과정에서 구축되는데, 아직 빅데이터는 일부 전문가들의 암묵지 상태에 머물고 있다. 또 KDD, CRISP-DM 등 데이터마이닝을 위한 기존 방법론은 빅데이터의 특성을 살린 고급분석과 빅데이터 아키텍처를 기반으로 하지 않아서 실무에 적용하기 어려운 측면이 있다.

기업 내에서 데이터를 분석해본 분석가들로부터 그 경험을 모으는 것이 우선이고, 기존의 방법론을 바탕으로 빅데이터의 특성에 맞춰 고도화해나가는 과정이 필요하다. 빅데이터 방법론은 데이터의 수집·저장·분석·구현으로 이어지는 빅데이터 라이프 사이클 지원방법과, 빅데이터의 특성을 살린 프로젝트 관리방법으로 구성될 수 있다. 각 과정은 단계별로 세분화돼, 상세한 절차(Procedure)와 중간산출물(Deliverables), 다양한 템플릿(Templates) 및 기법(Techniques) 등이 제공돼야 한다.

요즘 국내 빅데이터 열기가 예전만 못하다고도 하는데.

미국과 영국을 중심으로 한 빅데이터 산업은 성장단계에 진입했다. 그러나 국내의 경우 지난해까지를 빅데이터의 초기 진입단계로 볼 수 있고, 올해도 그 연장선에서 크게 벗어나기 어려울 것으로 전망된다. 그 원인으로는 능력을 갖춘 빅데이터 전문가의 부족과 발표된 빅데이터의 성공사례가 일천한 점에서 찾을 수 있다.

이러한 성공사례 부족 현상은 자료공개를 꺼리는 국내 기업문화뿐 아니라, 그동안 기업에서 추진됐던 빅데이터 프로젝트들의 속성에서도 원인을 찾아볼 수 있다. 주로 자사의 고질적인 문제점을 빅데이터로 해결하고 있어, 기업으로서 이를 공개하기란 결코 쉽지 않기 때문이다. 그러나 국내 빅데이터 산업 활성화를 위해 보다 적극적인 사례 공유가 이뤄져야 하고 이를 위한 정부의 역할도 필요하다.

정부의 공공데이터 개방 또한 개선이 요구된다. 상당부분 공공데이터 개방이 진행되고 있고 개인정보보호 관련 법률 개정도 일부 진척된 점은 고무적이나, 아직은 공공데이터를 분석에 활용하기에는 제약이 많다. 개인정보나 국가안보 관련 자료를 제외한 데이터는 요약된 형태가 아니라 원천데이터(Raw Data)로 제공돼야 하며, 단일화된 데이터 사전(Data Dictionary) 체계로 구축돼 쉽게 이용할 수 있어야 한다. 또한 공공데이터 활용을 활성화하기 위해서는 API 등 다양한 데이터 접근 방법을 제공하고 주기적인 이벤트도 병행할 필요가 있다.

빅데이터 방법론과 더불어 최근 주목하는 분야는.

먼저, 데이터 거버넌스(Data Governance)를 꼽을 수 있다. 데이터 품질이 담보되지 않으면 빅데이터는 단지 양 많은 가비지(garbage)에 지나지 않는다. 빅데이터 프로젝트를 진행해본 기업들이 데이터 품질 확보에 관심을 두는 것도 이와 같은 맥락이다. 전사 차원에서 데이터에 대한 정책, 지침, 표준화 전략을 수립하고 관련 조직과 프로세스를 만드는 것이 무엇보다 중요하다.

기계학습(Machine Learning) 또한 주목받고 있다. 기계학습은 컴퓨팅 파워와 최신 알고리즘으로 트레이닝 데이터를 분석해 모델을 개발하고, 이를 활용해 새로운 데이터를 정확히 판단할 수 있는 일반화(Generalization) 과정이다. 이때 신경망(Neural Network), SVM, 아다부스트(AdaBoost), 랜덤 포레스트(Random Forest) 등의 다양한 알고리즘을 사용하는데, 최근 들어 많은 발전을 이루고 있다.

아울러, 오픈소스 하드웨어(HW) 기반의 사물인터넷(IoT)에 관심을 두고 있다. 아두이노(Arduino), 라즈베리파이(Raspberry Pi) 등 오픈소스 HW는 교육용이나 시험용으로 시작됐으나, 최근 오픈소스 HW가 IoT 구현을 위한 오픈시스템으로 활용되면서 빅데이터 생성 및 인프라의 요소기술 중 하나로 인식되고 있다.

데이터 시각화(Visualization) 역시 중요하다. 데이터 분석 전에 데이터의 형상을 파악하고, 분석과정에서도 다차원의 다양한 시각화 도구를 사용함으로써 그동안 보지 못했던 부분을 볼 수 있기 때문이다. 또 프로젝트의 최종결과와 보고서에 인포그래픽을 이용해 의사전달의 정확성을 높일 수도 있으므로, 통계수치와 시각화 자료를 입체적으로 활용하는 것을 권장한다. 빅데이터 분석시 R을 사용하면 다양한 일반 시각화 패키지(lattice, ggplot2 등)와 업무영역별로 특화된 시각화 패키지를 활용할 수 있다.

IoT, 핀테크, 공개SW 등 키워드들은 빅데이터와 어떤 관계를 갖는가.

IoT(사물인터넷)의 센서 네트워크는 작은 크기의 데이터 통신을 기반으로 하고 있어, 혹자는 스몰데이터의 도래를 이야기하기도 한다. 그러나 무수히 많은 IoT를 통한 데이터의 양산은 필연적으로 빅데이터의 수집·저장 기술이 요구되며, 수집된 데이터 분석을 통한 새로운 비즈니스 창출은 빅데이터 산업에 긍정적인 신호가 될 것으로 보인다.

최근 이슈가 되고 있는 핀테크(FinTech)도 마찬가지다. 핀테크를 통해 O2O(온라인 투 오프라인) 금융이 더욱 일반화됨으로써 기존과는 비교할 수 없을 정도로 많은 데이터가 생산되고, 이 데이터를 분석한 맞춤형 금융서비스의 개발은 빅데이터 영역 확대에 크게 기여할 것으로 전망된다. 보안 관련 이슈의 완벽한 해결 여부가 핀테크 성공의 열쇠다.

하둡, R 등 빅데이터 인프라 기술의 구성요소는 모두 공개SW를 기반으로 하고 있다. 구글, 페이스북 등이 공개SW가 아닌 COTS(Commercial Off-The-Shelf)로만 시스템을 구성하고 운영했다면 지금처럼 빅데이터를 선도하는 기업이 되기 어려웠고, 빅데이터 발전에도 많은 지연이 있었을 것으로 생각된다. 따라서 공개SW는 빅데이터 산업의 인프라라고 할 수 있다.

빅데이터 전문가, 데이터 사이언티스트는 어떤 사람인가.

데이터 사이언티스트는 빅데이터에 대한 충분한 이해를 바탕으로 데이터 분석을 위한 계획을 수립하고, 다양한 형태의 데이터를 분석하고 시각화할 수 있어야 하며, 데이터 수집·저장을 위해 하둡 등 빅데이터 인프라를 활용할 수 있어야 한다. 해당 업무영역에 대한 전문지식(Domain Knowledge)을 바탕으로 분석된 수리·통계적 의미를 이해하고 활용할 수 있는 수준이 요구된다. 무엇보다 가치기반의 비즈니스 의사결정이 이뤄질 수 있도록 인사이트를 제공하는 것이야말로 데이터 사이언티스트의 역할이라고 생각한다.

빅데이터 프로젝트 수행을 위한 데이터 소스, 데이터 수집·저장, 데이터 분석, 비즈니스 적용 등 4개의 단계(Layer)를 모두 다룰 수 있고, 프로젝트 관리와 데이터 거버넌스를 이끌 수 있는 데이터 사이언티스트를 찾거나 단기간에 양성하기란 결코 쉬운 일이 아니다. 진입장벽이 높은데 수요는 많으므로 데이터 사이언티스트 직업의 전망은 밝다고 본다.

데이터 사이언티스트를 단기간에 양성하기는 어려우므로, 중장기적인 계획을 세워 전문교육기관과 기업이 힘을 합쳐 데이터를 충분히 활용해볼 수 있는 환경을 제공하면서 체계적으로 양성을 추진해야 한다. 데이터 사이언티스트 또한 지속적으로 데이터 분석을 위한 전문지식을 향상하지 않았거나 호기심, 창의성, 체계적인 사고능력, 통찰력, 인내심, 의사소통능력 등 인성적인 특성을 갖추지 못한다면 빅데이터의 주변인으로 전락할 수도 있다고 생각한다.

인터뷰를 마치며 향후 계획을 묻는 질문에 대해 윤석용 포스리 부장은 “데이터 분석 관련 저서 작업 및 지식 나눔을 실천하고 싶다”고 답했다. “수많은 기회를 제공하는 빅데이터지만, 국내의 경우에는 찻잔 속의 파도에 그칠까봐 걱정된다”며, “미래를 위해 우리 상황과 여건에 맞는 한국형 빅데이터를 찾아서 분석문화를 정착시켜야 한다”고 강조했다.

윤석용 부장은 이를 위한 외부 강연과 후진 양성으로 바쁜 나날을 보내고 있다. “앞서 접하고 활용해본 경험자로서 빅데이터에 대한 세간의 오해나 정보 부족을 해결해 국내 IT산업 발전에 기여하고, 젊은 후배들에게 데이터 사이언트의 비전을 제시해 도움을 주고 싶다”고 포부를 밝혔다. 시간적인 여유가 나는 대로 국내 어디든지 달려가서 ‘한국형 빅데이터’의 정착을 위해 노력중이라는 그의 모습에서, 국내 빅데이터 산업의 발전을 위한 열정을 엿본다.

상단영역

본문영역

[데이터사이언티스트를 찾아서] “한국형 빅데이터 찾아야”

윤석용 포스코경영연구소 빅데이터TF팀 부장

관련기사

기사 댓글 0

비회원 로그인