[데이터사이언티스트를 찾아서] “보건복지의 미래는 데이터 속에 있다”

송태민 한국보건사회연구원 통계정보연구실장

[컴퓨터월드] 메르스(중동호흡기증후군) 사태로 인해 우리사회가 한바탕 난리를 겪고 있다. 메르스 감염으로 인한 사망자는 30명을 넘어섰고, 여전히 3천여 명이 격리된 상황이다. 이 같은 대규모 의료재난을 예방하고 대처하기 위해, 공공보건의료에 대한 관심과 그 중요성을 강조하는 목소리는 어느 때보다 높아지고 있다.

송태민 한국보건사회연구원 통계정보연구실장은 보건복지 분야에서 35년간 통계를 다뤄온 베테랑 중의 베테랑이다. 데이터의 흐름이 가치를 창출하는 시대, 보건복지 분야에서의 데이터 분석과 활용은 지금과 같은 위기의 극복 및 우리네 삶의 질 향상에 어떠한 도움을 줄 수 있을까. 이에 대한 해답을 송태민 실장으로부터 들어본다.

주요 약력
- 동국대학교 컴퓨터공학 박사
- 한국보건사회연구원(1980-)
· 전산실장(1986) · 조사통계연구실장(1994) · 건강증진개발센터소장(2004)
· 지식경영정보본부장(2008) · 사회정신건강연구센터소장(2012)
· 통계정보연구실장(2014-)
- 제19회 ‘통계의 날’ 통계발전유공자 대통령 표창(2013)
- 경제인문사회연구회 우수연구자 표창(2015)

한국보건사회연구원(KIHASA)은 보건의료, 국민연금, 건강보험, 사회복지, 사회정책 등 관련 정책과제를 연구·분석해 국가의 장·단기 정책수립에 이바지하는 것을 목적으로 하는 국책연구기관이다. 1981년 가족계획연구원과 한국보건개발연구원의 통합에 따라 발족했으며, 1989년 사회보장심의위원회의 조사·연구 기능도 흡수하면서 현재 명칭으로 거듭났다. 1999년 국무조정실 산하로 소속을 옮겨 지금에 이르고 있다.

송태민 한국보건사회연구원 통계정보연구실장은 동국대학교 전자계산학과(현 컴퓨터공학과) 졸업 후, 한국사회보건연구원의 전신인 가족계획연구원에 컴퓨터프로그래머로 1980년 입사했다. 이후 전산실장, 조사통계연구실장, 건강증진개발센터소장, 지식경영정보본부장, 사회정신건강연구센터소장 등을 거쳐 현재 통계정보연구실장에 이르기까지 35년 동안 한국보건사회연구원 한 곳에서 데이터를 다뤄왔다.

“처음 입사했을 당시 담당했던 주요업무 가운데 하나가 정부의 단산정책 실적평가를 위한 통계분석이었던 반면, 현재는 정부의 출산장려정책 관련 통계분석 연구 및 지원을 이끌고 있는 입장이다” 송태민 실장 스스로 ‘아이러니’라며 털어놓는 이 사실은 세월의 흐름과 더불어 연륜을 느끼게 한다. “오랫동안 보건복지 데이터를 다뤄오다 보니 연구제목만 봐도 자동으로 어떤 데이터를 활용해야 하는지 밑그림이 그려지고 신속한 프로젝트 추진이 가능해졌다. 한우물만 파온 덕분”이라는 것이 그의 설명이다.

국내 공공보건복지 데이터 분석 분야의 산증인이라 할 수 있는 송태민 통계정보연구실장으로부터 들은 빅데이터와 데이터 사이언티스트에 대한 견해를 문답 형태로 정리했다.

보건복지 분야는 빅데이터를 어떻게 바라보나.

빅데이터는 방대한 양의 데이터로, 양적인 의미뿐만 아니라 데이터 분석과 활용을 포괄하는 개념이다. 빅데이터 자체보다는, 빅데이터를 분석해서 인과성을 발견해 실시간으로 미래를 예측할 수 있는 데이터 사이언티스트의 역할이 중요하다. 행복한 사고로 정의되는 우연한 발견(serendipity)은 한 순간에 저절로 다가오지 않는다. 수많은 실험 끝에 푸른곰팡이를 발견한 플레밍과 같이, 연구자는 데이터를 갖고 끊임없이 새로운 분석을 시도할 때 창조적인 발견을 할 수 있다.

최근에는 양(volume), 속도(velocity), 다양성(variety), 신뢰성(veracity), 가치(value), 복잡성(complexity)의 ‘5V 1C’로 빅데이터가 정의되곤 한다. 이 가운데 보건복지 분야에서는 신뢰성이 가장 중시된다. 개인정보 등 민감한 데이터를 다룰 일이 많고, 작은 오류라도 국가와 국민의 안전과 직결되기 때문이다. 이미 정부 및 공공차원에서 기존 레거시시스템을 안정적으로 구축해 빅데이터를 저장·관리하고 있으며, 국가 안전을 위협하는 글로벌 요인이나, 질병, 재해재난 등 사회위험 요인도 예측해 선제적으로 대응할 수 있는데서 그 의의를 찾을 수 있다.

최근 메르스가 사회적으로 문제가 되고 있는데.

지난 5월 19일부터 6월 2일까지 메르스에 대한 SNS, 뉴스미디어, 주요 웹사이트, 블로그 등 온라인 게시물(버즈) 66만 건을 분석해 1차적으로 발표한 바 있다. 이 시기에 메르스에 대한 불안이 71.2%, 안심이 22.3% 정도로 분석됐고, 주로 트위터 등 SNS를 통해 정보가 많이 유통된 것으로 나타났다. SNS가 61만 8,417건으로 91.2%를 차지, 담뱃값 논란 당시의 52.6%보다 높았다.

특히, 메르스 관련 내용을 카페 등을 통해 접한 경우 안심 등 긍정적인 감정이 약 1.8배 증가한 것과 달리, SNS를 통해 접한 경우 메르스에 대해 안심하는 비율이 20% 가량 감소한 것으로 드러났다. SNS를 통해 확산되는 유언비어나 부정확한 정보로 인해 메르스 사태에 대한 사회적인 불안감이 심화되고 있는 것이다. 향후 2차로 약 500만 건의 소셜 빅데이터를 분석해 SNS를 통한 질병 확산의 위험에 대한 연구를 진행, 분석결과를 세계적인 학회지에 게재할 예정이다.

지금은 메르스가 문제가 되고 있지만, 이외에도 위험한 전염병은 많다. 이에 선제적으로 대처하기 위한 근본적인 해결책으로 국가차원의 질병관리 빅데이터 센터가 필요하다고 생각한다. 사후약방문이 아닌, 사전에 위험요인을 파악하고 대응할 수 있도록 해야 한다.

보건복지 분야 데이터 분석 환경에 지적할 점이 있다면.

빅데이터가 화두가 된지 3년여가 흘렀음에도, 여전히 보건복지 분야에서는 이에 대한 기본적인 계획을 수립하는 수준에 머물고 있다. 다른 분야에 비해 플랫폼 구축이 미진하고, 관련 예산 자체도 부족한 편이다. 이제는 시간이 없다. 보건복지부 내 관련 부서, 타 부서 및 지자체, 관련 기관과의 공공 빅데이터 조정 및 연계를 위한 컨트롤타워의 구축이 필요하다.

아울러, 다른 분야보다 공공 빅데이터와 수요자 간의 밀접한 관계가 요구되는 특성상 개인정보보호 문제가 더욱 걸림돌이 된다. 정부3.0을 통해 공공데이터가 공개되고 있지만, 이 가운데 유용한 질병정보 등의 경우 개인 식별이 가능한 개인정보를 포함하고 있다. 때문에 이를 활용하기 위해서는 직접 국민건강보험공단에 방문, 신청 범위 내에서 작업한 분석결과만을 활용해야 하는 실정이다.

따라서 공공 빅데이터의 경우 통합방안보다는 집단별 특성을 분석해 위험집단 또는 수요집단 간 연계를 통해 위험이나 질병에 대한 예측서비스가 제공돼야 한다. 즉, 빅데이터 분석을 통한 개인별 맞춤형 서비스는 프라이버시를 침해할 수 있으므로, 집단별 맞춤형 서비스가 필요하다. 이를 위해서는 정부차원에서 보건복지 분야의 데이터 사이언티스트 양성을 위해 노력해야 할 것이다.

데이터 사이언티스트는 어떤 사람이라고 보는가.

데이터사이언티스트는 데이터를 사랑하는 사람이라고 생각한다. 빅데이터는 노이즈로 가득한 쓰레기더미로 볼 수도 있는데, 이 속에서 분석을 통해 보석을 캐내기 위해서는 그저 결과치만 바라볼 것이 아니라 데이터 자체를 들여다볼 수 있어야 한다. 즉, 데이터를 끼고 살며 데이터와 친해져야 하는 것이다.

요즘 대학의 데이터 사이언티스트 양성과정을 보면 통계 교육에 치우치는 경향이 있는데, C나 자바 등 프로그래밍언어부터 기본적으로 익힐 수 있도록 바뀔 필요가 있다. 데이터 사이언티스트는 주로 컴퓨터와 대화하면서 문제를 풀어나가게 되기 때문이다. 분석을 위해 기초통계 지식은 필수적으로 익혀야 하고, SPSS, SAS, AMOS, HLM, R 등 각종 통계프로그램도 그 용도에 따라 다양하게 활용할 수 있어야 한다.

그리고 빅데이터 분석을 통해 구조방정식, 다층모형, 데이터마이닝, 시각화 등 적합한 방법론을 택해 빅데이터 속에 내재된 인과관계와 연관관계를 찾고, 이를 바탕으로 예측을 할 수 있어야 한다. 개인적으로는 매년 5편 이상의 논문 게재를 통해 새로운 분석 방법론을 발전시키고 있다. 데이터 분석에 대해 끊임없이 공부하고 있으며, 주변에도 책을 정독하고 좋은 연구는 그대로 따라 해볼 것을 권하고 있다. 모창도 계속하면 가수와 점점 비슷해지듯, 좋은 데이터 사이언티스트가 되는 것도 마찬가지다.

그간 수행해온 데이터 분석 사례를 꼽아 달라.

1995년 국민건강증진법 제정에 따라 신뢰성 있는 건강정보를 제공하기 위해 국민건강증진정보시스템을 구축했고, 2000년부터 금연포털사이트, 금연콜센터, 금연클리닉시스템을 차례로 개발·운영하면서 생성된 데이터를 바탕으로 여러 연구논문을 발표했다. 국내 보건소 금연클리닉에서 제공되지 않던 감연 프로그램을 마련하기 위해 흡연량과 니코틴 의존도의 관계를 자기회귀교차지연모형으로 밝혀, 대한의료정보학회가 국제병원연맹에 보내는 국내 대표 논문 중 하나로 뽑히기도 했다.

특히, ‘빅데이터를 활용한 자살요인 다변량 분석’ 논문을 2012년 발표, SSCI에 게재된 바 있다. 구글 트렌드를 활용해 우리나라 자살률과 자살 관련 단어의 검색량의 관계를 다층모형을 적용해 밝혔다. 또한, 지난해 7월부터 올해 3월까지 여성부와 미래부의 ‘빅데이터 기반 위기청소년 예측 및 적시 대응기술 개발’ 연구과제에 참여, 분석을 통해 청소년 자살과 사이버폭력에 대한 위험예측 및 실시간 모니터링 체계를 구축했다.

최근 수행한 소셜 빅데이터 기반 보건복지정책 수요예측 결과, 국민들은 의료민영화에는 반대할 확률이 높지만 원격의료에는 찬성할 확률이 높은 것으로 나타났다. 이를 토대로 원격의료가 의료민영화의 시작이라는 인식을 불식시키기 위해서는 정부와 의료계의 충분한 논의와 합의가 이뤄져야 한다고 제시한 바 있다. 현재는 소셜 빅데이터를 기반으로 국민의 통일인식, 식품안전, 저출산 문제의 해결을 위해 연구하고 있다.

인터뷰를 마치며 향후 계획을 묻는 질문에 대해 송태민 한국보건사회연구원 통계정보연구실장은 “정부가 가진 정형 빅데이터와 소셜 빅데이터의 연계를 통해 사회위험을 보다 정확히 예측하고자 하며, 이에 대한 다양한 분석방법 등을 서적으로 출간할 계획”이라고 밝혔다.

그동안에도 후진 양성을 위해 ‘보건복지연구를 위한 구조방정식모형’, ‘빅데이터 분석방법론’, ‘빅데이터 연구 한권으로 끝내기’ 등 전문서적을 발간했으며, 현재는 ‘R을 활용한 소셜 빅데이터 연구방법론(가칭)’을 집필중이다. 이 중 대한민국학술원 우수도서로 선정된 ‘빅데이터 분석방법론’은 다층모형을 본격적으로 다루는 몇 안 되는 도서로, 책 내용의 공식 하나에 대한 참고문헌을 구하는 것부터 쉽지 않은 과정을 거쳤다.

송태민 실장이 이렇듯 연구 및 저술 활동에 열정을 쏟는 또 다른 이유는 그가 자랑으로 여기는 딸과 함께하기 때문이다. 송 실장과 ‘빅데이터 분석방법론’ 및 ‘빅데이터 연구 한권으로 끝내기’를 공저한 송주영 씨는 미국 미시간주립대학교에서 형사정책/형사사법(criminal justice) 박사과정을 밟으며 데이터 분석가가 됐고, 웨스트조지아주립대학교 범죄학과 조교수를 거쳐 현재 한국형사정책연구원 부연구위원으로 재직 중이다. 부녀가 함께 데이터 분석을 수행하면서 책을 펴내고 있는 것이다.

이제 곧 한국보건사회연구원에서 정년을 맞는 송태민 실장은 앞으로 대학교의 연단에서 데이터 사이언티스트 양성을 위한 길을 걷기를 희망하고 있다. 그의 35년간의 노하우가 녹아든 강연을 통해 많은 학생들이 데이터 사이언티스트로 거듭나기를 기대해본다.

상단영역

본문영역

[데이터사이언티스트를 찾아서] “보건복지의 미래는 데이터 속에 있다”

송태민 한국보건사회연구원 통계정보연구실장

관련기사

기사 댓글 0

비회원 로그인