통계·데이터과학

[통계.데이터과학] '데이터 과학'의 정의와 '데이터 과학자'를 준비의 필요성

IT꿈나무 2024. 6. 8. 19:02
반응형

 데이터 과학이란 데이터로부터 의미 있는 정보를 추출하는 학문이다. 통계학이 정형화된 실험데이터를 분석 대상으로 하는 것에 비해 데이터 과학은 기업의 실무 현장에서 쌓이는 빅데이터를 대상으로 한다. 데이터 과학은 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다. 데이터 과학은 수학, 통계, 해킹 기술(코딩 기술)과 해당 분야 전문지식이 종합된 분야이다. 데이터 과학은 데이터를 처리하고 분석하는 것뿐만 아니라 데이터 시각화 등 분석 결과를 이해하기 쉽게 표현하는 것 또한 강조하고 있다, 대량의 데이터로부터 가치를 창출해 효과적으로 이용할 것인지를 목적으로 하고 있다. 빅데이터를 이해하고 기술적으로 처리하여 통찰을 구할 수 있는 인력 데이터 과학자의 역할이 대두되고 있다.

 데이터 과학은 전통적인 통계학과는 다르다. 전통 통계학은 모집단을 대표할 수 있도록 정확하고 공정하게 수집한 데이터를 바탕으로 일반적 결론을 도출하는 방법과 관련된 학문이다. 반면 데이터 과학은 모집단과 관련성이 크지 않더라도 수집되고 있는 다양한 형태의 데이터를 통계학 또는 인공지능 방법을 적용하여 분석/예측해서 통찰을 얻는 학문 분야이다.

 데이터 과학자는 데이터 과학과 관련된 업무를 하는 사람이다. 데이터 과학자는 해당 분야의 전문지식을 바탕으로 데이터를 수집, 저장, 가공하고, 다양한 원천의 데이터를 결합 분석하며, 이로부터 새로운 가치를 만드는 일을 한다.

 데이터와 관련된 직무는 데이터 공학자, 데이터 분석자, 데이터 과학자 등으로 구분된다. 데이터 공학자는 컴퓨터 환경과 분석환경을 제공하고, 데이터 분석자는 데이터를 시각화해서 보고서를 만들어낸다. 이때 통계학과 컴퓨터 지식 R, Python을 활용한다. 데이터 과학자는 데이터 분석자보다 심화된 통계학, 수학, 머신러닝 능력과 이를 구현할 수 있는 코딩 능력을 갖춘 자로, 데이터 또는 데이터 분석으로부터 새로운 가치 서비스를 만들고 알고리즘을 만드는 일을 한다. 가트너는 데이터 과학자를 빅데이터 프로젝트를 위해 정보 자산으로부터 인사이트를 추출하며 다양한 분야의 기술을 겸비해 높은 성과를 내는 사람으로 정의하고 있다.

 데이터 과학자가 가져야 할 기술을 하드 스킬과 소프트 스킬로 구분하였다. 하드 스킬은 빅데이터를 처리하고 분석하는데 필요한 이론적, 기술적 지식으로 데이터베이스, 프로그래밍, 통계학, 딥러닝, 머신러닝 텍스트마이닝 등을 지칭한다. 소프트 스킬은 빅데이터에서 가치를 발견할 수 있는 통찰력(창의적 사고, 호기심, 논리적 비판), 스토리텔링, 시각화 등 전달 능력, 다른 분야 전문가와 소통, 협력할 수 있는 능력을 의미한다.

 빅데이터 시대가 되면서 기업의 많은 비즈니스를 데이터 기반으로 전환해야 하는 데 필요한 충분한 데이터 과학자를 찾기 어렵다. 이의 대안으로 시민 데이터 과학자에 대한 관심이 커졌으며, 시민 데이터 과학자는 최적의 머신러닝, 통계학 방법을 찾아 주는 AutoML과 같은 자동화, 지능화된 분석 도구를 이용하여 데이터로부터 비즈니스 혁신하는 사람이다. 기업의 비즈니스가 모두 데이터 기반으로 전환될 때, 현업에서 일하는 거의 모든 사람은 시민 데이터 과학자로의 역할을 해야 할 수 있다. 따라서, 현업의 업무를 동반하면 데이터 과학자로서 해야 할 역할을 준비해야 한다.

반응형