통계·데이터과학

[통계.데이터 과학] '빅 데이터의 확산'으로 인한 '데이터 과학자'의 수요가 늘고있다.

IT꿈나무 2024. 6. 8. 19:06
반응형

 데이터란 무엇일까? 데이터의 사전적 정의는 재료, 자료, 논거라는 뜻인 datum의 복수형이라고 정의 할 수 있다. 데이터란 모든 분석 혹은 활용가능한 디지털화된 자료이자 정보로 정의할 수 있다. 데이터는 의미 있는 모든 값을 정보로 하며 사람이나 기계가 생성하고 처리하는 형태로 표시된 것이다. 데이터는 세 가지로 분류되는데, 정형, 반정형, 비정형 데이터가 있다. 정형 데이터는 구조화된 데이터, 비정형 데이터는 음성, 동영상, 텍스트 데이터가 속한다, 데이터는 과거에부터 어떤 식으로든 존재했다. 그런데 왜 현재에 이렇게 급속도로 발전한 데에는 이유가 있을 것이다.

 첫째, 다양한 데이터를 측정할 수 있는 모바일 스마트 기기와 센서의 확산이다. 휴대폰의 발전하면서 스마트폰으로 전환되었다. 스마트폰을 이용해서 사진도 찍고, 금융 쇼핑, 배달, 길 찾기 등 사회관계망 서비스에 가입하여 데이터가 기하급수적으로 생성되어 데이터로 수집 측정되고 있다. 스마트폰에는 위치 센서, 습도, 온도, 조도, 지자기, 근접, 제스처, 이미지, 심박수 등 강족 센서가 포함되어 있고, 센서로 측정된 데이터가 스마트폰을 통해서 빅데이터 네트워크에 연결되어 나와 관련된 인공지능 알고리즘이 도움을 주기 때문에 스마트폰이 영리해지기 시작했다.

 둘째, 컴퓨터 성능이 지수적으로 향상되고, 통신 네트워크 등이 고도화되는 등 빅데이터를 저장, 처리하고 지연 없이 서비스할 수 있는 하드웨어 인프라와 통신의 빠른 발전이다. 컴퓨터 성능에 있어서 빅데이터를 저장할 수 있는 하드디스크 용량, 메모리의 용량과 CPU의 성능이 지수적으로 증가하였고, GPU와 같은 새로운 연산 프로세서가 등장하였다. 또한 이러한 하드웨어의 발전과 더불어 가격도 빠르게 하락하였다. 빅데이터를 저장, 처리, 분석할 때 발생하는 문제를 해결하려고 클라우드 컴퓨팅이 도입되며 발전하게 되었고, 빅데이터 시대의 핵심 중 하나인 초연결이 가능해지게 된 네트워크 환경의 고도화도 한몫을 하게 되었다.

 셋째, 새로운 데이터의 출현과 급격한 증가를 하드웨어와 네트워크의 고도화만으로는 대응하기 어려웠다. 이에 대응하여 빅데이터를 저장, 처리할 수 있는 신기술이 등장하였다. 하둡, 스파크 인공지능, 머신러닝 알고리즘 등 빅데이터를 저장, 처리하고 서비스할 수 있는 소프트웨어 기술의 빠른 발전이다. 빅데이터를 바탕으로 추천 시스템, 번역, 음성인식과 챗봇 등의 인공지능 서비스가 만들어지고 좋은 성과를 보임으로 인해서 투자와 발전을 거듭하고 있다.

이러한 배경을 기반으로 데이터 기업들이 속속 등장하였고, 기존 기업의 비즈니스가 디지털로 전환되면서 빅데이터 시대가 확산되고 있다. 빅데이터를 기반으로 한 산업 발전은 20세기의 전기와 같은 역할을 할 것으로 보고 있다. 따라서 빅데이터를 잘 활용할 수 있는 데이터 과학자의 역할 또한 증대되며 수요 또한 늘고 있다.

반응형