본문 바로가기
SW/인공지능

[데이터분석] 빅데이터란?

by 미래미래로 2020. 7. 9.
728x90
반응형

빅데이터란?

빅데이터는 데이터 수집, 관리 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다. 대량(수십 Tera Byte~Peta Byte) 데이터로부터 가치를 추출하고 결과를 분석하는기술이다. , 데이터는 DB 현태의 정형 데이터 DB 형태가 아닌 비정형의 데이터 집합조차 포함한다. 빅데이터 기술의 발전은 다변화된 현대사회를 더욱 정확하게 예측하여 효율적으로 작동하게 하고, 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공, 관리, 분석 가능하게 한다. 빅데이터는 정치, 사회, 경제, 문화, 과학 기술 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공할 있는 가능성을 제시하며 중요성이 부각되고 있다.

 

특징 (5V's of Big data)

빅데이터의 공통적 특징은 3V+2V 설명할 있다.

  • Variety(형태의 다양성)
    데이터의 다양성 변화를 의미한다. 다양한 데이터와 실시간으로 변화하는 데이터를 다루는 것이 빅데이터의 특징이다
  • Volume(데이터의 )
    Volume
    데이터 양을 뜻한다. 하지만, 단순히 데이터의 양이 많다고 빅데이터는 아니다.
  • Velocity(데이터 생성 속도)
    데이터의
    입출력 속도를 말한다. 단순히 빠르다 라는 의미와 함께 데이터의 수집과 적재 처리와 분석, 모든 단계의 신속성과 긴밀성 역시 속도의 개념으로 보는 것이 빅데이터이다
  • Value(가치)
  • Veracity(정확성)
     

최근에는 아래의 속성을 덧붙이기도 한다.

+ Value(가치), Complexity(복잡성)

 

빅데이터 분석 기법

빅데이터를 처리하는 기법의 핵심은 분할점령(Divide and Conquer) 이다. 

데이터를 독립된 형태로 나누고, 이를 병렬적으로 처리하는 것을 말한다. 

여러개의 작은 연산으로나누고, 이를 취합하여 하나의 결과를 만드는 것을 빅데이터 처리라고 한다. 

 

분산데이터처리 프레임워크 

- 아파치 하둡(Hadoop)
  맵리듀스(Map-reduce)방식의 분산 응용 프로그램을 지원하는 자바 프레임워크로, 여러대의 컴퓨터 클러스터에서 대량의 데이터를 처리할 수 있게 해준다. 

Reference

https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0

728x90
반응형

댓글