본문 바로가기

리얼프린스의 독서노트/컴퓨터IT

빅 데이터의 충격

728x90
반응형

거대한

데이터의 파도가

사업 전략을 바꾼다!











빅 데이터의 충격 / 시로타 마코토 / 한빛미디어


요즘 IT시장 안에서 너무나도 많이 듣는 말이다. 바로 '빅 데이터' 언제나 새로운 트렌드가 나올

때면 비판의 목소리가 많듯 빅 데이터 또한 예외가 될 수 없다. 정확한 개념도 없이 사용된다는 것이

바로 그 비판의 중심에 있는데 바로 이 책이 그런 논란을 잠재워 줄 수 있는 입문서가 되지 않을까

생각된다. 빅 데이터에 대한 정의에서부터 트렌드를 설명해 줄 수 있는 사례들과 방향에 대해서 

논하고 있으니 충분하지 않을까?



최근 미국에서는 '데이터는 새로운 석유다'란 말을 자주 들을 수 있다. 이 말은 정제된 원유가 

막대한 가치를 가져온 것처럼 데이터도 적절히 분석하면 큰 가치를 만들어낸다는 의미다. 

이러한 발상 아래 미국 정부는 '빅데이터가 만들어내는 기회를 최대한 활용하고 싶다'며 2012년

 3월, 빅데이터 활용을 목적으로 한 연구에 2억 달러라는 거액을 투자할 것을 발표해 국가 

차원에서 노력을 기울일 뜻을 분명히 밝혔다. (서문중에서)


필자의 경우 필드에서 듣는 말중에서 '데이터분야는 변화가 정말 없는거 같아. 한 번 제대로 배우면

끝까지 써먹을 수 있는 것 같아.'라는 말을 많이 듣는다. 결국 기술의 본질은 변하지 않는다는 말로

해석할 수 있겠지만 그간의 메타데이터, 마스터데이터, 데이터품질, DW, 대용량 데이터베이스 설계

, BI, EIS 등의 수많은 기술들이 우리의 머리를 괴롭혀 왔지만 본질이 되는 데이터라는 녀석은 

변하지 않는다는 것이다. 결국 빅 데이터의 중심에는 그간의 수없이 적재되어온 데이터를 어떻게

잘 활용할 것인가 라는 것에 있는 것이다. 



기계학습에서 지금까지 문제가 되었던 것은 학습에 필요한 대량의 데이터 축적과 효율적인 처리

방법이었다. 그런 문제들은 하드디스크 단가가 큰 폭으로 하락하고, 하둡이 등장하고, 클라우드 

컴퓨팅 이용이 보편화되면서 해결되는 중이다. 실제로 빅데이터에 기계학습을 적용하는 사례도 

나오고 있다. 결국 빅데이터를 활용하면 기존의 비즈니스 인텔리전스를 넘어서 현재 요구되는 

미래 예측을 효율적으로 할 수 있고 동시에 예측 정밀성을 향상시킬 수 있다. (본문중에서 p39)


사실 그간의 빅 데이터를 바라보는 업계의 시각은 단순하게 데이터가 많기만 하면 되냐는 것에

집중했던 것이 사실이다. 하지만 기존에 있던 BI라는 데이터분석을 통해서 활용하기 위한 영역

과의 만남을 어떤 식으로 만들어갈 것이냐에 집중해야 하는 것이 아닐까 생각된다. 

최근에 스마트한 환경이 만들어지면서 소셜환경 또는 갈수록 공개되어가는 공공 공유데이터에

대한 관심을 연결이라는 요소로 풀어나가는 방식에 더욱 집중해야 할 것으로 판단된다.

결국 활용할 만한, 쓸만한 데이터를 생성해 내야하는 것 그것이 바로 빅 데이터 될 듯.



똑같은 빅데이터라는 말을 쓰지만, 센서 데이터와 소셜 미디어 데이터는 각각 데이터를 얻는 

방법이나 분석 방법이 다르다. 소셜 미디어에서는 사용자가 등록하는 방대한 텍스트 데이터 

가운데 자사에 필요한 정보만을 추출하고, 다시 텍스트 마이닝이나 시맨틱 기술로 사용자가 

의도하는 내용을 사람의 개입없이 기계적인 방법을 통해 자동으로 이해해야 한다. 

(본문중에서 p73)


결국 이런 기계적으로 분석해내는 방법이 그간의 검색엔진 등으로 대표되어 온 데이터의 한단계

업그레이드 된 환경을 만들어가려면 단순하게 검색엔진이라는 환경을 넘어 분석방법에 마이닝

알고리즘과 인공지능 검색 및 데이터가공 기술을 통해서 한차원 높은 활용성 높은 데이터를 

만들어내야 한다는 것이다. 하지만 기존의 분석 방법은 조직 내부에 쌓여있는 데이터를 활용하기

위한 방법이었지만 지금은 소셜 및 공개정보의 범위로 넓혀지기에 그 속도와 정확성과 품질에

대한 부분을 최대한 고려한 빅 데이터 기술이 되어야 할 것이다.



개인정보보호법의 대상은 개인 식별성이 있는 정보다. 하지만 이 배려 원칙은 쿠키나 휴대전화

ID등, 특정 PC의 웹 브라우저와 휴대전화를 식별할 수 있는 정보를 축적하는 회사를 대상으로 

삼는다는 점에서 특별한 주의가 필요하다. 생각해 보면 행동 타케팅 광고에선 특정 PC소유자가 

무엇에 관심이 있는지가 중요하지, 사람의 이름은 기호 정도의 의미밖에 없다. 

(본문중에서 p186)


그 어느때보다도 보안에 대한 중요성이 강조되고 있는 시대이다. 결국 데이터의 영역이 빅 데이터로

넓혀지면 개인정보보호를 포함한 조직 내외부의 모든 데이터에 대한 보안성에 주의를 기울여야 한다.

사실 개인정보라는 영역은 이제는 기본적으로 공개되어 있는 영역인듯 문제가 되고 있는데 이러한 

불신의 늪을 벗어나기 위해서는 보안영역을 넘어설 수 있는 빅 데이터 기술의 설계 또한 중요성이

부각되는 것이다. 스마트폰의 등장과 함께 가상현실 등의 기술이 위치기반 기술과 함께 보안성에

문제가 되었듯 빅 데이터 또한 동일한 문제에 노출되어 있다.



'빅 데이터'란 단순히 데이터양의 증가만을 가리키는 것이 아니다. 지금까지 활용하지 않았던 

또는 활용할 수 없었던 다양한 데이터를 적절히 수집해가면 결과적으로 많은 데이터가 되기는 

할 것이다. 하지만 반드시 데이터양이 꼭 수십 테라바이트, 수 페타바이트에 달할 필요는 없다. 

중요한 것은 이제가지 무시했던 데이터의 가치를 깨닫는 것이다. (본문중에서 p257)


저자는 마지막에 적절하게 빅 데이터의 중요성과 나아갈 길에 대해서 정리하고 있다. 그것은 바로

지금까지는 그 가치를 알 수 없어서 또는 환경이 마련되지 않아서 활용하지 못했던 데이터에 대해서

그 가치를 재발견하여 의미있는 데이터로의 가공과 함께 다양한 사용자들이 활용할 수 있는 분석

정보를 제공해 주는 것에 있다는 것이다. 

그 명칭이 빅 데이터이지만 용량에만 집착하지 않으면서......



- Real Prince -




팁텍톡!의 글이 유용하다고 생각되시면 아래를 활용하셔요.
Follow JoyfulPrince on Twitter 트위터로 만나고 싶으시면 눌러주세요.
  이메일로 연락하고 싶으시면 눌러주세요.


반응형