'하둡'에 해당되는 글 1건

  1. 2011.05.30 하둡 (Hadoop)이란?

2011. 5. 30. 08:20 펌질

하둡 (Hadoop)이란?


클라우드 컴퓨팅(Cloud Computing)을 취재하다보면 매우 낯선 기술들, 특히 많은 오픈소스 프로젝트들과 대면하게 된다. 클라우드 컴퓨팅은 규모의 경제를 실현해 기존보다 무조건 저렴해야 되기 때문에 오픈소스 소프트웨어들을 사용해 도입 비용을 최대한 낮추고 있기 때문이다.

 

클라우드 컴퓨팅 분야에서 가장 대표적으로 거론되는 것이 대용량 데이터 처리 분석 오픈소스 프로젝트인 하둡(Hadoop http://hadoop.apache.org)이다. 전문가들은 이미 익히 알고 있는 것이지만 국내에서는 삼성SDS가 지난 4월 하둡 전문가들이 모여 있는 미국의 클라우데라라는 회사와 협력을 꾀하겠다고 밝히면서 대중적으로 알려지기 시작했다. 아직 공식적으로 발표가 되지는 않았지만 LG CNS도 이와 관련된 인프라 구축을 검토하고 있는 것으로 알려졌고, SK C&C 또한 최근 그린IT 전략 발표장에서 클라우드 컴퓨팅 분야에서는 오픈소스를 최대한 활용하겠다고 밝혀 하둡 검토 작업에 들어간 것으로 보인다.

<?xml:namespace prefix = o /> 

하둡의 등장으로 수많은 인터넷 서비스 업체나 미디어 업체들은 관계형 DBMS 없이, SAN 구성 없이도 아주 저렴한 비용으로 대용량 데이터를 처리할 수 있는 인프라를 구축할 수 있게 됐다. 하둡을 이야기할 때 빼놓을 수 없는 것이 바로 구글의 분산 파일 시스템인 GFS(Google File System)과 분산 데이터베이스인 빅테이블(Big Table)이다. 구글은 자사의 인프라 운영에 적용된 GFS와 빅테이블을 학계에 논문으로 공개했다. (국내 포털들이나 일반 기업 입장에서는 상상하기 힘든 핵심 기술을 공개한 것이지만 운영 노하우라는 가장 큰 경쟁력은 하루 아침에 따라올 수 없다는 점에서 구글의 자신감이 엿보이는 대목이다.)

 

하둡은 바로 이런 논문을 바탕으로 시작된 오픈소스 프로젝트로 오픈소스 자바검색 엔진의 대명사인 루씬(Lucene, http://lucene.apache.org)을 만든 더그 커팅(Doug Cutting)이 개발한 오픈소스 기반의 분산 컴퓨팅 플랫폼이다. 2007년 야후가 더그 커팅을 영입해 하둡 개발에 대한 지원을 하면서 동시에 야후 내부에 적용하는 등 타 고객들이 많이 사용할 수 있도록 하면서 확산됐다. (최근 더그 커팅은 야후를 떠나 클라우데라에 합류했다.) 

 

하둡 플랫폼에는 GFS와 유사한 대용량 데이터를 저장하고 처리하기 위한 하둡 분산 파일 시스템(HDFS; Hadoop Distributed File System)과 데이터베이스 역할을 하는 Hbase를 비롯한 다양한 오픈소스 소프트웨어들이 존재한다. (국내에서는 Hbase와 유사한 기능을 제공하는 Neptune라는 오픈소스 제품이 등장했다.)

 

하둡의 경쟁력에 대해 지난 4월 국내 방한했던 크리스토퍼 비시글리아 클라우데라 CSO데이터를 바라보는 관점에 변화가 있어야 한다. 대용량 데이터를 저장하기 위해 10TB의 컴퓨팅 리소스에 1천 달러를 투자하는데 정작 이를 처리하는데 32GB 정도밖에 사용하지 않는다. 이는 전체 인프라 투자의 0.3% 수준이라고 전하고하둡의 경우 구글야후, 페이스북, 알리바바, 뉴욕타임즈, 폭스 이미 다양한 사업분야에서 검증된 기술”이라고 밝힌 있다. (그는 구글에 근무하면서 클라우드 컴퓨팅이라는 용어를 처음으로 사용한 인물이다.), 아마존,

 

오픈소스 플랫폼이기 때문에 누구나 가져다 쓰면 된다. 지난 7 28일에는 하둡을 적용한 첫 클라우드 컴퓨팅 사례가 국내서도 등장했다. 한국클라우드컴퓨팅연구조합이 7 28() 대전 KAIST에서 넥스알, KAIST와 함께 국내 최초로 대학에 클라우드 컴퓨팅을 제공하는 씨유(CCI:U, Cloud Computing Initiative for Universities) 프로젝트를 런칭했는데 이 인프라에 하둡 플랫폼이 적용됐다. CCI:U는 대학들에게 클라우드 컴퓨팅 자원을 무상으로 제공해 차세대 컴퓨팅 관련 수업과 연구에 활용할 수 있도록 지원하기 위해 마련됐다.

 

앞서 밝힌대로 국내 3 IT 서비스 업체들도 관련 기술 적용에 착수하는 등 하둡 플랫폼과 수많은 오픈소스 소프트웨어의 적용 사례는 국내서도 점차 확대될 것으로 보인다.

하둡에 대해서 아주 간략히 다루긴 했지만 모든 클라우드 컴퓨팅 인프라에 하둡을 비롯한 오픈소스 소프트웨어를 적용할지는 전략적 선택이 필요하다. 내부 기술 인력과 외부의 든든한 지원 파트너를 확보하지 못하면 말 그대로 그림의 떡일 수밖에 없다. 특히 서비스 규모나 처리해야 될 데이터의 량과 건수들을 정확히 파악해야 한다. 하둡은 소 잡는 칼이지 닭 잡는 칼이 아니기 때문이다.

 

다만 왜 하둡 플랫폼이 인기를 끌고 있는지, 어떤 구조로 설계돼 있는지에 대한 면밀한 검토는 반드시 필요해 보인다. 클라우드 컴퓨팅 시장의 활성화까지는 준비할 시간이 남아 있기 때문이다


Posted by pat98
이전버튼 1 이전버튼

05-09 04:31
Flag Counter
Yesterday
Today
Total

글 보관함

최근에 올라온 글

달력

 « |  » 2024.5
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

최근에 달린 댓글