(Hadoop) MapReduce 2.0 배경, 기능

1. 맵리듀스 1.0의 한계

  • 일괄 처리만 지원됩니다.
    • 일괄 처리: 컴퓨터 프로그램의 흐름에 따라 데이터를 순차적으로 처리
    • 데이터는 서로 상호 작용하지 않습니다.
      (대화형 아님)
  • MapReduce 작업을 코딩하는 것은 복잡합니다.
    • 개발자 인력 부족
    • 직업이 비즈니스 모델에 맞지 않는 영역이 많습니다.
  • 기업에 필요한 기능 부족
    • 낮은 보안
    • 고가용성 부족

2. 맵리듀스 2.0

  • JobTracker의 역할 분할
    • 작업 추적기: Apache Hadoop의 MapReduce 엔진에서 실행되는 데몬입니다.
    • JobTracker는 MapReduce 작업을 관리합니다.
    • 자원 관리
    • 작업 라이프사이클 관리
  • 많은 이점
    • 분산 작업 라이프사이클 관리
    • 클러스터에서 여러 MapReduce API를 지원합니다.
  • 일괄 처리 및 실시간 처리 가능
  • 많은 프레임워크를 지원합니다.
    (실)
    • YARN: HDFS에 저장된 데이터를 실행하고 처리하기 위해 그래픽 처리, 대화형 처리, 스트림 처리 및 일괄 처리와 같은 데이터 처리 엔진을 활성화합니다.
    • MapReduce 코딩이 필요하지 않음
    • 더 많은 비즈니스 모델에 적합
  • 기업에 필요한 기능 추가(보안, 고가용성)
  • 분산 캐시 개선 사항