1. 맵리듀스 1.0의 한계
- 일괄 처리만 지원됩니다.
- 일괄 처리: 컴퓨터 프로그램의 흐름에 따라 데이터를 순차적으로 처리
- 데이터는 서로 상호 작용하지 않습니다.
(대화형 아님)
- MapReduce 작업을 코딩하는 것은 복잡합니다.
- 개발자 인력 부족
- 직업이 비즈니스 모델에 맞지 않는 영역이 많습니다.
- 기업에 필요한 기능 부족
- 낮은 보안
- 고가용성 부족
2. 맵리듀스 2.0
- JobTracker의 역할 분할
- 작업 추적기: Apache Hadoop의 MapReduce 엔진에서 실행되는 데몬입니다.
- JobTracker는 MapReduce 작업을 관리합니다.
- 자원 관리
- 작업 라이프사이클 관리
- 작업 추적기: Apache Hadoop의 MapReduce 엔진에서 실행되는 데몬입니다.
- 많은 이점
- 분산 작업 라이프사이클 관리
- 클러스터에서 여러 MapReduce API를 지원합니다.
- 일괄 처리 및 실시간 처리 가능
- 많은 프레임워크를 지원합니다.
(실)- YARN: HDFS에 저장된 데이터를 실행하고 처리하기 위해 그래픽 처리, 대화형 처리, 스트림 처리 및 일괄 처리와 같은 데이터 처리 엔진을 활성화합니다.
- MapReduce 코딩이 필요하지 않음
- 더 많은 비즈니스 모델에 적합
- YARN: HDFS에 저장된 데이터를 실행하고 처리하기 위해 그래픽 처리, 대화형 처리, 스트림 처리 및 일괄 처리와 같은 데이터 처리 엔진을 활성화합니다.
- 기업에 필요한 기능 추가(보안, 고가용성)
- 분산 캐시 개선 사항