(Hadoop) MapReduce 2.0 배경, 기능

2023년 03월 29일 by issue

쉬운 목차

1. 맵리듀스 1.0의 한계

일괄 처리만 지원됩니다.
- 일괄 처리: 컴퓨터 프로그램의 흐름에 따라 데이터를 순차적으로 처리
- 데이터는 서로 상호 작용하지 않습니다. (대화형 아님)
MapReduce 작업을 코딩하는 것은 복잡합니다.
- 개발자 인력 부족
- 직업이 비즈니스 모델에 맞지 않는 영역이 많습니다.
기업에 필요한 기능 부족
- 낮은 보안
- 고가용성 부족

2. 맵리듀스 2.0

JobTracker의 역할 분할
- 작업 추적기: Apache Hadoop의 MapReduce 엔진에서 실행되는 데몬입니다.
- JobTracker는 MapReduce 작업을 관리합니다.
- 자원 관리
- 작업 라이프사이클 관리
많은 이점
- 분산 작업 라이프사이클 관리
- 클러스터에서 여러 MapReduce API를 지원합니다.
일괄 처리 및 실시간 처리 가능
많은 프레임워크를 지원합니다. (실)
- YARN: HDFS에 저장된 데이터를 실행하고 처리하기 위해 그래픽 처리, 대화형 처리, 스트림 처리 및 일괄 처리와 같은 데이터 처리 엔진을 활성화합니다.
- MapReduce 코딩이 필요하지 않음
- 더 많은 비즈니스 모델에 적합
기업에 필요한 기능 추가(보안, 고가용성)
분산 캐시 개선 사항