에이다 러브레이스 (마이크로아키텍처)

에이다 러브레이스(Ada Lovelace), 간단히 러브레이스^[1]는 엔비디아가 암페어 아키텍처의 후속으로 개발한 그래픽 처리 장치(GPU) 마이크로아키텍처로, 2022년 9월 20일에 공식 발표되었다. 19세기 영국의 수학자이자 최초의 컴퓨터 프로그래머 중 한 명인 에이다 러브레이스의 이름을 따서 명명되었다.^[2] 엔비디아는 지포스 RTX 40 시리즈 소비자용 GPU^[3] 및 RTX 6000 에이다 제너레이션 워크스테이션 그래픽 카드와 함께 이 아키텍처를 발표했다.^[4] 러브레이스 아키텍처는 TSMC의 맞춤형 4N 공정으로 제조되며, 이는 이전 세대 암페어 아키텍처에 사용된 삼성전자의 8 nm 및 TSMC의 N7 공정에 비해 효율성이 향상되었다.^[5]

배경

에이다 러브레이스 아키텍처는 2020년에 출시된 암페어 아키텍처의 뒤를 잇는다. 에이다 러브레이스 아키텍처는 2022년 9월 20일 GTC 2022 기조연설에서 젠슨 황 엔비디아 CEO가 발표했으며, 이 아키텍처는 게이밍, 워크스테이션 및 데이터센터용 엔비디아 GPU를 구동한다.^[6]

아키텍처 세부 정보

에이다 러브레이스 아키텍처의 아키텍처 개선 사항은 다음과 같다.^[7]

CUDA 컴퓨팅 기능 8.9^[8]
TSMC 4N 공정 (엔비디아 맞춤 설계) - TSMC의 일반 N4 노드와 혼동하지 말 것
FP8, FP16, bfloat16, TensorFloat-32 (TF32) 및 희소성 가속을 갖춘 4세대 텐서 코어
3세대 광선 추적 코어, 동시 광선 추적 및 셰이딩 및 컴퓨팅 지원
셰이더 실행 재정렬 (SER)^[9]
8K 10비트 60FPS AV1 고정 기능 하드웨어 인코딩을 갖춘 엔비디아 비디오 인코더/디코더 (NVENC/NVDEC)^[10]^[11]
NVLink 미지원^[12]^[13]

스트리밍 멀티프로세서 (SM)

CUDA 코어

각 SM에는 128개의 CUDA 코어가 포함된다.

RT 코어

에이다 러브레이스는 3세대 RT 코어를 특징으로 한다. RTX 4090은 이전 세대 RTX 3090 Ti의 84개에 비해 128개의 RT 코어를 특징으로 한다. 이 128개의 RT 코어는 RT 코어당 1.49 TFLOPS로 최대 191 TFLOPS의 컴퓨팅을 제공할 수 있다.^[14] 셰이더 실행 재정렬 (SER)이라는 광선 추적 파이프라인의 새로운 단계가 러브레이스 아키텍처에 추가되었으며, 엔비디아는 이를 통해 광선 추적 워크로드에서 2배의 성능 향상을 제공한다고 주장한다.^[6]

텐서 코어

러브레이스의 새로운 4세대 텐서 코어는 DLSS 3의 프레임 생성 기술에 사용되는 AI 기술을 가능하게 한다. 암페어와 마찬가지로 각 SM에는 4개의 텐서 코어가 포함되지만, 러브레이스는 SM 수가 증가함에 따라 전체적으로 더 많은 텐서 코어를 포함한다.

클럭 속도

에이다 러브레이스 아키텍처에서는 클럭 속도가 크게 향상되어 RTX 4090의 기본 클럭 속도가 이전 세대 플래그십 RTX 3090 Ti의 부스트 클럭 속도보다 높다.

	RTX 2080 Ti	RTX 3090 Ti	RTX 4090
아키텍처	튜링	암페어	에이다 러브레이스
기본 클럭 속도 (MHz)	1350	1560	2235
부스트 클럭 속도 (MHz)	1635	1860	2520

캐시 및 메모리 서브시스템

	RTX 2080 Ti	RTX 3090 Ti	RTX 4090
아키텍처	튜링	암페어	에이다 러브레이스
L1 데이터 캐시	6.375 MB (SM당 96 KB)	10.5 MB (SM당 128 KB)	16 MB (SM당 128 KB)
L2 캐시	5.5 MB	6 MB	72 MB

마지막으로 활성화된 AD102 러브레이스 다이는 96 MB의 L2 캐시를 특징으로 하며, 이는 암페어 기반 GA102 다이의 6 MB보다 16배 증가한 것이다.^[15] GPU가 빠른 캐시에 액세스할 수 있다는 것은 GPU가 느린 GDDR 비디오 메모리에서 데이터를 찾는 것보다 광선 추적과 같은 복잡한 작업에 유리하다. 중요하고 자주 액세스하는 데이터를 저장하기 위해 메모리 액세스에 덜 의존한다는 것은 넓은 L2 캐시와 함께 좁은 메모리 버스 폭을 사용할 수 있다는 것을 의미한다.

각 메모리 컨트롤러는 32비트 연결을 사용하며 최대 12개의 컨트롤러가 있어 총 메모리 버스 폭이 384비트이다. 러브레이스 아키텍처는 GDDR6 또는 GDDR6X 메모리를 사용할 수 있다. GDDR6X 메모리는 데스크톱 지포스 RTX 40 시리즈에 사용되는 반면, 더 에너지 효율적인 GDDR6 메모리는 해당 모바일 버전 및 RTX A6000 워크스테이션 GPU에 사용된다.

전력 효율성 및 공정 노드

에이다 러브레이스 아키텍처는 이전 세대에 비해 더 낮은 전압을 사용할 수 있다.^[6] 엔비디아는 이전 세대 플래그십 RTX 3090 Ti가 사용한 동일한 450W에서 RTX 4090의 성능이 2배 증가한다고 주장한다.^[16]

전력 효율성 향상은 러브레이스 아키텍처에 사용된 더 작은 제조 노드에 기인한다. 에이다 러브레이스 아키텍처는 TSMC의 최첨단 4N 공정으로 제조되며, 이는 엔비디아를 위해 맞춤 설계된 공정 노드이다. 이전 세대 암페어 아키텍처는 2018년의 삼성전자의 8nm 기반 8N 공정 노드를 사용했으며, 이는 암페어 출시 시점에 2년된 공정이었다.^[17]^[18] 763억 개의 트랜지스터를 가진 AD102 다이는 mm²당 125.5백만 개의 트랜지스터 밀도를 가지며, 이는 GA102의 mm²당 45.1백만 개보다 178% 증가한 밀도이다.

미디어 엔진

러브레이스 아키텍처는 새로운 8세대 엔비디아 NVENC 비디오 인코더를 사용하며, 암페어에서 도입된 7세대 NVDEC 비디오 디코더가 다시 사용된다.^[19]

10비트 색상으로 최대 8K 해상도 60FPS를 지원하는 AV1 하드웨어 인코딩 기능이 추가되어 H.264 및 H.265 코덱에 비해 더 낮은 비트 전송률로 더 높은 비디오 충실도를 제공한다.^[20] 엔비디아는 러브레이스 아키텍처에 탑재된 NVENC AV1 인코더가 암페어 아키텍처의 H.264 인코더보다 40% 더 효율적이라고 주장한다.^[21]

러브레이스 아키텍처는 더 높은 디스플레이 데이터 대역폭을 지원하는 디스플레이포트 2.0 연결을 지원하지 않고, 대신 최대 대역폭이 32 Gbit/s로 제한되는 구형 디스플레이포트 1.4a를 사용한다는 비판을 받았다.^[22] 그 결과 러브레이스 GPU는 GPU 성능이 더 높은 프레임 속도에 도달할 수 있음에도 불구하고 디스플레이포트 1.4a가 지원하는 주사율에 제한된다. 2022년 10월에 출시된 인텔 아크 GPU에는 디스플레이포트 2.0이 포함되었다. 러브레이스 출시 두 달 후 출시된 AMD의 경쟁사 RDNA 3 아키텍처에는 디스플레이포트 2.1이 포함되었다.^[23]

에이다 러브레이스 다이

다이^[24]	AD102^[25]	AD103^[26]	AD104^[27]	AD106^[28]	AD107^[29]
다이 크기	609 mm²	379 mm²	294 mm²	188 mm²	159 mm²
트랜지스터	76.3B	45.9B	35.8B	22.9B	18.9B
트랜지스터 밀도	125.3 MTr/mm²	121.1 MTr/mm²	121.8 MTr/mm²	121.8 MTr/mm²	118.9 MTr/mm²
그래픽 처리 클러스터	12	7	5	3	2
스트리밍 멀티프로세서	144	80	60	36	24
CUDA 코어	18432	10240	7680	4608	3072
텍스처 매핑 유닛	576	320	240	144	96
렌더 출력 유닛	192	112	80	48	32
텐서 코어	576	320	240	144	96
RT 코어	144	80	60	36	24
L1 캐시	18 MB	10 MB	7.5 MB	4.5 MB	3 MB
L1 캐시	SM당 128 KB
L2 캐시	96 MB	64 MB	48 MB	32 MB

에이다 러브레이스 기반 제품

소비자용

데스크톱

지포스 RTX 40 시리즈
- 지포스 RTX 4060 (AD107)
- 지포스 RTX 4060 Ti (AD106)
- 지포스 RTX 4070 (AD104)
- 지포스 RTX 4070 SUPER (AD104)
- 지포스 RTX 4070 Ti (AD104)
- 지포스 RTX 4070 Ti SUPER (AD103)
- 지포스 RTX 4080 (AD103)
- 지포스 RTX 4080 SUPER (AD103)
- 지포스 RTX 4090 D (AD102)
- 지포스 RTX 4090 (AD102)

모바일

지포스 RTX 40 시리즈
- 지포스 RTX 4050 노트북 (AD107)
- 지포스 RTX 4060 노트북 (AD107)
- 지포스 RTX 4070 노트북 (AD106)
- 지포스 RTX 4080 노트북 (AD104)
- 지포스 RTX 4090 노트북 (AD103)

전문가용

데스크톱 워크스테이션

엔비디아 워크스테이션 GPU (구 쿼드로)
- 엔비디아 RTX 2000 에이다 제너레이션 (AD107)
- 엔비디아 RTX 4000 에이다 제너레이션 (AD104)
- 엔비디아 RTX 4000 SFF 에이다 제너레이션 (AD104)
- 엔비디아 RTX 4500 에이다 제너레이션 (AD104)
- 엔비디아 RTX 5000 에이다 제너레이션 (AD102)
- 엔비디아 RTX 5880 에이다 제너레이션 (AD102)
- 엔비디아 RTX 6000 에이다 제너레이션 (AD102)

모바일 워크스테이션

엔비디아 워크스테이션 GPU (구 쿼드로)
- 엔비디아 RTX 500 에이다 제너레이션 노트북 (AD107)
- 엔비디아 RTX 1000 에이다 제너레이션 노트북 (AD107)
- 엔비디아 RTX 2000 에이다 제너레이션 노트북 (AD107)
- 엔비디아 RTX 3000 에이다 제너레이션 노트북 (AD106)
- 엔비디아 RTX 3500 에이다 제너레이션 노트북 (AD104)
- 엔비디아 RTX 4000 에이다 제너레이션 노트북 (AD104)
- 엔비디아 RTX 5000 에이다 제너레이션 노트북 (AD103)

데이터센터

엔비디아 데이터 센터 GPU (구 테슬라)
- 엔비디아 L4 (AD104)
- 엔비디아 L40 (AD102)
- 엔비디아 L40G (AD102)
- 엔비디아 L40CNX (AD102)

에이다 러브레이스 사용 제품 (다이별)
유형	AD107	AD106	AD104	AD103	AD102
지포스 40 시리즈 (데스크톱)	지포스 RTX 4060	지포스 RTX 4060 Ti	지포스 RTX 4070 지포스 RTX 4070 SUPER 지포스 RTX 4070 Ti	지포스 RTX 4070 Ti Super 지포스 RTX 4080 지포스 RTX 4080 Super	지포스 RTX 4090 D 지포스 RTX 4090
지포스 40 시리즈 (모바일)	지포스 RTX 4050 지포스 RTX 4060	지포스 RTX 4070	지포스 RTX 4080	지포스 RTX 4090	빈칸
엔비디아 워크스테이션 GPU (데스크톱)	RTX 2000 에이다 제너레이션	빈칸	RTX 4000 에이다 제너레이션 RTX 4000 SFF 에이다 제너레이션 RTX 4500 에이다 제너레이션	빈칸	RTX 5000 에이다 제너레이션 RTX 5880 에이다 제너레이션 RTX 6000 에이다 제너레이션
엔비디아 워크스테이션 GPU (모바일)	RTX 500 에이다 제너레이션 RTX 1000 에이다 제너레이션 RTX 2000 에이다 제너레이션	RTX 3000 에이다 제너레이션	RTX 3500 에이다 제너레이션 RTX 4000 에이다 제너레이션	RTX 5000 에이다 제너레이션	빈칸
엔비디아 데이터 센터 GPU		빈칸	엔비디아 L4^[30]	빈칸	엔비디아 L40 엔비디아 L40G 엔비디아 L40CNX