NVIDIA Không Chỉ Là Digital — Câu Chuyện Analog Mà Ít Ai Để Ý

NVIDIA không chỉ là digital — và câu chuyện analog mà ít ai để ý 🔌

Mọi người hay nghĩ NVIDIA là công ty của hàng tỷ CUDA cores, tensor cores, AI chips. Đúng. Nhưng có một sự thật ít người nhắc đến:

Nếu bỏ hết phần analog đi — con GPU đó chỉ là cục silicon câm.

Không giao tiếp được với memory. Không nói chuyện được với GPU khác. Không có nguồn điện ổn định để chạy.

Mình vừa đọc qua một số paper của NVIDIA publish ở ISSCC và JSSC (top conference về IC design toàn cầu) và thấy có một câu chuyện rất hay theo dòng thời gian:

📌 2018 — CICC ¹: NVIDIA giới thiệu Ground-Referenced Signaling (GRS).

Bình thường SerDes dùng differential — mỗi bit cần 2 dây, một dây tín hiệu, một dây complement. Ưu điểm là noise bị triệt tiêu tự động vì xuất hiện trên cả 2 dây. Nhưng GPU cần hàng trăm đến hàng nghìn lane — differential đồng nghĩa với gấp đôi số trace, gấp đôi số bump trên package, routing cực kỳ chật chội và tốn kém.

GRS bỏ dây complement đi, chỉ dùng 1 dây reference về ground — tiết kiệm một nửa. Nhưng cái giá phải trả là mạch bây giờ cực kỳ nhạy cảm: ground bounce từ hàng trăm driver switching cùng lúc, supply noise từ chip bên cạnh, high-frequency loss làm bit “nhòe” sang nhau — tất cả đều không còn bị triệt tiêu tự động nữa.

Để giải quyết, NVIDIA phải xử lý từng vấn đề bằng một kỹ thuật analog riêng: switched-capacitor TX để giảm dòng switching đột ngột, active-inductor peaking ở RX để recover tín hiệu nhanh hơn, analog equalizer để bù channel loss, và matched-delay clock forwarding để giữ timing. Không có magic bullet — là tổ hợp của nhiều thứ cộng lại.

📌 2019 — JSSC ²: Paper chính thức: 25 Gbps/pin, chỉ 1.17 pJ/bit.

Con số 1.17 pJ/bit có nghĩa là gì? Để truyền 1 bit dữ liệu, mạch tiêu tốn 1.17 picjoule. Nghe nhỏ, nhưng để hình dung: một con GPU có hàng trăm lane SerDes, mỗi lane chạy 25 Gbps — tức mỗi giây truyền 25 tỷ bit. Nếu mỗi bit tốn 1.17 pJ thì mỗi lane tiêu tốn khoảng 29 mW. So với các SerDes differential cùng tốc độ thời đó thường ở mức 2–5 pJ/bit (tức 50–125 mW/lane) — GRS tiết kiệm gần 4 lần. Nhân lên hàng trăm lane thì đó là hàng chục watt tiết kiệm được chỉ từ I/O.

Về voltage regulator: PLL có một outer control loop theo dõi VCtrl của ring oscillator. Khi nhiệt độ tăng hoặc process slow, transistor chậm lại, VCtrl bị đẩy lên cao để giữ tần số. Outer loop phát hiện VCtrl lệch → tự động tăng VDD_ring (supply của ring oscillator) để kéo circuit speed về đúng điểm. VDD_ring lúc này trở thành một “analog proxy” encode thông tin PVT — và NVIDIA dùng chính VDD_ring này làm reference cho voltage regulator của phần SerDes còn lại. Kết quả: toàn bộ mạch chạy ở cùng speed point, bù PVT tự động, không cần temperature sensor riêng, không cần calibrate lại định kỳ. Tư duy mixed-signal thuần túy.

📌 2023 — ISSCC ³: NVLink-C2C ra đời — nối CPU Grace với GPU Hopper trong Grace-Hopper Superchip. 40 Gbps/pin, 900 GB/s tổng bandwidth. Vẫn single-ended. Hiệu quả năng lượng gấp 6 lần PCIe Gen6, diện tích PHY chỉ bằng 1/3.5 so với PCIe Gen6. Tất cả nhờ 5 năm cải tiến analog liên tục.

📌 2024 — Blackwell ⁴: NV-HBI die-to-die link đạt 10 Tb/s nối hai die trong cùng một GPU.

HBM4 PHY phức tạp hơn HBM3E khoảng 36% về diện tích — từ ~11mm² lên ~15mm² ⁵. Con số nghe nhỏ nhưng thực ra rất đáng kể: 4mm² silicon chỉ để làm phức tạp thêm một interface. Lý do là HBM4 cần controller và PHY tinh vi hơn nhiều để xử lý tốc độ cao hơn và số lượng signal pins khổng lồ trên interposer — mỗi thay đổi nhỏ ở protocol hay timing đều kéo theo hàng loạt điều chỉnh analog.

Về power management: GPU như Blackwell tiêu thụ hàng trăm watt, và workload thay đổi liên tục — từ idle sang full compute chỉ trong vài chục microsecond. Cách truyền thống là dùng PMIC bên ngoài chip để điều chỉnh voltage, nhưng PMIC phản ứng chậm, ở mức millisecond — trong khoảng thời gian đó GPU phải chạy ở voltage dư để an toàn, tức là luôn tốn điện hơn mức cần thiết. On-chip integrated voltage regulator giải quyết điều này bằng cách đưa vòng điều khiển vào ngay trong die, phản ứng ở mức ~2 microsecond — nhanh hơn ~500 lần ⁶. GPU có thể scale voltage theo đúng nhu cầu thực tế từng thời điểm, không cần dự phòng dư — tiết kiệm lên tới 50% năng lượng so với coarse-grain DVFS bên ngoài.

Điều mình muốn nói là:

Analog/mixed-signal không phải ngành “cũ” hay “dễ bị thay thế.” Ngược lại — càng lên cao, GPU càng cần analog engineer giỏi hơn. Demand tăng, supply khan hiếm.

Và mỗi con chip NVIDIA đang ở tay bạn (dù là GPU gaming hay data center) — đều có hàng chục mm² analog IP ẩn bên trong, được thiết kế bởi team nhỏ những người làm AMS design.

NVIDIA, “Ground-Referenced Signaling for Intra-Chip and Short-Reach Chip-to-Chip Interconnects,” IEEE Custom Integrated Circuits Conference (CICC), 2018. ↩
NVIDIA, “A 1.17-pJ/b, 25-Gb/s/pin Ground-Referenced Single-Ended Serial Link for Off- and On-Package Communication Using a Process- and Temperature-Adaptive Voltage Regulator,” IEEE Journal of Solid-State Circuits (JSSC), Vol. 54, No. 1, pp. 43–57, Jan. 2019. PDF ↩
Y. Wei, Y. C. Huang, H. Tang, N. Sankaran, I. Chadha, D. Dai, O. Oluwole, V. Balan, E. Lee, “NVLink-C2C: A Coherent Off Package Chip-to-Chip Interconnect with 40Gbps/pin Single-ended Signaling,” IEEE International Solid-State Circuits Conference (ISSCC), Paper 9.3, 2023. ↩
NVIDIA, “NVIDIA Blackwell Architecture Technical Brief,” Mar. 2024. ↩
TSMC & GUC, HBM4 / HBM4E PHY area analysis, reported via Tom’s Hardware, 2024. HBM3E PHY ~11mm², HBM4 PHY ~15mm². ↩
K. Zou et al., “System-level Early-stage Modeling and Evaluation of IVR-assisted Processor Power Delivery System,” ACM Transactions on Design Automation of Electronic Systems (TODAES), 2021. Optimal DVFS timescale ~2µs; GPU energy improvement up to 50%. ↩

Footnotes