Google ra mắt TPU 8 hiệu năng gấp 3 lần, thách thức chip AI của Nvidia

Tiến Dũng
23/04/2026 11:26
D

Google công bố thế hệ chip TPU thứ tám tại Google Cloud Next với hai phiên bản chuyên biệt: TPU 8t dành riêng cho huấn luyện mô hình AI đạt 121 exaflops trên một siêu cụm 9.600 chip, và TPU 8i dành cho suy luận với hiệu năng trên mỗi đô la tốt hơn 80% so với thế hệ trước. Đây là lần đầu tiên Google thiết kế hai chip hoàn toàn tách biệt theo chức năng, phản ánh sự trưởng thành của hạ tầng AI và áp lực cạnh tranh ngày càng lớn với Nvidia.

Google vừa công bố thế hệ chip TPU thứ tám tại sự kiện Google Cloud Next, lần đầu tiên trong lịch sử dòng sản phẩm này công ty tách hẳn hai con chip riêng biệt theo chức năng: TPU 8t chuyên huấn luyện mô hình AI quy mô lớn và TPU 8i chuyên xử lý suy luận. Cả hai sẽ được bán rộng rãi qua Google Cloud vào cuối năm nay.

Quyết định tách đôi TPU 8 không phải là lựa chọn kỹ thuật đơn thuần. Nó phản ánh một thay đổi căn bản trong cách các công ty lớn tiêu thụ điện toán AI: huấn luyện và suy luận là hai bài toán khác nhau về bản chất, đòi hỏi kiến trúc phần cứng khác nhau, và việc dùng một chip đa năng cho cả hai ngày càng trở nên lãng phí.

Google ra mắt TPU 8 hiệu năng gấp 3 lần, thách thức chip AI của Nvidia
Dòng chip TPU 8 được Gooogle công bố trong bối cảnh nhu cầu về điện toán AI nhanh hơn và hiệu quả hơn đang tăng cao. Ảnh: Google

Tại sao Google tách đôi thay vì gộp chung

Huấn luyện một mô hình AI lớn là công việc xảy ra một lần hoặc vài lần, kéo dài hàng tuần đến hàng tháng, cần tối đa hóa tốc độ tính toán thuần túy trên số lượng chip khổng lồ. Suy luận là công việc xảy ra hàng tỷ lần mỗi ngày khi người dùng gửi câu hỏi đến ChatGPT, Gemini hay bất kỳ dịch vụ AI nào, ưu tiên là độ trễ thấp, chi phí mỗi lần xử lý phải cực kỳ thấp và hệ thống phải chạy liên tục không gián đoạn.

Một chip tối ưu cho cả hai mục tiêu đó thường không xuất sắc ở mục tiêu nào. Google nhận ra điều này và thiết kế TPU 8t với từng thông số hướng đến huấn luyện: một siêu cụm duy nhất có thể mở rộng lên tới 9.600 chip, đạt tổng hiệu năng 121 exaflops, con số gấp gần 3 lần so với thế hệ trước Ironwood. Quan trọng hơn, Google cho biết TPU 8t đặt mục tiêu "hiệu suất thực tế" trên 97%, tức là hơn 97% thời gian chip đang tính toán thực sự thay vì chờ dữ liệu hoặc xử lý sự cố.

Con số 97% đó nghe có vẻ kỹ thuật nhưng mang ý nghĩa thực tiễn rất lớn. Trên một cụm hàng nghìn chip chạy liên tục nhiều tuần, mỗi phần trăm thời gian nhàn rỗi tích lũy thành hàng ngày lịch trình bị kéo dài và hàng triệu đô la chi phí bị lãng phí. Việc nâng hiệu suất thực tế lên 97% là một trong những cải tiến có giá trị kinh tế cao nhất mà một nhà sản xuất chip huấn luyện có thể thực hiện, dù nó không xuất hiện trong bất kỳ con số marketing nào.

TPU 8i và bài toán chi phí của kỷ nguyên AI agent

TPU 8i giải quyết bài toán hoàn toàn khác. Con chip này mang 288 GB bộ nhớ băng thông cao và 384 MB SRAM tích hợp trực tiếp trên chip, cho phép giữ dữ liệu mô hình ở sát bộ xử lý để phản hồi nhanh hơn mà không phải chờ đọc từ bộ nhớ ngoài. Nó còn tích hợp CPU Axion của Google dựa trên kiến trúc Arm và được tối ưu cho kiến trúc Mixture of Experts, loại mô hình chỉ kích hoạt một phần tham số tại mỗi thời điểm thay vì toàn bộ, giúp cắt giảm chi phí tính toán mà không đánh đổi hiệu năng.

Tại sao hiệu năng trên mỗi đô la lại là thước đo quan trọng hơn hiệu năng thô trong giai đoạn hiện tại? Vì cuộc đua AI đã chuyển sang giai đoạn triển khai đại trà. Huấn luyện GPT-4 hay Gemini Ultra là công việc của vài trăm kỹ sư trong vài tháng. Nhưng phục vụ hàng trăm triệu người dùng mỗi ngày là công việc kéo dài vô thời hạn, chi phí cộng dồn theo từng giờ. Google cho biết TPU 8i mang lại hiệu năng trên mỗi đô la tốt hơn 80% so với Ironwood, tức là cùng ngân sách điện toán đám mây, khách hàng xử lý được gần gấp đôi khối lượng công việc.

Google cũng tiết lộ chiến lược hai chip này hình thành trực tiếp từ sự trỗi dậy của AI agent, các hệ thống AI tự động lập kế hoạch, thực thi nhiệm vụ nhiều bước và tương tác liên tục với công cụ khác. Không giống người dùng gõ câu hỏi rồi đọc câu trả lời, AI agent chạy liên tục trong nền, đòi hỏi hạ tầng suy luận vừa nhanh vừa rẻ vừa ổn định, đúng những gì TPU 8i được xây dựng để đáp ứng.

Tuyên chiến thực sự với Nvidia

Tại sao TPU 8 là đòn tấn công trực tiếp nhất vào Nvidia so với mọi thế hệ TPU trước đó? Vì lần này Google không chỉ cải thiện chip mà còn xây dựng toàn bộ hệ sinh thái xung quanh để triệt tiêu lý do khách hàng phải chọn Nvidia.

TPU 8t và TPU 8i hỗ trợ đầy đủ các framework phổ biến gồm JAX, PyTorch, SGLang và vLLM – tức là các nhóm kỹ thuật không cần viết lại code hay học công cụ mới khi chuyển sang TPU. Đây là rào cản lớn nhất mà các thế hệ chip thay thế Nvidia từng vấp phải: hệ sinh thái CUDA của Nvidia quá sâu rễ trong cộng đồng AI, ai muốn thoát ra phải trả chi phí chuyển đổi cao. Google đang trực tiếp tháo gỡ rào cản đó.

Cả hai chip còn dùng hệ thống làm mát bằng chất lỏng thế hệ thứ tư và đạt hiệu năng trên mỗi watt gấp đôi Ironwood, thông số ngày càng quan trọng khi chi phí điện và làm mát tại trung tâm dữ liệu leo thang cùng quy mô AI toàn cầu.

Nếu Google duy trì lộ trình này và giải quyết được câu hỏi về hệ sinh thái phần mềm, TPU 8 có thể tạo ra áp lực giá thực sự lên dịch vụ đám mây AI của Nvidia và các đối tác phân phối GPU H100, H200, điều mà các thế hệ TPU trước chưa làm được vì còn phụ thuộc nhiều vào nhu cầu nội bộ của Google.

Với các doanh nghiệp Việt Nam đang sử dụng Google Cloud để chạy mô hình AI, TPU 8i khả thi về chi phí hơn nhiều so với việc thuê GPU H100, loại chip đang có giá thuê cao và thường xuyên hết hàng trên các nền tảng đám mây toàn cầu. Mức cải thiện 80% hiệu năng trên mỗi đô la, nếu được xác nhận trong thực tế, có thể rút ngắn thời gian hoàn vốn cho các dự án AI đang triển khai theo mô hình pay-as-you-go.

Giá thuê cụ thể của TPU 8t và TPU 8i trên Google Cloud chưa được công bố tại thời điểm bài viết.

Bốn khái niệm cần biết để hiểu về TPU 8

Exaflops là đơn vị đo tốc độ tính toán, tương đương một tỷ tỷ phép tính dấu phẩy động mỗi giây. 121 exaflops của siêu cụm TPU 8t là con số cho thấy quy mô tính toán mà trước đây chỉ các siêu máy tính quốc gia mới đạt được.

Hiệu suất thực tế (utilization) đo tỷ lệ thời gian chip đang tính toán hữu ích thay vì chờ dữ liệu hoặc xử lý lỗi – 97% là mức rất cao, phản ánh chất lượng phần cứng lẫn phần mềm điều phối.

Mixture of Experts là kiến trúc mô hình AI chỉ kích hoạt một phần tham số cho mỗi tác vụ thay vì toàn bộ, giảm chi phí tính toán mà không cắt giảm năng lực tổng thể của mô hình.

AI agent là hệ thống AI tự lên kế hoạch và thực thi chuỗi nhiệm vụ nhiều bước, khác với chatbot chỉ trả lời từng câu hỏi đơn lẻ, agent cần hạ tầng suy luận chạy liên tục và phản hồi nhanh để xử lý hàng nghìn bước trong một luồng công việc.

Theo tạp chí Điện tử và Ứng dụng

Bình luận

Tối thiểu 10 chữ Tiếng việt có dấu Không chứa liên kết

Gửi bình luận

Tin cùng chuyên mục

Robot hình người thu thập dữ liệu và quản trị tại công trường ở Anh

Robot hình người thu thập dữ liệu và quản trị tại công trường ở Anh

VBSE đặt trọng tâm nâng cấp nền tảng giao dịch, phát triển hệ sinh thái sản phẩm

VBSE đặt trọng tâm nâng cấp nền tảng giao dịch, phát triển hệ sinh thái sản phẩm

Vi điều khiển PIC Microchip mới tích hợp khối logic có thể cấu hình

Vi điều khiển PIC Microchip mới tích hợp khối logic có thể cấu hình

PGBank đẩy mạnh chuyển đổi số, đặt kế hoạch lợi nhuận hơn 1.400 tỷ đồng năm 2026

PGBank đẩy mạnh chuyển đổi số, đặt kế hoạch lợi nhuận hơn 1.400 tỷ đồng năm 2026

CEO Qualcomm gặp Samsung, SK Hynix, LG để chốt chip AI thế hệ mới

CEO Qualcomm gặp Samsung, SK Hynix, LG để chốt chip AI thế hệ mới

DCCI Summit 2026: Hạ tầng AI tái định hình Data Center và Cloud Việt Nam

DCCI Summit 2026: Hạ tầng AI tái định hình Data Center và Cloud Việt Nam

Gemini có mặt trên macOS, Google đẩy mạnh trợ lý AI máy tính

Gemini có mặt trên macOS, Google đẩy mạnh trợ lý AI máy tính

5 tỷ đồng 'bốc hơi' tại KienlongBank: lỗi của ai?

5 tỷ đồng 'bốc hơi' tại KienlongBank: lỗi của ai?

Bảo mật an toàn cho hệ sinh thái tài sản số

Bảo mật an toàn cho hệ sinh thái tài sản số

Starlink không còn một mình

Starlink không còn một mình

Google ra mắt công cụ tìm kiếm AI trên Windows, tăng tốc tra cứu và xử lý dữ liệu

Google ra mắt công cụ tìm kiếm AI trên Windows, tăng tốc tra cứu và xử lý dữ liệu

Techcombank cảnh báo thủ đoạn giả mạo Email, tin nhắn để lừa đảo khách hàng ngân hàng

Techcombank cảnh báo thủ đoạn giả mạo Email, tin nhắn để lừa đảo khách hàng ngân hàng

Tin mới cập nhật

Đặc sắc Lễ rước kiệu Giỗ Tổ Hùng Vương năm Bính Ngọ 2026

Đặc sắc Lễ rước kiệu Giỗ Tổ Hùng Vương năm Bính Ngọ 2026

Tính năng sạc Bypass Charging giúp điện thoại Android giảm nóng khi sử dụng

Tính năng sạc Bypass Charging giúp điện thoại Android giảm nóng khi sử dụng

Xe hybrid tăng tốc tại Ấn Độ, hãng xe Nhật chiếm ưu thế

Xe hybrid tăng tốc tại Ấn Độ, hãng xe Nhật chiếm ưu thế

Tập đoàn Khang Điền đặt mục tiêu doanh thu năm 2026 là 4.200 tỷ đồng

Tập đoàn Khang Điền đặt mục tiêu doanh thu năm 2026 là 4.200 tỷ đồng

Cận cảnh bộ đôi nubia NEO 5 Series vừa ra mắt

Cận cảnh bộ đôi nubia NEO 5 Series vừa ra mắt

Robot hình người thu thập dữ liệu và quản trị tại công trường ở Anh

Robot hình người thu thập dữ liệu và quản trị tại công trường ở Anh

Đẩy mạnh chỉ dẫn số, Đền Hùng hướng tới du lịch thông minh

Đẩy mạnh chỉ dẫn số, Đền Hùng hướng tới du lịch thông minh

Biến rác thải thành mỹ phẩm

Biến rác thải thành mỹ phẩm

Thị trường chứng khoán châu Á phân hóa khi Tổng thống Trump gia hạn ngừng bắn Iran

Thị trường chứng khoán châu Á phân hóa khi Tổng thống Trump gia hạn ngừng bắn Iran

VBSE đặt trọng tâm nâng cấp nền tảng giao dịch, phát triển hệ sinh thái sản phẩm

VBSE đặt trọng tâm nâng cấp nền tảng giao dịch, phát triển hệ sinh thái sản phẩm

Vi điều khiển PIC Microchip mới tích hợp khối logic có thể cấu hình

Vi điều khiển PIC Microchip mới tích hợp khối logic có thể cấu hình

Tuần lễ sản phẩm Hà Tĩnh tại Hà Nội diễn ra từ ngày 23-26/4/2026

Tuần lễ sản phẩm Hà Tĩnh tại Hà Nội diễn ra từ ngày 23-26/4/2026

Tin đọc nhiều

DCCI Summit 2026: Hạ tầng AI tái định hình Data Center và Cloud Việt Nam

DCCI Summit 2026: Hạ tầng AI tái định hình Data Center và Cloud Việt Nam

Gemini có mặt trên macOS, Google đẩy mạnh trợ lý AI máy tính

Gemini có mặt trên macOS, Google đẩy mạnh trợ lý AI máy tính

5 tỷ đồng 'bốc hơi' tại KienlongBank: lỗi của ai?

5 tỷ đồng 'bốc hơi' tại KienlongBank: lỗi của ai?

Bảo mật an toàn cho hệ sinh thái tài sản số

Bảo mật an toàn cho hệ sinh thái tài sản số

Starlink không còn một mình

Starlink không còn một mình

Google ra mắt công cụ tìm kiếm AI trên Windows, tăng tốc tra cứu và xử lý dữ liệu

Google ra mắt công cụ tìm kiếm AI trên Windows, tăng tốc tra cứu và xử lý dữ liệu

Techcombank cảnh báo thủ đoạn giả mạo Email, tin nhắn để lừa đảo khách hàng ngân hàng

Techcombank cảnh báo thủ đoạn giả mạo Email, tin nhắn để lừa đảo khách hàng ngân hàng

Diễn đàn 'Hiểu đúng AI - Làm chủ tương lai' mở hướng tiếp cận giáo dục trong kỷ nguyên số

Diễn đàn 'Hiểu đúng AI - Làm chủ tương lai' mở hướng tiếp cận giáo dục trong kỷ nguyên số

MISA AMIS OneAI: Nền tảng AI hợp nhất phổ cập cho tổ chức, doanh nghiệp và gia đình

MISA AMIS OneAI: Nền tảng AI hợp nhất phổ cập cho tổ chức, doanh nghiệp và gia đình

ITU Digital World 2020: Doanh nghiệp kỳ vọng vào các cơ hội mới

ITU Digital World 2020: Doanh nghiệp kỳ vọng vào các cơ hội mới

Video xem nhiều

Toàn cảnh xác lập kỷ lục Bản đồ Việt Nam được xếp từ nhiều xe ô tô nhất năm 2022

Toàn cảnh xác lập kỷ lục Bản đồ Việt Nam được xếp từ nhiều xe ô tô nhất năm 2022

Giới thiệu chương trình bình chọn “Xe của năm 2022"

Giới thiệu chương trình bình chọn “Xe của năm 2022"

Đại học Miami tạo ra cảm biến chất lượng không khí phát hiện Covid-19

Đại học Miami tạo ra cảm biến chất lượng không khí phát hiện Covid-19

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Honda MSX 125 Grom 2021 mẫu xe côn tay phiên bản đường đua

Honda MSX 125 Grom 2021 mẫu xe côn tay phiên bản đường đua

Thông điệp lan tỏa mùa dịch COVID-19

Thông điệp lan tỏa mùa dịch COVID-19

Lộ diện siêu xe hypercar Czinger 21C tăng tốc 0-100km/h chưa tới 2 giây

Lộ diện siêu xe hypercar Czinger 21C tăng tốc 0-100km/h chưa tới 2 giây

Cỗ xe lai phản lực tăng tốc từ 0 - 1010 km/h trong 50 giây tham vọng phá kỷ lục thế giới

Cỗ xe lai phản lực tăng tốc từ 0 - 1010 km/h trong 50 giây tham vọng phá kỷ lục thế giới

“Rắn tiên tri” dự đoán đội tuyển Việt Nam thắng Thái Lan

“Rắn tiên tri” dự đoán đội tuyển Việt Nam thắng Thái Lan

Một ngày trải nghiệm giấc mơ trở thành tay đua F1 chuyên nghiệp ở Nhật Bản

Một ngày trải nghiệm giấc mơ trở thành tay đua F1 chuyên nghiệp ở Nhật Bản

Trực tiếp: Apple ra mắt Iphone 11 tại Cupertino, California, Mỹ

Trực tiếp: Apple ra mắt Iphone 11 tại Cupertino, California, Mỹ

5G thay đổi tương lai của bạn như thế nào?

5G thay đổi tương lai của bạn như thế nào?

Bàn về tầm nhìn và các trụ cột của công nghệ thông tin di động 6G
04/03/2022
Chip xử lý A15 Bionic của Apple có gì mới
15/09/2021
Sex Education mùa 3 được Netflix công chiếu vào 17/9
14/09/2021
iPhone 13 không thay đổi nhiều về ngoại hình, camera được nâng cấp mạnh
13/09/2021
Cách xem trực tiếp sự kiện ra mắt iPhone 13 và Apple Watch 7
10/09/2021
VNEID của Bộ Công an khác các ứng dụng đang được vận hành?
10/09/2021
'Cái tôi' thời 4.0 và tính hai mặt của mạng xã hội
04/09/2021
'Muôn màu' cảm xúc của trẻ trong ngày khai giảng online
24/08/2021
Chủ tịch Chu Ngọc Anh giải toả 'ách tắc' về Giấy đi đường cho người dân Thủ đô
10/08/2021
Hàng loạt Macbook M1 tự dưng vỡ màn hình, Apple có đồng ý bảo hành?
02/08/2021
6 bộ phim hay nhất để xem trên VieON
29/01/2021
Bắc Ninh: Không ký kết triển khai dự án Owifi 5G với CSE Singapore
27/06/2020
Bị World Bank cấm dự thầu 7 năm, công ty Sao Bắc Đẩu thừa nhận sai sót
27/06/2020
Wefinex - Mô hình hoạt động đa cấp "đội lốt" đầu tài chính trên mạng internet
10/06/2020
Khai trừ MISA khỏi Câu lạc bộ Chữ ký số và Giao dịch điện tử Việt Nam
27/05/2020
Chuyển đổi số - Nên hiểu như thế nào cho đúng
25/05/2020
Chống thất thu thuế là thách thức lớn đối với nền kinh tế số
29/04/2020
Cách chuyển tập tin sang máy tính mới
10/11/2019
VNPT, MobiFone, VTC sẽ hoàn thành cổ phần hóa trước năm 2021
20/08/2019
5G thay đổi tương lai của bạn như thế nào?
26/07/2019
Nhận diện hành vi lừa đảo trên không gian mạng
25/07/2019
Truyền hình OTT - Hướng đi mới của các “nhà Đài”
24/07/2019