Sử dụng ChatGPT hơn cả năm rồi nhưng chưa bao giờ tìm hiểu chiều sâu về phương pháp thực hành để đáp ứng thoả mãn những vấn đề được đặt ra.
Một hôm rảnh rỗi, muốn thử xem ChatGPT có thể giải bài toán và vẽ hình tô màu ra sao? nên đặt ra câu hỏi như sau:
- Can you fill the red color in area surface between x=0 to x=2, determined by the curve y=x^2 ?
(Tính diện tích và sơn màu đỏ trong khu vực x=0 và x=2 của công thức y= x lũy thừa 2)
ChatGPT đã vẽ hình và cho kết quả trong vòng 10 giây thôi.
The shaded red area under y= x^2 from x=0 to x=2 is:
S = 8/3 cm2 ≈ 2.67 cm2
Thật là ấn tượng phải không? Nhớ hồi còn ở Trung học nghe tới bài tập đại số là lo lắm lắm luôn, vì mình có học “Nguyên hàm-Integral” hay “Đạo hàm-Derivative” nhưng không biết để làm gì trong đời sống thực tế. Chung qui chỉ lo tập trung cho “Hình học phẳng” và “Hình học không gian” mà thôi.
Năm thi Tú tài phần I, bị cho đề Toán là tìm trị số của “m” và vẽ đồ thị cho hàm số y=x+m với x=0, y=2.
Nhờ phước đức ông bà để lại nên đậu Tú tài phần I. Nếu cho đề thi là đại số như đã hỏi ChatGPT như trên thì không biết bây giờ ai ở đâu rồi …..
Chú ý: Có thể dùng tiếng Việt nếu laptop hay điện thoại cầm tay có khả năng ngoại ngữ nầy.
=======
Những ngày gần đây cộng đồng mạng bàn tán xôn xao về Deepseek, một hãng tương đối nhỏ bên China công bố đã thiết kế thành công một công nghệ AI mới có hiệu năng hoạt động rất cao, hệ thống mã nguồn mở (open source) sử dụng miễn phí, và có thể thi hành dữ kiện (training/deep learning) trên những chip vi tính phổ thông, không cần nhiều GPU của Nvidia như những ứng dụng AI hiện tại có mặt trên thị trường.
Trước năm 2023, vì lệnh cấm vận đối với China cũng như một số quốc gia khác, Nvidia đã thay đổi thiết kế hệ thống kết nối, interconnect, giữa các GPUs để có thể thông qua rào cản cấm vận của Mỹ, bán cho China con chip H800.
Hiện tại người ta có vài nghi vấn khi ông Liang WenFeng tuyên bố Deepseek chỉ sử dụng 2000 chip H800 để xử lý, như training hay learning, trên dưới 1 trillion mã số (parameter) chỉ tốn khoảng 6 triệu đô, so sánh với 50000 chip H100 của những hãng AI của Mỹ tốn kém hơn 100 triệu hay cả tỉ đô la.
Theo ông Liang thì Deepseek sử dụng kiến trúc theo lối MoE (Mixture of Expert), hệ thống chuyên gia, chí vận hành hay liên lạc với nhau khi cần thiết nên làm giảm thiểu đáng kể lưu lượng dữ kiện trên hệ thống kết nối.
Theo quan sát viên thì Deepseek chỉ cần vận hành một số Expert trong khi ChatGPT hay những ứng dụng AI khác phải sử dụng toàn bộ hệ thống Neural Network cho Training/Deeplearning với số lưu lượng kết nối hết tất cả các GPU cao hơn gấp 4 hoặc 5 lần đề hoàn thành cùng một nhiệm vụ tương ứng.
Nvidia bán cho China chip H800 có lưu lượng kết nối 300GByte/second, so với chip H100 lưu lượng kết nối 900GB/s, nhưng Deepseek chỉ kết nối khi cần thiết, chỉ cần 1/3 hay 1/4, thì năng suất hoạt động gần như tương đương với nhau.
Thí dụ cơ bản như khi cần dữ liệu về công nghệ thông tin, người ta không cần phải liên lạc hết các giáo sư của trường, như bên kinh tế hay mỹ thuật, mà chỉ cần gặp vài giáo sư chuyên môn thôi, như vậy ít tốn kém thì giờ và có hiệu quả xác thực hơn.
Hiện tại Nvidia cho ra đời GPU có hiệu năng xử lỷ rất cao, tên Blacwell, có khả năng hoạt động nhanh hơn thế hệ cũ rất nhiều lấn. Một số trong những hệ thống nầy, tên GB200X, có luôn chip vi tính dựa trên kiến trúc của ARM, tên Grace CPU, để tiện việc phân phối và điều hành những dữ kiện cho những yêu cầu xử lý có sự phức tạp cao. Mỗi hệ thống nầy đòi hỏi năng lượng rất cao, trên dưới 1KiloWatt, để xử lý dữ kiện nhanh cho nên Nvidia đang phải đối đầu với việc làm sao giải nhiệt vì những hệ thống dùng “air cooling” không còn hiệu quả nữa. Nvidia đang hợp tác với những công ty chuyên môn về giải nhiệt bằng “Liquid cooling” để tìm ra phương án thích hợp, diện tích bề mặt (chip package surface) của những con chip GPU không lớn nên việc vận hành nhiệt ra ngoài, tiếp xúc với hệ thống giải nhiệt rất khó khăn.
Đây là mấu chốt tạo ra cơ hội cho những hệ thống AI mới như Deepseek, sử dụng ít GPU với MoE (Mixture of Expert) và không bắt buộc phải sử dụng GPU như Blacwell cho hệ thống AI xử lý Machine Learning, Deep Learning, hay Generative Learning, …, nếu Nvidia không tìm ra phương án khắc phục việc tiêu thụ năng lượng cao và hệ thống “Liquid cooling” không đáp ứng nhu cầu giải nhiệt cao cho chip vi tính GPU.
Trở lại vấn đề ông Huang của Nvidia thay đổi tốc độ kết nối của chip để có thể vượt qua rào cản cấm vận có gì sai không?
Trên mặt pháp lý thì không có gì sai.
Trên mặt khoa học thì cũng không có gì sai. Ngược lại nó giúp cho khoa học cạnh tranh phát triển cho thế giới công nghệ.
Trên mặt đạo đức thì sao?
Đây là vấn đề được nhiều người đề cập đến.
Thứ nhất là ông Liang có nói dối không về Deepseek với Deeplearning Neural Network?
Thứ hai là China có sử dụng công nghệ nầy để cạnh tranh lành mạnh và giúp đỡ phát triển một thế giới hoà bình không?
Thứ ba là quan sát viên cho rằng Deepseek nằm dưới tầm kiểm soát của chính phủ China, có thể lấy tất cả những dữ liệu riêng tư của người dùng và có thể sử dụng cho những mục đích khác nhau, có thể nguy hại cho những người không đồng chính kiến.
Thứ tư là Deepseek không minh bạch, từ chối không trả lời thẳng thắn như những AI khác. Khi được hỏi tin tức liên quan đến tình hình chính trị của China trong quá khứ như vụ bạo động ờ Thiên An Môn.
Khi được hỏi về việc China chiếm đóng quần đảo Hoàng Sa của Việt Nam năm 1974, thì câu trả lời là “Xin lỗi. Câu hỏi nầy nằm ngoài sự hiếu biết hay không có tài liệu liên quan”. Khi hỏi “Hoàng Sa?” thì trả lời là quần đảo nầy thuộc China và sẽ dùng mọi “phương thức hoà bình” để bảo vệ.
“Sic” hay “Shit” ….
=======
Dưới đây là dữ kiện liên hệ đến H100 và H800 của Nvidia lượm lặt trên mạng với (ChatGPT).
NVIDIA H100
⦁ Release Date: March 2022
⦁ Architecture: Hopper
⦁ Process Technology: 4 nm
⦁ Memory:
⦁ Capacity: 80 GB HBM3
⦁ Bandwidth: Up to 2 TB/s
⦁ Performance:
⦁ FP64: 26 TFLOPS
⦁ FP32: 51 TFLOPS
⦁ Tensor Performance: Up to 1,000 TFLOPS (with sparsity)
⦁ Interconnect Bandwidth: 900 GB/s (NVLink)
⦁ Power Consumption: 350–700 W (depending on configuration)
NVIDIA H800
⦁ Release Date: March 2023
⦁ Architecture: Hopper
⦁ Process Technology: 4 nm
⦁ Memory:
⦁ Capacity: 80 GB HBM3
⦁ Bandwidth: Up to 2 TB/s
⦁ Performance:
⦁ FP64: 26 TFLOPS
⦁ FP32: 51 TFLOPS
⦁ Tensor Performance: Up to 1,000 TFLOPS (with sparsity)
⦁ Interconnect Bandwidth: 300 GB/s (NVLink)
⦁ Power Consumption: 350–700 W (depending on configuration)
Key Differences
⦁ Interconnect Bandwidth:
⦁ H100: Features a high NVLink bandwidth of 900 GB/s, facilitating rapid data transfer between GPUs.
⦁ H800: Reduced NVLink bandwidth of 300 GB/s, approximately one-third of the H100's capacity. This reduction is primarily due to export control regulations.
reuters.com
⦁ Intended Market:
⦁ H100: Available globally, including markets like the United States and Europe.
⦁ H800: Specifically designed for the Chinese market to comply with U.S. export restrictions.
reuters.com
Impact of Reduced Interconnect Bandwidth
The decreased NVLink bandwidth in the H800 affects multi-GPU communication performance. In large-scale AI model training, efficient GPU-to-GPU communication is crucial. The lower bandwidth in the H800 can lead to increased training times and reduced efficiency in handling massive datasets.
techradar.com
Conclusion
While both the H100 and H800 share similar core specifications, the significant difference in NVLink bandwidth means that the H100 is better suited for high-performance, multi-GPU tasks that require rapid data exchange. The H800, with its reduced bandwidth, is tailored for markets with specific regulatory constraints and may face limitations in large-scale AI training scenarios.
Create Your Own Website With Webador