Bí mật đằng sau mô hình AI DeepSeek R1: Chi phí đào tạo chỉ 294.000 USD nhưng thổi bay nghìn tỷ USD cho thị trường Mỹ

3 giờ trước
Chỉ bằng cách cải thiện thuật toán và phương pháp đào tạo của mình, DeepSeek đã tạo ra mô hình với hiệu năng tương đương các mô hình hàng đầu thế giới trong khi chi phí thấp hơn hàng chục lần.

Những bí mật đằng sau thành công của mô hình trí tuệ nhân tạo DeepSeek R1 vừa được hé lộ trong một nghiên cứu mang tính bước ngoặt được công bố trên tạp chí Nature. Mô hình AI đến từ Trung Quốc này đã gây chấn động toàn cầu khi ra mắt vào tháng 1 vừa qua, thậm chí khiến thị trường chứng khoán Mỹ lao dốc mạnh mẽ do lo ngại về sự cạnh tranh từ công nghệ Trung Quốc.

Điều đáng chú ý nhất mà các nhà nghiên cứu tại DeepSeek tiết lộ là mô hình R1 không hề dựa vào việc học từ đầu ra của các đối thủ để đạt được thành công như vậy. Thông tin này được công bố cùng với phiên bản đã qua thẩm định đồng nghiệp của mô hình R1, đánh dấu lần đầu tiên một mô hình ngôn ngữ lớn trải qua quy trình thẩm định khắt khe này.

Bí mật đằng sau mô hình AI DeepSeek R1: Chi phí đào tạo chỉ 294.000 USD nhưng thổi bay nghìn tỷ USD cho thị trường Mỹ - Ảnh 1

R1 được thiết kế để xuất sắc trong các tác vụ "lý luận" như toán học và lập trình, trở thành đối thủ có chi phí thấp hơn nhiều so với các công cụ được phát triển bởi các công ty công nghệ Mỹ. Là một mô hình "trọng số mở", R1 có thể được tải xuống miễn phí bởi bất kỳ ai và hiện đang là mô hình phổ biến nhất trên nền tảng cộng đồng AI Hugging Face với hơn 10,9 triệu lượt tải xuống.

Điều gây sốc nhất là chi phí đào tạo R1 chỉ có 294.000 USD, con số này chưa tính chi phí 6 triệu USD được dành cho việc tạo ra mô hình ngôn ngữ lớn cơ sở của DeepSeek. Ngay cả như vậy, con số này vẫn thấp hơn hàng chục lần so với các đối thủ đến từ Mỹ.

Điều thú vị là DeepSeek cho biết R1 chủ yếu được đào tạo trên chip H800 của Nvidia, loại chip đã bị cấm bán cho Trung Quốc theo lệnh kiểm soát xuất khẩu của Mỹ từ năm 2023. Sự thành công này cho thấy khả năng vượt qua các hạn chế công nghệ của các nhà nghiên cứu Trung Quốc.

Đổi mới lớn nhất của DeepSeek là sử dụng phương pháp học tăng cường thuần túy tự động, một cách tiếp cận thử và sai để tạo ra R1. Quá trình này thưởng cho mô hình khi đạt được câu trả lời đúng, thay vì dạy nó theo các ví dụ lý luận được con người lựa chọn. Công ty cho biết đây là cách mô hình của họ học được các chiến lược giống như lý luận của riêng mình, chẳng hạn như cách xác minh công việc của mình mà không cần tuân theo các chiến thuật do con người quy định.

Để tăng hiệu quả, mô hình cũng tự chấm điểm các nỗ lực của mình bằng cách sử dụng ước tính, thay vì sử dụng một thuật toán riêng biệt để thực hiện việc này - một kỹ thuật được gọi là tối ưu hóa chính sách tương đối nhóm.

Huan Sun, nhà nghiên cứu AI tại Đại học Bang Ohio, nhận định rằng mô hình này đã có ảnh hưởng khá lớn trong số các nhà nghiên cứu AI. Ông cho rằng gần như tất cả các nghiên cứu năm 2025 về học tăng cường trong các mô hình ngôn ngữ lớn đều có thể đã được truyền cảm hứng từ R1.

Bí mật đằng sau mô hình AI DeepSeek R1: Chi phí đào tạo chỉ 294.000 USD nhưng thổi bay nghìn tỷ USD cho thị trường Mỹ - Ảnh 2

Lewis Tunstall, kỹ sư học máy tại Hugging Face và là người đã thẩm định bài báo trên Nature, nhận xét rằng đây là một tiền lệ rất đáng hoan nghênh. Ông cho rằng nếu không có chuẩn mực chia sẻ phần lớn quy trình này một cách công khai, sẽ trở nên rất khó khăn để đánh giá liệu các hệ thống này có đặt ra rủi ro hay không.

Các báo cáo truyền thông vào tháng 1 từng gợi ý rằng các nhà nghiên cứu tại OpenAI - công ty có trụ sở tại San Francisco đã tạo ra ChatGPT và loạt mô hình lý luận 'o' - cho rằng DeepSeek đã sử dụng đầu ra từ các mô hình OpenAI để đào tạo R1. Tuy nhiên, trong các trao đổi với các thẩm định viên, các nhà nghiên cứu của DeepSeek đã khẳng định rằng R1 không học bằng cách sao chép các ví dụ lý luận được tạo ra bởi các mô hình OpenAI.

Họ thừa nhận rằng, giống như hầu hết các mô hình ngôn ngữ lớn khác, mô hình cơ sở của R1 được đào tạo trên web, vì vậy nó sẽ đã tiếp thu bất kỳ nội dung do AI tạo ra nào đã có trên Internet. Tuy nhiên, Sun cho rằng lời bác bỏ này có tính thuyết phục như những gì chúng ta có thể thấy trong bất kỳ ấn phẩm nào.

Bí mật đằng sau mô hình AI DeepSeek R1: Chi phí đào tạo chỉ 294.000 USD nhưng thổi bay nghìn tỷ USD cho thị trường Mỹ - Ảnh 3

Tunstall bổ sung rằng mặc dù ông không thể chắc chắn 100% rằng R1 không được đào tạo trên các ví dụ của OpenAI, nhưng các nỗ lực tái tạo bởi các phòng thí nghiệm khác cho thấy công thức lý luận của DeepSeek có lẽ đủ tốt để không cần làm điều này. Ông tin rằng bằng chứng hiện tại khá rõ ràng rằng người ta có thể đạt được hiệu suất rất cao chỉ bằng cách sử dụng học tăng cường thuần túy.

Đối với các nhà nghiên cứu , R1 vẫn rất có sức cạnh tranh. Trong một thử thách hoàn thành các tác vụ khoa học như phân tích và trực quan hóa dữ liệu được gọi là ScienceAgentBench, Sun và các đồng nghiệp phát hiện rằng mặc dù R1 không đứng đầu về độ chính xác, nhưng nó là một trong những mô hình tốt nhất về mặt cân bằng khả năng với chi phí.

Các nhà nghiên cứu khác hiện đang cố gắng áp dụng các phương pháp được sử dụng để tạo ra R1 nhằm cải thiện khả năng giống như lý luận của các mô hình ngôn ngữ lớn hiện có, cũng như mở rộng chúng sang các lĩnh vực ngoài toán học và lập trình. Theo cách đó, Tunstall cho rằng R1 đã "khởi động một cuộc cách mạng" trong lĩnh vực trí tuệ nhân tạo.

Tin mới

Doanh nghiệp Việt đồng hành cùng V FEST: Từ giá trị văn hóa đến khát vọng Việt
36 phút trước
Tập đoàn Masan (Masan Group) đồng hành cùng sự kiện âm nhạc - Đại nhạc hội V FEST – VIETNAM TODAY, do Đài Truyền hình Việt Nam tổ chức vào ngày 20.9, tại Trung tâm Triển lãm Việt Nam.
Nỗi ám ảnh về mặt baby của người Hàn Quốc
2 giờ trước
Trong một xã hội tôn sùng tuổi trẻ và sợ hãi tuổi già, áp lực phải luôn trẻ trung đã ăn sâu vào tiềm thức.
Fed phát tín hiệu sẽ còn 2 đợt cắt giảm nữa trong năm nay, thị trường rộ tin ngân hàng trung ương có thể nới lỏng mạnh tay hơn nữa: Lãi suất sẽ xuống dưới 3% vào năm 2026?
2 giờ trước
Các nhà đầu tư Phố Wall đang đánh cược rằng Cục Dự trữ Liên bang Mỹ (Fed) sẽ cắt giảm lãi suất nhanh hơn so với chính dự báo của cơ quan này. Đây là kỳ vọng đã và đang kích thích thị trường tài chính.
MoMo 'bắt tay' đại gia bảo hiểm Chubb Life: Bán bảo hiểm bệnh hiểm nghèo với mức chi trả lên đến 5 tỷ, đăng ký trong 2 phút, tặng 3 tháng dùng thử
2 giờ trước
Toàn bộ quy trình từ mua, quản lý hợp đồng đến yêu cầu bồi thường đều được thực hiện 100% trực tuyến ngay trên ứng dụng.
Sốt đất sau công bố quy hoạch KCN: Chủ yếu 'lướt sóng', đặt cọc bán sang tay
2 giờ trước
Ngay sau khi Hà Tĩnh công bố quy hoạch phân khu xây dựng Khu công phía Tây rộng gần 200 ha ở xã Toàn Lưu, lập tức diễn ra tình trạng sốt đất tại khu vực xung quanh.

Bảng giá cập nhật trực tuyến

Thịt bò

BEEF

1.256.334.412 VNĐ / tấn

304.10 BRL / kg

0.36 %

- 1.10

Thịt gà

CHICKEN

32.967.934 VNĐ / tấn

7.98 BRL / kg

0.00 %

- 0.00

Thịt heo

LEAN HOGS

5.698.003 VNĐ / tấn

97.98 USD / lbs

0.51 %

+ 0.50

» Xem tất cả giá Thực phẩm

Tin cùng chuyên mục

Quảng Ninh dành trên 5.400 tỷ làm 2 tuyến đường bao biển mới
4 giờ trước
Hai dự án đường bao biển mới trị giá trên 5.400 tỷ được tỉnh Quảng Ninh đầu tư sau khi hoàn thành nhằm mở rộng không gian đô thị của tỉnh, tạo động lực thu hút đầu tư phát triển các khu đô thị mới ở khu vực phía Bắc của vịnh Cửa Lục và khai thác hợp lý các tiềm năng, lợi thế về đất đai…
Mức thuế thu nhập 35% của Việt Nam có thể thuộc nhóm cao nhất ASEAN
5 giờ trước
Dự thảo mới nhất áp thuế suất cao nhất là 35%.
Chuyển từ 500 triệu phải báo cáo đơn vị phòng chống rửa tiền
6 giờ trước
Ngân hàng Nhà nước yêu cầu khi giao dịch chuyển tiền trong nước từ 500 triệu đồng trở lên hoặc ngoại tệ có giá trị tương đương phải báo cáo về Cục Phòng, chống rửa tiền.
Luật Thuế thu nhập cá nhân sửa đổi: Thiếu cơ chế hỗ trợ lao động tự do?
6 giờ trước
Người nộp thuế phản ánh, đề xuất áp thuế thu nhập cá nhân (TNCN) thiếu cơ chế hỗ trợ người làm nghề tự do. Chính sách áp thuế với nguồn thu từ đầu tư tài chính chưa được luật hóa rõ, tiềm ẩn rủi ro cho người dân. Việc áp thuế cho tài sản mã hóa cũng còn nhiều băn khoăn.