DeepSeek Có Thể Đã Sử Dụng Google Gemini Để Huấn Luyện Mô Hình Mới Nhất

Startup AI Trung Quốc DeepSeek đang đối mặt với nghi vấn rằng họ có thể đã sử dụng dữ liệu từ Google Gemini để huấn luyện mô hình mới nhất của mình, gây tranh cãi trong cộng đồng AI về vấn đề đạo đức và minh bạch trong phát triển công nghệ.

Bối Cảnh Vụ Việc

DeepSeek, một startup AI có trụ sở tại Trung Quốc, gần đây đã ra mắt mô hình ngôn ngữ lớn (LLM) mới, thu hút sự chú ý nhờ hiệu suất ấn tượng. Tuy nhiên, các nhà nghiên cứu và chuyên gia trong ngành đã phát hiện những điểm tương đồng đáng ngờ giữa đầu ra của mô hình này và Google Gemini, một trong những mô hình AI hàng đầu hiện nay. Cụ thể, các mẫu văn bản được tạo ra bởi DeepSeek cho thấy sự giống nhau bất thường về cấu trúc câu, cách diễn đạt và thậm chí là cách tiếp cận các vấn đề phức tạp, làm dấy lên nghi ngờ rằng dữ liệu từ Gemini có thể đã được sử dụng trong quá trình huấn luyện.

If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025

Theo một bài đăng trên X từ một nhà nghiên cứu độc lập, “Các mẫu đầu ra từ mô hình mới của DeepSeek cho thấy sự tương đồng đáng kể với Gemini, đặc biệt trong các tác vụ như xử lý ngôn ngữ tự nhiên và trả lời câu hỏi. Điều này đặt ra câu hỏi liệu DeepSeek có sử dụng dữ liệu từ các mô hình độc quyền như Gemini hay không.” Tuy nhiên, DeepSeek đã phủ nhận cáo buộc này, khẳng định rằng mô hình của họ được huấn luyện trên các bộ dữ liệu mã nguồn mở và nội bộ, tuân thủ các tiêu chuẩn đạo đức.

Vấn Đề Đạo Đức Trong Huấn Luyện AI

Việc sử dụng dữ liệu từ các mô hình độc quyền để huấn luyện AI là một vấn đề nhạy cảm trong ngành. Các mô hình như Google Gemini được xây dựng dựa trên dữ liệu độc quyền và quy trình huấn luyện tốn kém, thường được bảo vệ bởi các thỏa thuận bản quyền nghiêm ngặt. Nếu DeepSeek thực sự sử dụng dữ liệu từ Gemini mà không được phép, điều này có thể vi phạm bản quyền và làm tổn hại đến lòng tin trong cộng đồng AI. “Sự minh bạch trong việc huấn luyện mô hình là yếu tố then chốt để duy trì tính công bằng và thúc đẩy đổi mới,” một chuyên gia AI nhận xét trên TechCrunch.

DeepSeek cho biết họ sử dụng các bộ dữ liệu mã nguồn mở như Common Crawl và các tập dữ liệu nội bộ được thu thập từ các nguồn hợp pháp. Tuy nhiên, công ty không công khai chi tiết về quy trình huấn luyện, điều này làm gia tăng nghi ngờ từ cộng đồng. Trong khi đó, Google chưa đưa ra bình luận chính thức về vấn đề này, nhưng các nguồn tin nội bộ cho rằng công ty đang xem xét khả năng điều tra.

Tác Động Đến Ngành AI

Vụ việc này làm nổi bật thách thức lớn trong ngành AI: làm thế nào để cân bằng giữa đổi mới nhanh chóng và việc tuân thủ các tiêu chuẩn đạo đức. Các startup như DeepSeek thường phải cạnh tranh với các gã khổng lồ công nghệ như Google, OpenAI và Meta, những công ty có nguồn lực lớn hơn nhiều. Tuy nhiên, việc sử dụng dữ liệu từ các mô hình độc quyền mà không được phép có thể dẫn đến các tranh chấp pháp lý và làm tổn hại danh tiếng của startup.

Cộng đồng AI cũng đang kêu gọi thiết lập các tiêu chuẩn rõ ràng hơn về việc sử dụng dữ liệu huấn luyện. “Chúng ta cần các quy định quốc tế để đảm bảo rằng các mô hình AI được phát triển một cách minh bạch và có trách nhiệm,” một nhà nghiên cứu từ Đại học Stanford chia sẻ. Vụ việc của DeepSeek có thể trở thành một tiền lệ quan trọng, thúc đẩy các cuộc thảo luận về đạo đức trong AI.

Phản Hồi Từ DeepSeek

Trong một tuyên bố gửi đến TechCrunch, DeepSeek nhấn mạnh: “Chúng tôi cam kết phát triển AI một cách có trách nhiệm và tuân thủ các tiêu chuẩn đạo đức cao nhất. Mô hình mới nhất của chúng tôi được huấn luyện trên các bộ dữ liệu hợp pháp, và chúng tôi sẵn sàng hợp tác với các bên liên quan để làm rõ bất kỳ nghi ngờ nào.” Công ty cũng cho biết họ đang xem xét công khai thêm thông tin về quy trình huấn luyện để tăng cường minh bạch.

Kết Luận

Nghi vấn về việc DeepSeek sử dụng dữ liệu từ Google Gemini để huấn luyện mô hình mới nhất đã làm dấy lên một cuộc tranh luận quan trọng trong ngành AI. Vụ việc này không chỉ đặt câu hỏi về tính minh bạch của startup mà còn nhấn mạnh nhu cầu về các tiêu chuẩn đạo đức chặt chẽ hơn trong phát triển AI. Trong bối cảnh cạnh tranh ngày càng khốc liệt, việc duy trì lòng tin và tính công bằng sẽ là yếu tố quyết định để các công ty như DeepSeek khẳng định vị thế.

Theo TechCrunch, https://techcrunch.com/2025/06/03/deepseek-may-have-used-googles-gemini-to-train-its-latest-model/