NVIDIA NeMo Retriever là một dịch vụ mới trong bộ công cụ NVIDIA NeMo giúp các doanh nghiệp xây dựng, tùy chỉnh và triển khai các mô hình Generative AI (AI tạo sinh). 

NVIDIA NeMo Retriever giúp các ứng dụng Generative AI cung cấp các phản hồi chính xác hơn thông qua các thuật toán được tối ưu hóa bởi NVIDIA. Những nhà lập trình sử dụng dịch vụ này có thể kết nối ứng dụng AI của họ với dữ liệu doanh nghiệp ở bất kỳ đâu trên các đám mây và trung tâm dữ liệu. Nó thêm khả năng RAG được tối ưu hóa bởi NVIDIA vào các công ty sản xuất AI và là một phần của nền tảng phần mềm NVIDIA AI Enterprise, có sẵn trên AWS Marketplace.

Cadence, Dropbox, SAP và ServiceNow là những công ty đầu tiên đang hợp tác với NVIDIA để tích hợp khả năng RAG sẵn sàng cho sản xuất vào các ứng dụng và dịch vụ generative AI tùy chỉnh của họ.

Các ứng dụng generative AI với khả năng RAG là ứng dụng tiếp theo quan trọng của doanh nghiệp”, Jensen Huang, Nhà sáng lập và CEO của NVIDIA nói. “Với NVIDIA NeMo Retriever, các nhà phát triển có thể tạo ra các chatbot, cộng sự và công cụ  tạo sinh AI tùy chỉnh có thể truy cập vào dữ liệu doanh nghiệp của họ để biến đổi năng suất với thông tin AI tạo sinh chính xác và có giá trị.

AI tạo sinh giới thiệu các phương pháp sáng tạo để giải quyết nhu cầu của khách hàng, chẳng hạn như các công cụ để phát hiện ra các khuyết điểm tiềm ẩn sớm trong quy trình thiết kế. Những nhà nghiên cứu của chúng tôi đang hợp tác với NVIDIA để sử dụng NeMo Retriever để tăng cường độ chính xác và sự liên quan của các ứng dụng AI tạo sinh để phát hiện các vấn đề và giúp khách hàng đưa sản phẩm chất lượng cao lên thị trường nhanh hơn.” Anirudh Devgan, Chủ tịch và CEO của Cadence chia sẻ.

 

Hỗ trợ tạo các ứng dụng Generative AI chính xác

Không giống như các bộ công cụ RAG mã nguồn mở, NeMo Retriever hỗ trợ AI tạo sinh (Generative AI) sẵn sàng cho sản xuất với các mô hình có khả năng thương mại, ổn định API, các bản vá bảo mật và hỗ trợ doanh nghiệp. Các thuật toán được tối ưu hóa bởi NVIDIA làm cho Retriever có kết quả độ chính xác cao nhất trong các mô hình nhúng. Các mô hình nhúng được tối ưu hóa này ghi lại mối quan hệ giữa các từ, cho phép LLMs xử lý và phân tích dữ liệu văn bản.

Sử dụng NeMo Retriever, các doanh nghiệp có thể kết nối LLMs của họ với nhiều nguồn dữ liệu và cơ sở kiến thức, để người dùng có thể dễ dàng tương tác với dữ liệu và nhận câu trả lời chính xác, cập nhật bằng các câu hỏi đơn giản, trò chuyện. Các doanh nghiệp sử dụng các ứng dụng được trang bị Retriever có thể cho phép người dùng truy cập thông tin an toàn trên nhiều dạng dữ liệu, chẳng hạn như văn bản, PDF, hình ảnh và video.

Triển khai đơn giản và an toàn với NVIDIA AI Enterprise

Các công ty có thể triển khai các ứng dụng được trang bị NeMo Retriever để chạy trong quá trình suy luận trên máy tính được tăng cường bởi NVIDIA trên bất kỳ trung tâm dữ liệu hoặc đám mây nào. NVIDIA AI Enterprise hỗ trợ suy luận hiệu suất cao với NVIDIA NeMo, NVIDIA Triton Inference Server, NVIDIA TensorRT, NVIDIA TensorRT-LLM và các phần mềm AI NVIDIA khác. Để tối ưu hóa hiệu suất suy luận, các nhà phát triển có thể chạy mô hình của họ trên NVIDIA GH200 Grace Hopper Superchips vi phn mm TensorRT-LLM. Các nhà phát triển có thể đăng ký để truy cập sớm vào NVIDIA NeMo Retriever.

Tùng Nguyễn