Cách tải xuống và cài đặt Llama 2 cục bộ

Meta phát hành Llama 2 vào mùa hè năm 2023. Phiên bản mới của Llama được tinh chỉnh với số lượng mã thông báo nhiều hơn 40% so với mô hình Llama ban đầu, tăng gấp đôi độ dài ngữ cảnh và vượt trội đáng kể so với các mô hình nguồn mở khác hiện có. Cách nhanh nhất và dễ nhất để truy cập Llama 2 là thông qua API thông qua nền tảng trực tuyến. Tuy nhiên, nếu bạn muốn có trải nghiệm tốt nhất thì cài đặt và tải Llama 2 trực tiếp trên máy tính là tốt nhất.
Với ý nghĩ đó, chúng tôi đã tạo hướng dẫn từng bước về cách sử dụng Text-Generation-WebUI để tải Llama 2 LLM được lượng tử hóa cục bộ trên máy tính của bạn.
Mục lục
Tại sao cài đặt Llama 2 cục bộ
Có nhiều lý do khiến mọi người chọn chạy trực tiếp Llama 2. Một số làm điều đó vì lo ngại về quyền riêng tư, một số để tùy chỉnh và một số khác vì khả năng ngoại tuyến. Nếu bạn đang nghiên cứu, tinh chỉnh hoặc tích hợp Llama 2 cho dự án của mình thì việc truy cập Llama 2 qua API có thể không dành cho bạn. Mục đích của việc chạy LLM cục bộ trên PC của bạn là giảm sự phụ thuộc vào các công cụ AI của bên thứ ba và sử dụng AI mọi lúc, mọi nơi mà không lo rò rỉ dữ liệu nhạy cảm cho các công ty và tổ chức khác.
Như đã nói, hãy bắt đầu với hướng dẫn từng bước để cài đặt Llama 2 cục bộ.
Để đơn giản hóa mọi thứ, chúng tôi sẽ sử dụng trình cài đặt bằng một cú nhấp chuột cho Text-Generation-WebUI (chương trình được sử dụng để tải Llama 2 bằng GUI). Tuy nhiên, để trình cài đặt này hoạt động, bạn cần tải xuống Visual Studio 2019 Build Tool và cài đặt các tài nguyên cần thiết.
Tải xuống: Visual Studio 2019 (Miễn phí)
Bây giờ bạn đã cài đặt bản phát triển Máy tính để bàn với C++, đã đến lúc tải xuống trình cài đặt một cú nhấp chuột Text-Generation-WebUI.
Bước 2: Cài đặt Text-Generation-WebUI
Trình cài đặt bằng một cú nhấp chuột Text-Generation-WebUI là một tập lệnh tự động tạo các thư mục cần thiết và thiết lập môi trường Conda cũng như tất cả các yêu cầu cần thiết để chạy mô hình AI.
Để cài đặt tập lệnh, hãy tải xuống trình cài đặt bằng một cú nhấp chuột bằng cách nhấp vào Mã > Tải xuống ZIP.
Tải xuống: Trình cài đặt WebUI thế hệ văn bản (Miễn phí)
- Nếu bạn đang dùng Windows, hãy chọn tệp bó start_windows
- đối với MacOS, chọn tập lệnh shell start_macos
- đối với Linux, tập lệnh shell start_linux.



Tuy nhiên, chương trình chỉ là một trình tải mô hình. Hãy tải xuống Llama 2 để trình tải mô hình khởi chạy.
Bước 3: Tải xuống Mô hình Llama 2
Có khá nhiều điều cần cân nhắc khi quyết định bạn cần lặp lại Llama 2 nào. Chúng bao gồm các tham số, lượng tử hóa, tối ưu hóa phần cứng, kích thước và cách sử dụng. Tất cả thông tin này sẽ được ghi rõ trong tên của mẫu máy.
- Tham số: Số lượng tham số được sử dụng để huấn luyện mô hình. Các thông số lớn hơn tạo ra các mô hình có khả năng cao hơn nhưng phải trả giá bằng hiệu năng.
- Cách sử dụng: Có thể là tiêu chuẩn hoặc trò chuyện. Mô hình trò chuyện được tối ưu hóa để sử dụng làm chatbot như ChatGPT, trong khi tiêu chuẩn là mô hình mặc định.
- Tối ưu hóa phần cứng: Đề cập đến phần cứng nào chạy mô hình tốt nhất. GPTQ có nghĩa là mô hình được tối ưu hóa để chạy trên GPU chuyên dụng, trong khi GGML được tối ưu hóa để chạy trên CPU.
- Lượng tử hóa: Biểu thị độ chính xác của trọng số và kích hoạt trong mô hình. Để suy luận, độ chính xác q4 là tối ưu.
- Kích thước: Đề cập đến kích thước của mô hình cụ thể.
Lưu ý rằng một số kiểu máy có thể được sắp xếp khác nhau và thậm chí có thể không hiển thị cùng loại thông tin. Tuy nhiên, kiểu quy ước đặt tên này khá phổ biến trong thư viện HuggingFace Model, vì vậy nó vẫn đáng để hiểu.
Trong ví dụ này, mô hình có thể được xác định là mô hình Llama 2 cỡ trung bình được đào tạo trên 13 tỷ tham số được tối ưu hóa cho hoạt động suy luận trò chuyện bằng CPU chuyên dụng.
Đối với những người chạy trên GPU chuyên dụng, hãy chọn kiểu GPTQ, trong khi đối với những người sử dụng CPU, hãy chọn GGML. Nếu bạn muốn trò chuyện với mô hình giống như với ChatGPT, hãy chọn trò chuyện, nhưng nếu bạn muốn thử nghiệm mô hình với đầy đủ khả năng của nó, hãy sử dụng mô hình tiêu chuẩn. Đối với các thông số, hãy biết rằng việc sử dụng các mô hình lớn hơn sẽ mang lại kết quả tốt hơn nhưng lại phải trả giá bằng hiệu suất. Cá nhân tôi khuyên bạn nên bắt đầu với mô hình 7B. Đối với lượng tử hóa, hãy sử dụng q4 vì nó chỉ dành cho suy luận.
Tải xuống: GGML (Miễn phí)
Tải xuống: GPTQ (Miễn phí)
Bây giờ bạn đã biết mình cần phiên bản Llama 2 nào, hãy tiếp tục và tải xuống mô hình bạn muốn.
Trong trường hợp của tôi, vì tôi đang chạy ứng dụng này trên ultrabook nên tôi sẽ sử dụng mô hình GGML được tinh chỉnh để trò chuyện, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
Sau khi quá trình tải xuống hoàn tất, hãy đặt mô hình vào các mô hình text-Generation-webui-main >.
Bây giờ bạn đã tải xuống mô hình của mình và đặt vào thư mục mô hình, đã đến lúc định cấu hình trình tải mô hình.
Bước 4: Định cấu hình tạo văn bản-WebUI
Bây giờ, hãy bắt đầu giai đoạn cấu hình.


Xin chúc mừng, bạn đã tải thành công Llama2 trên máy tính cục bộ của mình!
Hãy thử các LLM khác
Bây giờ bạn đã biết cách chạy Llama 2 trực tiếp trên máy tính của mình bằng Text-Generation-WebUI, bạn cũng có thể chạy các LLM khác ngoài Llama. Chỉ cần nhớ quy ước đặt tên của các mô hình và chỉ các phiên bản lượng tử hóa của mô hình (thường là độ chính xác q4) mới có thể được tải trên PC thông thường. Nhiều LLM được lượng tử hóa có sẵn trên HuggingFace. Nếu bạn muốn khám phá các mô hình khác, hãy tìm kiếm TheBloke trong thư viện mô hình của HuggingFace và bạn sẽ tìm thấy nhiều mô hình có sẵn.