Cách sử dụng Chatbot Arena để so sánh các LLM tốt nhất

Với một số chatbot có sẵn trực tuyến, việc chọn một chatbot đáp ứng nhu cầu của bạn có thể trở nên cực kỳ khó khăn. Mặc dù bạn có thể so sánh hai chatbot bất kỳ theo cách thủ công nhưng việc này sẽ mất nhiều thời gian và công sức.
Một cách tốt hơn và đơn giản hơn là sử dụng Chatbot Arena để so sánh các LLM khác nhau hỗ trợ các chatbot phổ biến. Nó cung cấp một số chế độ để so sánh các mô hình khác nhau mà chúng tôi giải thích bên dưới.
Mục lục
Đấu trường Chatbot là gì?
Được tạo bởi LMSYS Org, Chatbot Arena là một nền tảng để đánh giá các LLM khác nhau. Nó sử dụng hệ thống Xếp hạng Elo để xếp hạng các mô hình khác nhau.
Chatbot Arena cung cấp một số cách để người dùng so sánh và đánh giá LLM. Dựa trên phản hồi đã gửi, Chatbot Arena xếp hạng các LLM khác nhau trên bảng xếp hạng công khai. Dự án được tài trợ bởi HuggingFace, một giải pháp thay thế nguồn mở cho ChatGPT.
Cách so sánh LLM ẩn danh với Chatbot Arena
Chế độ chiến đấu của Chatbot Arena cho phép bạn so sánh LLM một cách ẩn danh. Chẳng hạn, bạn có thể so sánh ChatGPT (GPT 3.5) và Claude. Điều này có nghĩa là Chatbot Arena tự chọn hai mô hình ngôn ngữ bất kỳ và không tiết lộ tên của chúng, cho phép bạn so sánh chúng.
Khi bạn nhập lời nhắc đầu tiên, Chatbot Arena sẽ tìm nạp phản hồi từ cả hai mô hình, hiển thị chúng cạnh nhau. Nền tảng này cho phép bạn tạo lại phản hồi (cho cả LLM) và xóa lịch sử để bắt đầu một cuộc trò chuyện khác. Bạn có thể tiếp tục đặt thêm câu hỏi cho đến khi chọn được người chiến thắng rõ ràng.
Sau đó, bạn có thể chọn mô hình A tốt hơn hay mô hình B. Khi chọn người chiến thắng, Chatbot Arena sẽ tiết lộ tên của cả hai bot. Chế độ này hoạt động hiệu quả vì quyết định của bạn không bị ảnh hưởng bởi nhận thức trước đây hoặc mức độ phổ biến của các mô hình. Chatbot Arena cũng cho phép bạn điều chỉnh các thông số như nhiệt độ, Top P và mã thông báo đầu ra tối đa.
Cách so sánh các LLM đã chọn với Chatbot Arena
Nếu muốn so sánh hai LLM cụ thể bất kỳ, bạn có thể chuyển sang chế độ song song của Chatbot Arena. Ngoài việc bạn có thể tự mình chọn LLM, chế độ này hoạt động gần giống như chế độ chiến đấu. Bạn có thể điều chỉnh các tham số, tạo lại phản hồi, xóa lịch sử và cuối cùng chọn người chiến thắng.
Tuy nhiên, số lượng LLM có sẵn trong chế độ này bị hạn chế. Bạn có thể chọn các phiên bản khác nhau của Llama 2, Vicuna và ChatGLM. Mặc dù các LLM phổ biến, như GPT-4, GPT-3.5, Claude 1, Claude 2, v.v., hiện không có sẵn trong chế độ này, Chatbot Arena có kế hoạch bổ sung chúng.
So sánh LLM bằng Chatbot Arena
Cho dù bạn đang tìm kiếm một chatbot phù hợp với nhu cầu của mình hay chỉ muốn thử nghiệm các LLM khác nhau, Chatbot Arena là một nền tảng tuyệt vời.
Nó cung cấp một cách đơn giản để so sánh các mô hình ngôn ngữ khác nhau với nhau. Và vì nó duy trì bảng xếp hạng dựa trên phản hồi của người dùng nên bạn có thể xem trực tiếp thứ hạng của các mô hình khác nhau mà không cần tự mình chạy thử nghiệm.