ChatGPT-4 so với ChatGPT-3.5 Mặc định so với ChatGPT-3.5 Di sản: Đã kiểm tra sự khác biệt

ChatGPT 4.0 dự kiến sẽ tạo nên làn sóng lớn trong thế giới chatbot. Nhưng nó có thực sự vượt trội so với người tiền nhiệm? Hãy kiểm tra.
ChatGPT chỉ là phần nổi của tảng băng tự động hóa sắp tới, với Google, Microsoft và nhiều công ty ưu tiên AI khác đang làm theo.
Để bắt đầu, chúng tôi đã tìm thấy một vài chatbot như ChatGPT, nhiều chatbot trong số đó không thuộc về công nghệ lớn.
Nhưng hãy gọi nó là sức mạnh của tiếp thị; ChatGPT vẫn là vua trị vì của tất cả các bot AI như vậy. Nó có thể làm nhiều thứ, bao gồm toán học, thơ ca và các bài đăng trên blog, và mọi người thậm chí còn sử dụng nó để nộp đơn kiện.
DoNotPay đang nghiên cứu sử dụng GPT-4 để tạo “các vụ kiện chỉ bằng một cú nhấp chuột” để kiện những kẻ lừa đảo với số tiền 1.500 đô la. Hãy tưởng tượng bạn nhận được một cuộc gọi, nhấp vào nút, cuộc gọi được phiên âm và vụ kiện 1.000 từ được tạo ra. GPT-3.5 không đủ tốt, nhưng GPT-4 xử lý công việc cực kỳ tốt: pic.twitter.com/gplf79kaqG
– Joshua Browder (@jbrowder1) ngày 14 tháng 3 năm 2023
Nó có rất nhiều chuyên gia lo lắng về bộ kỹ năng của họ sẽ trở nên vô dụng trong tương lai gần.
Tuy nhiên, tôi đã đọc một bài đăng trên Linkedin có nội dung:
AI sẽ không thay thế bạn, nhưng một người sử dụng AI thì có thể.
Vì vậy, chúng ta hãy cùng nắm tay nhau tìm hiểu về bản cập nhật ChatGPT mới nhất và xem nó khác với các phiên bản trước như thế nào.
ChatGPT: Di sản, Mặc định và Bản cập nhật
Vì vậy, có ba phiên bản dành cho người dùng trả phí: Di sản (3.5), Mặc định (3.5) và Bản cập nhật ChatGPT gần đây (4).
Mặc dù chúng ta sẽ đi sâu một chút về khả năng của chúng, đây là những gì OpenAI nói về sự khác biệt:
Nguồn: OpenAI
Vì vậy, trong khi người dùng miễn phí chỉ có Legacy 3.5 để chơi, thì đăng ký trả phí cung cấp cả ba để thử và giải quyết những gì người dùng cho là tốt nhất.
Để tóm tắt hình ảnh trước đó, các gói trả phí sẽ nhận được kết quả chính xác hơn với tốc độ khá. Tuy nhiên, sự khác biệt chỉ rõ ràng nếu các gợi ý phức tạp và cần sự sáng tạo.
Tham sốTrò chuyệnGPT 4ChatĐiểm kiểm tra GPT 3.5BarTop 10%Dưới 10%Thử thách suy luận AI2 (ARC)96,3%85,2%Điểm viết mã Python67%48,1%Diễn giải trực quanCóKhôngNgữ cảnhHơn 25 nghìn từÍt hơnNguồn: OpenAI
Ngoài ra, ChatGPT 4 có thể chấp nhận đầu vào trực quan.
Vâng, đủ các định nghĩa trong sách giáo khoa. Hãy bắt tay vào đánh giá những ứng cử viên này trong chiến trường ngoài đời thực.
Các phần tiếp theo chứa đầy hình ảnh có thể không rõ ràng. Trong trường hợp như vậy, nhấp chuột phải vào bất kỳ hình ảnh nào và chọn Mở trong tab mới để xem chính xác.
toán học
Là một sinh viên tốt nghiệp kỹ thuật, tôi không thể không ném cho họ một số vấn đề cơ bản. Hãy bắt đầu dễ dàng với các phương trình đại số.
giai đoạn tôi
Nhiều người trong chúng ta đã thấy các phương trình ax2+bx+c=0 này, trong đó chúng ta phải giải để tìm X. Ở đây, tôi đưa ra lời nhắc đơn giản này, Giải cho x: x2 + x – 6 = 0
Mặc dù tất cả đều có cùng gốc (X= -3,2), Legacy và Update giống nhau hơn ở chỗ sử dụng trực tiếp công thức (như bất kỳ học sinh nào cũng sẽ làm) để tìm ra kết quả.
Tuy nhiên, Mặc định 3.5 đã giải thích hai phương pháp, bao gồm cả phân tích thừa số, mà thông thường bất kỳ học sinh có kỹ năng nào cũng sử dụng khi đưa ra các phương trình thông thường như vậy.
Giai đoạn II
Tiếp theo, tôi nhắc nó giải một phương trình bậc ba hơi phức tạp: x^3 -12x^2 + 48x – 64 = 0.
Điều này thực sự đã chứng minh tại sao ChatGPT 4 là “bản cập nhật”.
Dưới đây là các câu trả lời:
Tất cả sự cường điệu này và ChatGPT Di sản và Mặc định không thể giải phương trình bậc ba tổng quát. Tuy nhiên, Legacy đã làm tốt hơn một chút và tìm thấy chính xác hai gốc, trong khi Mặc định không thành công với tất cả.
Bản Cập nhật là người chiến thắng rõ ràng trong giai đoạn hai và đã giải phương trình một cách hoàn hảo, tìm ra cả ba nghiệm với một lời giải hay.
Lý luận logic
Chúng ta có thể giả định một cách an toàn rằng hầu hết các bài toán cơ bản đều có lời giải từ điển. Nếu bạn biết định lý hoặc công thức, hãy nhập các giá trị và nhận kết quả.
Và ChatGPT, là AI, có thể thực hiện nhanh các truy vấn như vậy. Tuy nhiên, suy luận logic là một lãnh thổ khác, với khả năng cao là AI sẽ thất bại.
giai đoạn tôi
Tôi đã cho họ cổ điển:
A lớn tuổi hơn B.
C lớn tuổi hơn A.
B lớn tuổi hơn C.
Phát biểu thứ ba đúng hay sai nếu hai phát biểu đầu tiên đúng?
Và tất cả các phiên bản ChatGPT đều đúng khi tuyên bố rằng tuyên bố thứ ba là sai.
Tiếp theo, tôi đã sử dụng tên thay cho bảng chữ cái và kết quả có thể làm bạn ngạc nhiên:
Vì vậy, Mặc định 3.5 tiếp tục hoạt động dưới mức trung bình và bị nhầm lẫn với biến thể khiêm tốn này. Tuy nhiên, Di sản và Cập nhật hoạt động tối ưu.
Giai đoạn II
Bây giờ, bạn có thể đã nhận thấy mục đích của Giai đoạn I và Giai đoạn II này là tìm ra điểm khác biệt, trong đó mức độ phức tạp của một dấu nhắc nhất định khiến Bản cập nhật khác biệt với hai phần còn lại.
Ở đây, lời nhắc là một câu đố logic đơn giản:
Một buổi sáng sau khi mặt trời mọc, Rohit đang đứng đối mặt với một cây sào. Cái bóng của cây sào rơi chính xác về phía bên phải của anh ta. Anh ấy đang quay mặt về hướng nào?
Một. Phía bắc
b. hướng Tây
c. Phía nam
d. Phía đông
Điều này đã đẩy Di sản đưa ra một câu trả lời không chính xác, trong khi Mặc định trả lời bằng những lời giải thích mơ hồ dẫn đến một kết luận sai.
Chỉ có Cập nhật tỏa sáng với câu trả lời chính xác, với những câu nói dễ hiểu.
Bức thư
Việc nộp đơn kiện có thể phức tạp, nhưng đôi khi mọi việc sẽ không thành vấn đề nếu bạn có thể soạn thảo một thông báo đầu tiên nổi bật.
Ở đây, tôi đã thực hiện lời nhắc này: Viết thư cho Tim cook để giao quả táo cho tôi vì đã không trả lời một trong các tweet của tôi.
Hài hước, vâng! Nhưng hãy xem AI có thể làm được gì từ điều này.
Legacy 3.5 ngay lập tức nhận lời nhắc như một người máy nô lệ và viết ra một lá thư có thể khiến tôi trở thành chủ đề chế giễu tuyệt vời nếu nó đến được đích đã định.
Mặc định cũng không tốt. Tuy nhiên, nó chỉ làm tôi thất vọng như một ông già khó tính sẽ làm với một đứa trẻ năm tuổi.
Mặc dù các lập luận được đưa ra là chính xác, nhưng điều này đã kết thúc niềm vui ngay tại đó mà không cần học hỏi nhiều.
Mặc dù đây là một lời nhắc đủ đơn giản, nhưng nó cần một chút suy nghĩ và sáng tạo. Và đó là nơi mà người anh lớn, Bản cập nhật, đã tạo ra trường hợp của mình:
Đầu tiên, điều này đã được soạn thảo gần như hoàn hảo. Thứ hai, nó giúp tôi tìm kiếm trên Google địa chỉ trụ sở chính của Apple (mặc dù người ta phải xác minh các mục đó).
Thứ ba, nó được viết độc đáo với giọng điệu chính thống và một chút hài hước. Bên cạnh đó, ý định đã rõ ràng trong chính dòng tiêu đề.
Chưa hết, bức thư còn chứa đựng tâm tư của một fan bất mãn của Apple.
Vì vậy, điều này làm cho ChatGPT 4 (còn gọi là Bản cập nhật) vượt xa những người anh em họ cũ của nó. Nó cực kỳ thông minh và có một số dấu hiệu của lẽ thường, khiến nó không chỉ là một chatbot buồn tẻ, nhàm chán.
Thơ
Với sự ra mắt của ChatGPT, tôi nghĩ thơ có thể là điểm yếu của nó.
Xét cho cùng, con người cần có cảm xúc, sự sáng tạo và nhiều nỗ lực để tạo ra thứ gì đó thực sự gây được tiếng vang với độc giả.
Nói một cách đơn giản, thơ ca là nghệ thuật tuyệt vời nhất của nó, và tôi thầm mong AI thất bại. Nhưng đó là trước khi đồng nghiệp của tôi đánh mạnh vào tất cả chúng tôi trong kênh Slack của techpoe.com với bản tạo ChatGPT trước bản cập nhật 4.0 này.
giai đoạn tôi
Đây là gợi ý mà tôi đã đưa ra cho các ứng viên của chúng tôi: “hãy bày tỏ một cách thơ mộng lý do tại sao hoặc tại sao không phục vụ bánh mì kẹp thịt, cùng với thực đơn hiện tại của họ, có thể mang lại lợi ích cho chuỗi cửa hàng bánh pizza domino. Giữ nó ít hơn 100 từ.
Bạn có thể nhận ra sự khác biệt?
Phiên bản của Mặc định là một phiên bản cực ngắn, chỉ có 32 từ và không thể sử dụng băng thông có sẵn để thể hiện sự sáng tạo của nó.
Di sản, mặc dù nó đã sử dụng nhiều từ nhất trong số ba từ, kết luận rằng nỗ lực phục vụ pizza bên cạnh không có rủi ro và sẽ dẫn đến thành công chắc chắn theo bất kỳ cách nào, điều này không hoàn toàn đúng.
Bài thơ của Bản cập nhật chỉ có 53 từ, lãng phí gần một nửa số từ được phân bổ. Tuy nhiên, nó đã rõ ràng về phần thưởng và những cạm bẫy tiềm ẩn và không thể đi đến bất kỳ kết quả nào, theo tôi đoán, điều này nhân đạo hơn phần còn lại.
Giai đoạn II
Tiếp theo, tôi yêu cầu tất cả họ “giải thích bài thơ cho một đứa trẻ năm tuổi.”
Thật thú vị, Legacy không thể lấy bối cảnh từ cuộc trò chuyện và giải thích “Thơ ca” theo nghĩa đen. Mặc định đã lấy bối cảnh và tóm tắt nó trong một đoạn mà vẫn còn nha.
Tiếp tục xu hướng, ChatGPT 4 đã đơn giản hóa sự sáng tạo của nó trong khi vẫn giữ được hương vị thơ mộng.
ChatGPT cao cấp so với ChatGPT miễn phí
Miễn phí, miễn phí, thiếu tốc độ và độ chính xác và không thể sánh được với ChatGPT 4, nhưng nó cũng không hoàn toàn vô dụng.
Để so sánh nó trên một nền tảng đồng đều, tôi đã đưa ra cho nó những lời nhắc tương tự mà chúng tôi đã thử nghiệm Di sản, Mặc định và Cập nhật.
🔵 Môn Toán: Nó giải được phương trình bậc hai nhưng lại ra đáp số sai cho phương trình bậc ba. (như Di sản và Mặc định)
🔵 Suy luận logic: Vượt qua màn đầu tiên với bảng chữ cái và tên nhưng không đạt ở màn thứ hai (như Legacy).
🔵 Thư: Không viết thư và cho rằng lời nhắc đó là phi đạo đức và không phù hợp. (như Mặc định)
🔵 Thơ: Sáng tác thơ trên 30 từ và giải thích cặn kẽ. (tương tự như Mặc định).
Vì vậy, chúng ta có thể kết luận phiên bản miễn phí cũng không tệ. Trên thực tế, nó ngang bằng với Mặc định 3.5 và thậm chí còn tốt hơn ở một số khía cạnh.
Cũng đọc: Lời nhắc mạnh mẽ để nâng cao trải nghiệm ChatGPT của bạn
Con đường phía trước
Tin đồn về việc AI thay thế công việc trong tương lai không hoàn toàn sai.
Đầu tiên, tự động hóa đã làm điều này trong ngành công nghiệp sản xuất, và bây giờ nó đang dang rộng đôi cánh ở mọi nơi khác.
Về cá nhân, nó nhanh hơn tôi rất nhiều trong việc giải phương trình bậc ba, làm thơ hay viết thư. Tuy nhiên, thực tế là nó hiếm khi nói KHÔNG với lời nhắc và hầu như không rút ra bài học từ những sai lầm của mình đã khiến con người chúng ta đi sau con đường của nó.
Xin nhắc lại, AI sẽ không thay thế chúng ta, nhưng ai đó sử dụng AI thì có thể.
Tại techpoe.com, nhóm tiếp thị của chúng tôi sử dụng ChatGPT theo những cách thú vị. Chẳng hạn, gần đây chúng tôi đã đạt được cột mốc 100 triệu lượt xem và Giám đốc điều hành của chúng tôi đã nghĩ sẽ tặng lại cột mốc đó cho khán giả thông qua quà tặng.
Và tôi đoán những người tiếp thị cần một tiêu đề để thu hút sự chú ý của người đọc. Vì vậy, họ đã đưa ra một lời nhắc và yêu cầu ChatGPT đề xuất một vài biến thể, như sau:
Bên cạnh đó, chúng tôi sử dụng nó để tóm tắt nội dung, kiểm tra ngữ pháp, gợi ý tiêu đề cho bài viết mới, v.v.
Tóm lại, có nhiều cách để tận dụng lợi thế và chạy đua với những khuôn mẫu coi AI là một thứ rác rưởi vô dụng.
Điều duy nhất cần nhớ là phải có ai đó (con người) đánh giá hoạt động của AI vì nó có thể (hoàn toàn) không chính xác và gây hiểu nhầm.
Bản cập nhật thực sự là một cái gì đó!
Trong cuộc gặp gỡ ngắn ngủi của tôi, ChatGPT 4 mang lại cảm giác sáng tạo, dễ hiểu và thực tế hơn. Tuy nhiên, đây là một cỗ máy và có thể đưa ra câu trả lời sai một cách tự tin.
Nhưng điều đáng kinh ngạc là mức độ nâng cấp mà OpenAI đã thực hiện đối với dự án này chỉ trong vài tháng.
Và tôi rất nóng lòng muốn xem điều kỳ diệu mà bản cập nhật tiếp theo có thể làm chúng ta bối rối!
Tái bút: Không chỉ là một cửa sổ trò chuyện; khai thác sức mạnh của nó với các tiện ích mở rộng ChatGPT Chrome tốt nhất này. Và bạn đã bao giờ nghĩ đến việc tích hợp ChatGPT với Siri chưa?