Giữa hành trình so với khuếch tán ổn định so với Bing Image Creator

Spread the love

Trí tuệ nhân tạo đang thay đổi thế giới nghệ thuật theo những cách đáng chú ý. Một trong những ứng dụng hấp dẫn của AI trong mảng nghệ thuật là thông qua việc sử dụng các trình tạo nghệ thuật mô tả. Những trình tạo này có khả năng kiểm tra và giải thích hình ảnh cũng như tạo ra các tác phẩm nghệ thuật hoàn toàn mới dựa trên phân tích của chúng.

Trong bài viết này, chúng tôi thảo luận về ba công cụ tạo nghệ thuật AI như vậy: MidJourney, Stable Diffusion và Microsoft Bing Image Creator và công cụ nào trong số ba công cụ này dẫn đầu trong việc tạo ra kết quả tốt nhất dựa trên lời nhắc.

Mục lục

giữa hành trình

MidJourney, được thành lập bởi David Holz, là một công cụ tạo nghệ thuật AI sử dụng máy học để xác định các mẫu và đặc điểm trong các tác phẩm nghệ thuật hiện có, sau đó có thể được sử dụng để tạo ra các tác phẩm mới.

  Cách thay đổi lề trang trong Word

MidJourney bước vào giai đoạn thử nghiệm mở vào ngày 12 tháng 7 năm 2022. Trước khi ra mắt MidJourney, Holz đã đồng sáng lập Leap Motion, một công ty khởi nghiệp đã chuyển đổi giao diện người dùng bằng cách sử dụng tính năng quay video và cử chỉ tay. Năm 2019, anh bán Leap Motion cho Ultrahaptics.

Với việc MidJourney ngày càng nổi tiếng, Holz đã chia sẻ những hiểu biết của mình về công nghệ và ảnh hưởng của nó đối với nghệ thuật và xã hội. Holz coi các nghệ sĩ là khách hàng của MidJourney chứ không phải đối thủ cạnh tranh và tin rằng nền tảng này có thể tạo điều kiện cho sự sáng tạo và thử nghiệm lớn hơn trong giai đoạn lên ý tưởng.

Tuy nhiên, có những lo ngại về khả năng vi phạm bản quyền từ bộ đào tạo của MidJourney, có thể bao gồm các tác phẩm có bản quyền của các nghệ sĩ khác.

Holz nhấn mạnh rằng MidJourney được thiết kế để nâng cao khả năng của con người hơn là thay thế họ. Anh ấy ví nó như ô tô, giải thích rằng chỉ vì ô tô nhanh hơn con người, điều đó không có nghĩa là chúng ta nên cắt bỏ chân của mình.

Bằng cách sử dụng thế hệ hình ảnh AI của MidJourney, các nghệ sĩ có thể khám phá những khả năng mới và tạo ra nhiều ý tưởng trước khi tạo tác phẩm của riêng họ.

  Cách xóa ai đó khỏi nhóm tin nhắn văn bản trên iPhone

khuếch tán ổn định

Khuếch tán ổn định là một mô hình máy học nguồn mở có thể tạo hình ảnh từ văn bản, sửa đổi hình ảnh dựa trên văn bản hoặc điền thông tin chi tiết vào hình ảnh có độ phân giải thấp hoặc chi tiết thấp. Nó đã được đào tạo trên hàng tỷ hình ảnh và có thể tạo ra kết quả tương đương với kết quả bạn nhận được từ DALL-E 2 và MidJourney.

Emad Mostaque, người sáng lập và Giám đốc điều hành của Stability AI, là công ty chịu trách nhiệm về Sự khuếch tán ổn định. Khuếch tán ổn định là một mô hình khuếch tán tiềm ẩn được phát triển bởi nhóm CompVis tại LMU Munich, và nó được thiết kế bởi Patrick Esser và Robin Rombach, những người trước đây đã tạo ra kiến ​​trúc mô hình khuếch tán tiềm ẩn được sử dụng bởi Khuếch tán ổn định.

Sự hợp tác giữa Stability AI, CompVis LMU, Runway, EleutherAI và LAION đã cung cấp Stable Diffusion cho công chúng.

Khuếch tán ổn định có thể được triển khai trên nhiều nền tảng khác nhau, bao gồm cả thiết bị Windows và Apple. Việc sử dụng triển khai trên thiết bị trong một ứng dụng có thể bảo vệ quyền riêng tư của người dùng, điều này tốt hơn so với phương pháp dựa trên máy chủ.

Trình tạo hình ảnh Microsoft Bing

Microsoft đã tiết lộ một công cụ mới có tên Bing Image Creator, cho phép người dùng tạo hình ảnh của riêng họ trực tiếp trong Microsoft Edge. Công ty đã phát hành một bộ công cụ dành cho người sáng tạo được thiết kế để khơi dậy khả năng sáng tạo và khả năng thể hiện bản thân. Công cụ này cho phép người dùng tạo các hình ảnh được cá nhân hóa để chia sẻ thông tin cập nhật về cuộc sống của họ hoặc cho bất kỳ mục đích nào khác mà họ có thể cần.

Người dùng có thể dễ dàng truy cập Image Creator từ thanh bên của Microsoft Edge. Microsoft đã thực hiện các biện pháp chủ động để đảm bảo công cụ này được sử dụng một cách có trách nhiệm và không tạo điều kiện cho việc truyền bá nội dung xúc phạm.

  Cách xóa ảnh tự động sao lưu của Google

Công ty đã đặt chính sách nội dung cấm sử dụng Image Creator trong một số trường hợp nhất định và người dùng có thể báo cáo bất kỳ hành vi vi phạm chính sách này. Hơn nữa, Microsoft đã triển khai công nghệ để giải quyết những thành kiến ​​tiềm ẩn có thể phát sinh trong công nghệ hình ảnh tổng quát.

Trong bài viết này, chúng ta sẽ bắt tay vào hành trình đánh giá kết quả của từng trình tạo hình ảnh AI mô tả khi được nhắc bằng các lời nhắc văn bản giống hệt nhau.

Gợi ý 1: Ông già Noel hiện đại trên chiếc xe trượt tuyết được kéo bởi những chú tuần lộc vào một ngày nắng ấm áp trên đường cao tốc

Gợi ý 2: Chụp cận cảnh một con vật có đôi mắt to, ghi lại vẻ ngây thơ và dễ thương của nó

Lời nhắc 3: Một phi hành gia đang chơi trò hạ cánh xuống một hành tinh mới được chào đón bởi những sinh vật ngoài hành tinh thù địch đang rút vũ khí của chúng

Gợi ý 4: Nghệ thuật trừu tượng hiện đại về bìa sách của một cuốn tiểu thuyết có trụ sở tại Thành phố New York với màu sắc tươi sáng đậm

Lời nhắc 5: Một người đàn ông quyết định giữa hai chiếc đĩa – một chiếc có bánh pizza và một chiếc có bánh mì kẹp pho mát trên đó

Lời nhắc 6: Một chiến binh bị thương cưỡi ngựa trên núi tuyết với thanh kiếm trong tay

Gợi ý 7: Một hình ảnh trừu tượng sử dụng các sắc thái khác nhau thể hiện chuyển động và dòng chảy của nước

Gợi ý 8: Cá hồi trên sông có cây cối xanh tốt phía sau

Câu 9: Một cốc nước trên bàn có một bàn tay vắt vào đó một quả chanh

Lời nhắc 10: Quang cảnh đường chân trời trong sa mạc từ góc nhìn của những người cưỡi voi trong đó

Lời nhắc 11: Một khu rừng nơi tiền giấy mọc trên cây và những chú chim được làm từ tiền xu

Lời nhắc 12: Bát ramen, cel shading, ánh sáng buổi tối, ảnh chân thực

Lời nhắc 13: Elon Musk nghèo và thất nghiệp

bản án

Khi đánh giá kết quả đầu ra của MidJourney, Stable Diffusion và Bing Image Creator, rõ ràng là không có người chiến thắng cuối cùng.

Mỗi trình tạo diễn giải lời nhắc theo một cách riêng biệt, với những điểm tương đồng được tìm thấy trong kết quả đầu ra của Bing Image Creator và MidJourney. Khuếch tán ổn định hiệu quả khi lời nhắc có mô tả rõ ràng nhưng thường diễn đạt theo nghĩa đen. Mặc dù MidJourney và Bing Image Creator nói chung là thành công, nhưng đôi khi chúng tạo ra kết quả không tương ứng với lời nhắc.

Đáng chú ý, Bing Image Creator thận trọng trong việc tạo ra bất kỳ đầu ra lạm dụng hoặc kích động nào, đưa ra thông báo cảnh báo khi được nhắc tạo hình ảnh của một Elon Musk nghèo và thất nghiệp. Việc Microsoft áp dụng các biện pháp bảo vệ như vậy là đáng khen ngợi.

Trong khi đó, chuyên môn về mạng lưới thần kinh của MidJourney đã tạo ra hình ảnh của một Elon Musk nghèo khổ và cô độc. Do đó, có thể kết luận rằng mỗi trình tạo sẽ phục vụ cho cơ sở người dùng tương ứng của nó.

x