Hãy tưởng tượng Lee Unkrich, một trong những họa sĩ hoạt hình xuất sắc nhất của Pixar, khi ông là một học sinh lớp 7. Anh ta đang nhìn vào hình ảnh một chiếc đầu máy hỏa trên màn hình máy tính đầu tiên của trường. Wow, ông nghĩ. Tuy nhiên, một số phép màu bớt đi khi Lee biết rằng hình ảnh không xuất hiện chỉ bằng cách yêu cầu “một bức tranh về một chiếc tàu hỏa.” Thay vào đó, nó phải được mã hóa và tạo ra một cách công phu—bởi những con người làm việc chăm chỉ.
Bây giờ hãy tưởng tượng Lee 43 năm sau, tình cờ gặp phải DALL-E, một trí tuệ nhân tạo tạo ra những tác phẩm nghệ thuật ban đầu dựa trên đề xuất của con người có thể đơn giản như “một bức tranh về một chiếc tàu hỏa.” Khi anh ta gõ từ để tạo ra hình ảnh sau hình ảnh, cảm giác wow quay trở lại. Nhưng lần này, nó không bao giờ biến mất. “Nó cảm giác như một phép màu,” ông nói. “Khi kết quả xuất hiện, hơi thở của tôi bị đánh cắp và nước mắt tràn ngập đôi mắt tôi. Đó là điều kỳ diệu.”
Máy móc của chúng ta đã vượt qua một ngưỡng. Suốt cuộc đời, chúng ta đã được đảm bảo rằng máy tính không thể thực sự sáng tạo. Nhưng đột ngột, hàng triệu người bây giờ đang sử dụng một dòng trí tuệ nhân tạo mới để tạo ra những bức tranh đẹp, chưa từng thấy trước đây. Hầu hết những người này không phải là nghệ sĩ chuyên nghiệp như Lee Unkrich, và đó chính là điểm: Họ không cần phải là nghệ sĩ. Không phải ai cũng có thể viết, đạo diễn, và chỉnh sửa một tác phẩm đoạt giải Oscar như Toy Story 3 hoặc Coco, nhưng mọi người có thể khởi chạy một máy tạo hình ảnh AI và gõ một ý tưởng. Những gì xuất hiện trên màn hình là đầy ấn tượng với sự thực tế và chi tiết. Do đó, phản ứng phổ quát là: Wow. Chỉ trên bốn dịch vụ này—Midjourney, Stable Diffusion, Artbreeder, và DALL-E—con người làm việc với trí tuệ nhân tạo hiện đang cùng nhau tạo ra hơn 20 triệu hình ảnh mỗi ngày. Với cây cọ trong tay, trí tuệ nhân tạo đã trở thành một động cơ của sự ấn tượng.
Bởi vì những trí tuệ nhân tạo tạo ra những điều bất ngờ này đã học nghệ thuật của mình từ hàng tỷ bức tranh được tạo ra bởi con người, sản phẩm của họ xoay quanh những gì chúng ta mong đợi từ hình ảnh. Nhưng vì họ là một trí tuệ nhân tạo lạ lẫm, cơ bản là bí ẩn ngay cả với những người tạo ra chúng, chúng tổ chức lại những bức tranh mới theo một cách mà ít ai trong số chúng ta có khả năng nghĩ đến, điền vào những chi tiết mà hầu hết chúng ta không có nghệ thuật để tưởng tượng, đến cả kỹ năng để thực hiện. Chúng cũng có thể được chỉ dẫn để tạo ra thêm biến thể của điều gì đó chúng ta thích, trong bất kỳ phong cách nào chúng ta muốn—trong vài giây. Điều này, cuối cùng, là ưu điểm mạnh mẽ nhất của chúng: Chúng có thể tạo ra những điều mới mẻ nhưng có thể liên quan và dễ hiểu, nhưng đồng thời, hoàn toàn không ngờ.
Quá bất ngờ là những hình ảnh mới được tạo ra bởi trí tuệ nhân tạo, thực tế là—trong sự kinh ngạc yên lặng ngay sau wow—một ý nghĩa khác xuất hiện trong đầu mọi người gặp phải chúng: Nghệ thuật do con người tạo ra bây giờ có lẽ đã kết thúc. Ai có thể cạnh tranh được với sự nhanh chóng, giá rẻ, quy mô, và, đúng, sự sáng tạo hoang dã của những máy móc này? Liệu nghệ thuật có phải là một sự theo đuổi của con người khác chúng ta phải nhường lại cho robot? Và câu hỏi tiếp theo rõ ràng là: Nếu máy tính có thể sáng tạo, thì chúng còn có thể làm gì mà chúng ta đã được nói là chúng không thể?
Sáu tháng qua, tôi đã sử dụng trí tuệ nhân tạo để tạo ra hàng nghìn hình ảnh ấn tượng, thường xuyên thức trắng cả đêm trong hành trình không ngừng để tìm thêm một vẻ đẹp ẩn sau mã nguồn. Sau khi phỏng vấn những người tạo ra, người dùng mạnh mẽ và những người sớm áp dụng công nghệ mới này, tôi có thể đưa ra một dự đoán rất rõ ràng: Trí tuệ nhân tạo tạo ra sẽ thay đổi cách chúng ta thiết kế gần như mọi thứ. À, và không có một nghệ sĩ con người nào sẽ mất việc vì công nghệ mới này.
Đó không phải là sự phóng đại khi gọi những hình ảnh được tạo ra với sự giúp đỡ của trí tuệ nhân tạo là sáng tạo chung. Bí mật đáng lo ngại của sức mạnh mới này là những ứng dụng tốt nhất của nó không phải là kết quả của việc gõ một đề xuất duy nhất mà là của cuộc trò chuyện rất dài giữa con người và máy móc. Tiến triển cho mỗi hình ảnh đến từ nhiều, nhiều lần lặp lại, đối đào, lạc quan và giờ đồng hồ, đôi khi là ngày, của làm việc nhóm—tất cả dựa trên nền tảng của những tiến bộ trong học máy suốt nhiều năm.
Máy tạo hình ảnh AI xuất phát từ sự kết hợp của hai công nghệ riêng biệt. Một là dòng lịch sử của các mạng thần kinh học sâu có thể tạo ra hình ảnh thực tế, và một cái khác là mô hình ngôn ngữ tự nhiên có thể làm nhiệm vụ làm giao diện cho động cơ hình ảnh. Hai cái này được kết hợp thành một máy tạo hình ảnh dựa trên ngôn ngữ. Các nhà nghiên cứu lượm nhặt internet để lấy tất cả các hình ảnh có văn bản kề cận, như là chú thích, và sử dụng hàng tỷ ví dụ này để kết nối hình dạng hình ảnh với từ ngữ và từ ngữ với hình dạng. Với sự kết hợp mới này, người sử dụng có thể nhập một chuỗi từ—đề xuất—mô tả hình ảnh họ đang tìm kiếm, và đề xuất sẽ tạo ra một hình ảnh dựa trên những từ ngữ đó.
Các nhà khoa học tại Google hiện đang phát minh ra các mô hình tính toán trải phổ cơ bản của các máy tạo hình ảnh hiện nay, nhưng công ty đã rất lo lắng về những gì mọi người có thể làm với chúng mà nó vẫn chưa mở cửa máy tạo hình ảnh thử nghiệm của mình, Imagen và Parti, cho công chúng. (Chỉ có nhân viên mới có thể thử nghiệm chúng, và với các hướng dẫn chặt chẽ về những gì có thể được yêu cầu.) Không phải ngẫu nhiên, ba nền tảng phổ biến nhất cho máy tạo hình ảnh hiện nay là ba startup không có di sản để bảo vệ. Midjourney là một startup tự lực tự cấp do David Holz khởi xướng, người đã đặt trình tạo hình ảnh trong một cộng đồng nghệ sĩ mới nổi. Giao diện với trí tuệ nhân tạo là một máy chủ Discord ồn ào; tất cả công việc và đề xuất được công bố từ đầu. DALL-E là sản phẩm thế hệ thứ hai của tổ chức phi lợi nhuận OpenAI, được Elon Musk và những người khác tài trợ. Stable Diffusion xuất hiện vào tháng 8 năm 2022, được tạo ra bởi Emad Mostaque, một doanh nhân châu Âu. Đó là một dự án mã nguồn mở, với lợi ích bổ sung là bất kỳ ai cũng có thể tải xuống phần mềm của nó và chạy nó trên máy tính cá nhân của họ.
Tại sao có nhiều người hào hứng chơi với những trí tuệ nhân tạo này? Nhiều hình ảnh được tạo ra vì cùng một lý do mà con người luôn tạo ra hầu hết nghệ thuật: vì những hình ảnh đẹp và chúng ta muốn nhìn vào chúng. Như ngọn lửa trong lửa trại, các mô hình ánh sáng là cuốn hút. Chúng không bao giờ lặp lại chính mình; chúng làm bất ngờ, lần nữa và lần nữa nữa. Chúng miêu tả những cảnh mà chưa ai chứng kiến trước đây hoặc thậm chí không thể tưởng tượng được, và chúng được soạn thảo một cách tinh tế. Nó giống như sự thích thú tương tự khi khám phá một thế giới trò chơi video, hoặc cuộn qua một cuốn sách nghệ thuật. Có một vẻ đẹp thực sự trong sự sáng tạo của họ, và chúng ta nhìn chằm chằm giống như chúng ta có thể đánh giá một triển lãm nghệ thuật tuyệt vời tại một bảo tàng. Trên thực tế, việc xem một cuộc diễu hành của những hình ảnh được tạo ra rất giống như thăm một bảo tàng cá nhân—nhưng trong trường hợp này, bức tường đầy ắp nghệ thuật mà chúng ta yêu cầu. Và sự mới mẻ và bất ngờ của hình ảnh tiếp theo hầu như không giảm đi. Người dùng có thể chia sẻ những viên ngọc họ phát hiện, nhưng đoán của tôi là 99 phần trăm trong số 20 triệu hình ảnh hiện đang được tạo ra mỗi ngày chỉ sẽ được xem bởi một con người duy nhất—đồng sáng tạo của họ.
Như bất kỳ nghệ thuật nào, những hình ảnh cũng có thể chữa lành. Mọi người dành thời gian tạo ra những bức tranh AI kỳ lạ vì cùng một lý do mà họ có thể vẽ vào ngày Chúa nhật, hoặc viết nhật ký, hoặc quay một video. Họ sử dụng phương tiện để giải quyết điều gì đó trong cuộc sống của họ, điều mà không thể nói ra theo cách khác. Tôi đã thấy những hình ảnh miêu tả địa ngục động vật có thể trông như thế nào, được tạo ra sau cái chết của một chú chó yêu quý. Nhiều hình ảnh khám phá việc biểu hiện của các khu vực tinh thần không thể chạm được, có lẽ như một cách để nghĩ về chúng. “Một phần lớn toàn bộ việc sử dụng đều là thư giãn nghệ thuật,” Holz, người sáng tạo Midjourney, nói với tôi. “Hình ảnh không thực sự hấp dẫn về mặt thẩm mỹ một cách phổ quát mà là hấp dẫn, một cách sâu sắc, trong bối cảnh của những gì đang diễn ra trong cuộc sống của mọi người.” Các máy có thể được sử dụng để tạo ra những ảo tưởng của mọi loại. Trong khi các dịch vụ lưu trữ cấm porn và gore, mọi thứ đều được phép trên phiên bản máy tính cá nhân, như nó có thể trong Photoshop.
Ảnh do trí tuệ nhân tạo tạo ra cũng có thể mang tính chất hữu ích. Hãy nói bạn đang trình bày một báo cáo về khả năng tái chế chất thải nhựa bệnh viện thành vật liệu xây dựng và bạn muốn một hình ảnh về một ngôi nhà được làm từ ống nghiệm thử nghiệm. Bạn có thể tìm kiếm các thị trường ảnh cổ phiếu để tìm hình ảnh có thể sử dụng được do một nghệ sĩ con người tạo ra. Nhưng một nhiệm vụ độc đáo như vậy hiếm khi mang lại một bức tranh tồn tại trước đó, và ngay cả khi tìm thấy, tình trạng bản quyền của nó có thể là không rõ hoặc đắt đỏ. Việc tạo ra một hình ảnh độc đáo, cá nhân cho báo cáo của bạn trong vài phút bạn có thể sau đó chèn vào slides, bản tin hoặc blog của bạn—và quyền sở hữu bản quyền là của bạn (ít nhất là đến bây giờ). Tôi đã sử dụng những trình tạo hình ảnh này để cộng tác tạo ra hình ảnh cho bản trình bày slide của mình.
Trong một cuộc thăm dò không chính thức của người dùng mạnh, tôi phát hiện rằng chỉ khoảng 40 phần trăm thời gian của họ được dành để tìm kiếm những hình ảnh hữu ích. Hầu hết các hình ảnh AI được sử dụng ở những nơi trước đó không có hình ảnh. Thông thường chúng không thay thế một bức tranh được tạo ra bởi một nghệ sĩ con người. Chúng có thể được tạo ra, ví dụ, để minh họa một bản tin chỉ với văn bản do người không có tài năng nghệ thuật bản thân hoặc thời gian và ngân sách để thuê ai đó. Giống như nhiếp ảnh cơ khí không giết chết tranh minh họa của con người cách đây một thế kỷ, mà thay vào đó mở rộng đáng kể các không gian mà hình ảnh xuất hiện, trình tạo hình ảnh AI cũng mở ra những khả năng cho nghệ thuật nhiều hơn, không phải ít.
Nghệ thuật mới này tồn tại ở đâu đó giữa hội họa và nhiếp ảnh. Nó sống trong một không gian khả năng như hội họa và vẽ—lớn như trí tưởng tượng con người. Nhưng bạn đi qua không gian như một nhiếp ảnh gia, săn tìm những phát hiện. Điều chỉnh những đề xuất của bạn, bạn có thể đến một điểm mà chưa ai ghé thăm trước đây, vì vậy bạn khám phá khu vực này một cách chậm rãi, chụp ảnh khi bạn bước qua. Lãnh thổ có thể là một chủ đề, hoặc một tâm trạng, hoặc một phong cách, và có thể đáng trở lại. Nghệ thuật nằm ở chỗ tìm ra một khu vực mới và thiết lập mình ở đó, thể hiện sự tinh tế và đôi mắt sáng tạo trong những gì bạn chụp. Khi nhiếp ảnh xuất hiện lần đầu, dường như như tất cả những gì nhiếp ảnh gia phải làm là nhấn nút. Tương tự, có vẻ như tất cả những gì một người phải làm cho một hình ảnh AI tuyệt vời là nhấn nút. Trong cả hai trường hợp, bạn đều nhận được một bức tranh. Nhưng để có được một tuyệt phẩm—một tuyệt phẩm thật sự nghệ thuật—đó là một vấn đề khác.
Các trình tạo ảnh AI có thể truy cập không đến một năm, nhưng hiện đã rõ ràng rằng có những người tạo ra ảnh AI tốt hơn nhiều so với người khác. Mặc dù họ đang sử dụng các chương trình giống nhau, những người đã tích luỹ hàng nghìn giờ với các thuật toán có thể tạo ra những hình ảnh có chất lượng nhiều lần so với người bình thường. Các hình ảnh của những người này có sự liên kết đáng chú ý và táo bạo hình ảnh mà thông thường bị át chìm bởi dòng chi tiết mà các AI thường tạo ra. Đó là bởi vì đây là một môn thể thao đồng đội: Nghệ sĩ con người và nghệ sĩ máy là một đôi. Và nó đòi hỏi không chỉ kinh nghiệm mà còn nhiều giờ và công sức để tạo ra điều gì đó hữu ích. Có vẻ như có một thanh trượt trên AI: Ở một đầu là Bất ngờ Tối đa, và ở đầu kia là Sự Vâng Lời Tối đa. Rất dễ để AI làm bạn ngạc nhiên. (Và đó thường là tất cả những gì chúng ta yêu cầu nó.) Nhưng rất khó để có AI vâng lời bạn. Như Mario Klingemann, người kiếm sống bằng cách bán NFT của tác phẩm nghệ thuật AI của mình, nói, “Nếu bạn có một hình ảnh cụ thể trong tâm trí, đó luôn luôn cảm giác như bạn đang đối mặt với một lực lượng chắn.” Lệnh như “bóng mờ khu vực này,” “nâng cao phần này,” và “làm dịu đi” được tuân theo một cách không nhiệt tình. Các AI phải được thuyết phục.
Các phiên bản hiện tại của DALL-E, Stable Diffusion và Midjourney giới hạn đề xuất khoảng chiều dài của một tweet dài. Dài hơn một chút và các từ trộn lẫn; hình ảnh biến thành bùn. Điều đó có nghĩa là đằng sau mỗi hình ảnh tuyệt vời là một câu thần kỳ ngắn gọi nó. Nó bắt đầu với lời thuật ngữ đầu tiên. Cách bạn nói nó quan trọng. Kết quả ngay lập tức xuất hiện trong một lưới từ bốn đến chín hình ảnh. Từ đợt hình ảnh đó, bạn biến đổi và đột biến hình ảnh con cái. Bây giờ bạn có một dòng dõi. Nếu chúng trông hứa hẹn, bắt đầu điều chỉnh lời thần kỳ để đẩy nó theo hướng mới khi nó sinh ra thêm nhiều thế hệ hình ảnh. Nhân bản nhóm lần nữa và lần nữa khi bạn tìm kiếm sự sắp xếp hấp dẫn nhất. Đừng nản lòng nếu nó mất vài chục thế hệ. Hãy nghĩ như AI; nó thích nghe gì? Hòa mình vào những hướng dẫn đã hoạt động trong quá khứ và thêm chúng vào đề xuất. Lặp lại. Thay đổi thứ tự từ để xem xét liệu nó có thích điều đó không. Hãy nhớ phải cụ thể. Sao chép cho đến khi bạn có một bộ hình ảnh hoàn toàn có xương sống và tiềm năng. Bây giờ chọn lọc ra ngoài chỉ một vài cái chọn lựa. Hãy tàn nhẫn. Bắt đầu vẽ nét hình ảnh hứa hẹn nhất. Điều đó có nghĩa là yêu cầu AI mở rộng hình ảnh ra các hướng cụ thể vượt quá biên giới hiện tại. Xóa bỏ các phần không hoạt động. Gợi ý thay thế sẽ được thực hiện bởi AI với thêm lời thần kỳ (gọi là inpainting). Nếu AI không hiểu rõ gợi ý của bạn, thử các lời thần kỳ đã được sử dụng bởi người khác. Khi AI đã đi xa nhất có thể, chuyển hình ảnh sang Photoshop để điều chỉnh cuối cùng. Trình bày nó như là bạn đã không làm gì cả, mặc dù không hiếm khi một hình ảnh đặc sắc cần phải qua 50 bước.
Đằng sau sự mênh mông mới này là nghệ thuật đề xuất. Mỗi nghệ sĩ hoặc nhà thiết kế phát triển một cách thức thuyết phục một AI nhượng bộ những gì tốt nhất của nó bằng cách tiến hóa đề xuất của họ. Hãy gọi họ là những người nói chuyện AI mới, hoặc nghệ sĩ đề xuất, hoặc những người đề xuất. Những người đề xuất làm việc gần như như đạo diễn, hướng dẫn công việc của đồng đội ngoại lai của họ theo hướng tầm nhìn thống nhất. Quá trình phức tạp yêu cầu để lôi kéo một bức tranh xuất sắc từ AI nhanh chóng trở thành một kỹ năng nghệ thuật tinh tế. Hàng ngày gần như, các công cụ mới xuất hiện để làm cho việc đề xuất trở nên dễ dàng, tốt hơn. PromptBase là một thị trường cho những người đề xuất bán đề xuất tạo ra các hình ảnh đơn giản như biểu tượng cảm xúc, biểu tượng, biểu tượng, hình đại diện và vũ khí game. Đó giống như nghệ thuật clip, nhưng thay vì bán nghệ thuật, họ bán đề xuất tạo ra nghệ thuật. Và khác với nghệ thuật clip cố định, dễ dàng chỉnh sửa và điều chỉnh nghệ thuật để phù hợp với nhu cầu của bạn, và bạn có thể trích xuất nhiều phiên bản một lần nữa và lần nữa. Hầu hết những đề xuất này được bán với giá một vài đô la, đó là một giá hợp lý, với những rắc rối mà họ phải rèn đề xuất trên chính mình.
Các lời nhắc trung bình trở lên không chỉ bao gồm chủ đề mà còn mô tả ánh sáng, góc nhìn, cảm xúc gợi mở, bảng màu, mức độ trừu tượng và có thể một hình ảnh tham chiếu để mô phỏng. Như với các kỹ năng nghệ thuật khác, hiện nay có các khóa học và sách hướng dẫn để đào tạo người mới vào nghệ thuật đề xuất ở những điểm tinh tế nhất. Một người hâm mộ của DALL-E 2, Guy Parsons, tổng hợp một Prompt Book miễn phí, đầy đủ mẹo về cách vượt xa cái wow và có được những hình ảnh bạn thực sự có thể sử dụng. Một ví dụ: Nếu lời nhắc của bạn bao gồm các thuật ngữ cụ thể như “ống kính máy ảnh Sigma 75 mm,” Parson nói, thì AI không chỉ tạo ra cái nhìn cụ thể được tạo ra bởi ống kính; “nó gián tiếp ám chỉ ‘kiểu ảnh mà ống kính xuất hiện trong mô tả,’” điều này có xu hướng chuyên nghiệp hơn và do đó tạo ra hình ảnh chất lượng cao hơn. Chính sự thông thạo đa cấp này tạo ra kết quả tuyệt vời.
Vì lý do kỹ thuật, ngay cả khi bạn lặp lại cùng một lời nhắc chính xác, bạn khó có thể nhận được cùng một hình ảnh. Có một hạt giống được tạo ngẫu nhiên cho mỗi hình ảnh, mà không có nó thì theo thống kê là không thể sao chép được. Ngoài ra, cùng một lời nhắc được đưa cho các động cơ AI khác nhau sẽ tạo ra các hình ảnh khác nhau—hình ảnh của Midjourney có vẻ nghệ sĩ hơn, trong khi DALL-E được tối ưu hóa cho hiệu ứng chân thực của ảnh. Tuy nhiên, không phải tất cả những người đề xuất muốn chia sẻ bí mật của họ. Phản ứng tự nhiên khi nhìn thấy một bức tranh rực rỡ đặc biệt là hỏi, “Bạn đã sử dụng lời nhắc nào?” Làm thế nào với lời nhắc? Robyn Miller, đồng sáng tạo của trò chơi huyền thoại Myst và một nghệ sĩ số tiên, đã đăng một hình ảnh được tạo ra bởi AI mỗi ngày. “Khi mọi người hỏi tôi lời nhắc tôi đã sử dụng,” anh ta nói, “tôi đã ngạc nhiên khi tôi không muốn nói cho họ biết. Có một nghệ thuật trong đây, và điều đó cũng làm tôi ngạc nhiên.” Klingemann nổi tiếng vì không chia sẻ lời nhắc của mình. “Tôi tin rằng tất cả những hình ảnh đã tồn tại,” anh ta nói. “Bạn không tạo chúng, bạn tìm thấy chúng. Nếu bạn đạt được điều gì đó thông qua lời nhắc khôn ngoan, tôi không thấy tại sao tôi muốn mời gọi mọi người khác đến đó.”
Đối với tôi, có vẻ rõ ràng rằng những người đề xuất đang tạo nên nghệ thuật thực sự. Một đạo diễn phim hoàn hảo như Hitchcock, như Kurosawa, nhưng không phải là một người đề xuất của diễn viên, hành động, cảnh, ý tưởng là gì? Người đề xuất hình ảnh tốt đang tham gia vào một nghệ thuật tương tự, và họ hoàn toàn có thể cố gắng bán sáng tạo của họ trong các phòng trưng bày nghệ thuật hoặc đưa chúng vào các cuộc thi nghệ thuật. Mùa hè này, Jason Allen đã giành giải nhất trong hạng mục nghệ thuật số tại cuộc thi Nghệ thuật Tốt tại Hội chợ Bang Colorado cho một bức tranh lớn với chủ đề vũ trụ được ký “Jason Allen qua Midjourney.” Đó là một bức tranh khá tuyệt vời, dù có công sức nào đi nữa. Thường các hình ảnh trong hạng mục nghệ thuật số được tạo ra bằng cách sử dụng Photoshop và các công cụ loại Blender cho phép nghệ sĩ nhúng vào thư viện của các đối tượng, cấu trúc và phần số hóa, sau đó ghép lại để tạo thành cảnh. Chúng không phải được vẽ; những hình ảnh số này hoàn toàn là sự kết hợp công nghệ không biết xấu hổ. Các bức tranh ghép hình là một dạng nghệ thuật truyền thống, và việc sử dụng AI để sinh ra một bức tranh ghép là một tiến hóa tự nhiên. Nếu một bức tranh ghép được tạo ra bằng 3D là nghệ thuật, thì một bức tranh của Midjourney cũng là nghệ thuật. Như Allen nói với Vice, “Tôi đã khám phá một lời nhắc đặc biệt. Tôi đã tạo ra hàng trăm hình ảnh bằng cách sử dụng nó, và sau nhiều tuần điều chỉnh và chọn lọc gens của tôi, tôi đã chọn ra 3 bức tranh hàng đầu và in chúng trên bức canvas.”
Tất nhiên, bảng xếp hạng xanh của Allen đã đánh đồng chuông cảnh báo. Với một số nhà phê bình, đây là dấu hiệu của kết thúc thời đại, kết thúc nghệ thuật, kết thúc của nghệ sĩ con người. Các than phiền dễ dàng tiên đoán, với nhiều người chỉ ra cách cảm giác không công bằng khiến người ta cảm thấy khó khăn. Các AI không chỉ sẽ tiếp quản và giết chúng ta tất cả—rõ ràng là chúng cũng sẽ tạo ra nghệ thuật tốt nhất thế giới khi làm điều đó.
Vượt xa điều đó, một số nghệ sĩ muốn đảm bảo rằng công việc của họ sẽ không được sử dụng để huấn luyện AI. Nhưng điều này là điển hình của lo lắng Cấp độ 3—ít nhất là là đầy hướng dẫn. Các thuật toán được tiếp xúc với 6 tỷ hình ảnh với văn bản kèm theo. Nếu bạn không phải là nghệ sĩ có ảnh hưởng, việc loại bỏ công việc của bạn không tạo ra sự khác biệt nào. Một bức tranh được tạo ra sẽ trông giống nhau hoàn toàn có hoặc không có công việc của bạn trong bộ dữ liệu đào tạo. Nhưng ngay cả nếu bạn là một nghệ sĩ có ảnh hưởng, việc loại bỏ hình ảnh của bạn vẫn không quan trọng. Bởi vì phong cách của bạn đã ảnh hưởng đến công việc của người khác—định nghĩa về ảnh hưởng—ảnh hưởng của bạn sẽ vẫn tồn tại ngay cả khi hình ảnh của bạn bị loại bỏ. Hãy tưởng tượng nếu chúng ta loại bỏ tất cả các bức tranh của Van Gogh khỏi bộ dữ liệu đào tạo. Phong cách của Van Gogh vẫn sẽ được nhúng trong đại dương lớn của những bức ảnh được tạo ra bởi những người đã bắt chước hoặc bị ảnh hưởng bởi ông.
Phong cách được triệu hồi thông qua các gợi ý, như: “theo phong cách của Van Gogh.” Một số nghệ sĩ không hài lòng muốn tên của họ bị kiểm duyệt và không được phép sử dụng làm gợi ý. Vì vậy, ngay cả khi ảnh hưởng của họ không thể bị loại bỏ, bạn không thể tiếp cận nó vì tên của họ là không được phép. Như chúng ta biết từ tất cả các nỗ lực kiểm duyệt trước đó, những kiểu cấm nói như vậy dễ dàng vượt qua; bạn có thể viết sai tên, hoặc đơn giản chỉ mô tả phong cách bằng từ ngữ. Chẳng hạn, tôi đã phát hiện ra rằng tôi có thể tạo ra những bức ảnh chi tiết về cảnh tự nhiên đen trắng với ánh sáng tráng lệ và nền phía trước nổi bật—mà không bao giờ sử dụng tên Ansel Adams.
Còn một động cơ khác để nghệ sĩ loại bỏ chính họ. Họ có thể sợ rằng một tập đoàn lớn sẽ kiếm tiền từ công việc của họ, và đóng góp của họ sẽ không được đền bù. Nhưng chúng ta không đền bù cho những nghệ sĩ con người về ảnh hưởng của họ đối với những nghệ sĩ con người khác. Hãy lấy David Hockney, một trong những nghệ sĩ sống được trả lương cao nhất. Hockney thường thừa nhận sự ảnh hưởng lớn của các nghệ sĩ sống khác đối với công việc của mình. Như một xã hội, chúng ta không mong đợi ông (hoặc người khác) phải viết chi phiếu cho những người ảnh hưởng đối với ông, mặc dù ông có thể. Nếu nghệ sĩ AI nên trả tiền cho những người ảnh hưởng của họ, điều này sẽ phải được công nhận là ngẫu nhiên (không công bằng) và số tiền đền bù thực tế mỗi nghệ sĩ trong một bể 6 tỷ cổ phần sẽ quá nhỏ bé để có ý nghĩa.
Hơn nữa, đường đường ảnh hưởng thường mờ nhạt, thoáng qua và không chính xác. Chúng ta đều bị ảnh hưởng bởi mọi thứ xung quanh chúng ta, đến mức chúng ta không nhận ra và chắc chắn không thể đo lường được. Khi chúng ta viết một bản ghi chú hoặc chụp một bức ảnh với điện thoại, trong mức độ nào chúng ta đã bị ảnh hưởng—trực tiếp hoặc gián tiếp—bởi Ernest Hemingway hoặc Dorothea Lange? Làm thế nào để giải mã những ảnh hưởng khi chúng ta tạo ra một cái gì đó. Cũng giống như là không thể giải mã những sợi ảnh hưởng trong vũ trụ hình ảnh AI. Lý thuyết, chúng ta có thể xây dựng một hệ thống để thanh toán tiền kiếm được bởi AI cho những nghệ sĩ trong bộ dữ liệu đào tạo, nhưng chúng ta phải nhận ra rằng sự công nhận này sẽ được thực hiện theo cách tùy ý (không công bằng) và số tiền đền bù thực tế cho mỗi nghệ sĩ trong một bể 6 tỷ cổ phần sẽ quá nhỏ bé để có ý nghĩa.
Trong những năm sắp tới, bộ não tính toán bên trong máy tạo hình ảnh AI sẽ tiếp tục mở rộng và cải tiến cho đến khi nó trở thành một nút trung tâm trong mọi hoạt động của chúng ta về mặt hình ảnh. Nó sẽ thực sự đã nhìn thấy tất cả và biết tất cả các phong cách, và nó sẽ vẽ, tưởng tượng và tạo ra gần như mọi thứ chúng ta cần. Nó sẽ trở thành một công cụ tìm kiếm hình ảnh và bách khoa toàn cảnh với đó để hiểu hình ảnh, và công cụ chính chúng ta sử dụng với giác quan quan trọng nhất của chúng ta, tầm nhìn. Hiện tại, mọi thuật toán mạng thần kinh chạy sâu trong AI đều phụ thuộc vào lượng lớn dữ liệu—do đó là tỷ lệ tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số tỷ số. Nhưng trong thập kỷ tới, chúng ta sẽ có AI hoạt động chỉ với rất ít ví dụ để học, có lẽ chỉ cần khoảng 10,000. Chúng ta sẽ dạy cho máy tạo hình ảnh AI mạnh mẽ hơn cách vẽ bằng cách hiển thị cho họ hàng nghìn hình ảnh đã được chọn lọc cẩn thận của nghệ thuật hiện tại, và khi điểm này đến, nghệ sĩ của mọi lĩnh vực sẽ đấu tranh với nhau để được bao gồm trong bộ dữ liệu đào tạo. Nếu một nghệ sĩ ở trong hồ chính, ảnh hưởng của họ sẽ được chia sẻ và cảm nhận bởi tất cả, trong khi những người không được bao gồm phải vượt qua rào cản chính đối với mọi nghệ sĩ: không phải là sự sao chép, mà là sự ẩn lạc.
Khi mà thuật toán sinh hình ảnh 2D ra đời, những người thử nghiệm vội vàng nghĩ ra điều gì tiếp theo. Jensen Huang, người sáng lập có tham vọng của Nvidia, tin rằng thế hệ chip tiếp theo sẽ tạo ra thế giới 3D cho thế giới ảo—“nền tảng tính toán tiếp theo,” như ông gọi nó. Trong một tuần duy nhất tháng Chín vừa qua, đã có ba trình tạo hình ảnh văn bản-3D/video mới được công bố: GET3D (Nvidia), Make-A-Video (Meta) và DreamFusion (Google). Sự mở rộng đang diễn ra nhanh chóng đến mức tôi không kịp viết. Tuy ảnh tạo ra bởi AI có thể treo tường và tuyệt vời nhưng việc giao việc này cho người khác sáng tạo sẽ không thay đổi thế giới một cách đáng kể. Chúng ta đã ở đỉnh điểm 2D. Siêu năng lực thực sự được giải phóng bởi máy tạo hình ảnh AI sẽ nằm ở việc sản xuất hình ảnh và video 3D.
Một gợi ý trong tương lai cho một động cơ 3D có thể trông giống như thế này: “Tạo phòng ngủ lộn xộn của một thanh niên, với những bức tranh treo trên tường, một chiếc giường chưa dọn và ánh nắng chiều lọt qua rèm đóng.” Và chỉ trong vài giây, một phòng được hiện thực hóa đầy đủ ra đời, cửa tủ mở và tất cả quần áo bẩn trên sàn—trong không gian 3D đầy đủ. Sau đó, nói với AI: “Tạo một căn bếp những năm 1970 với nam châm tủ lạnh và tất cả các hộp ngũ cốc trong tủ đựng thực phẩm. Trong chi tiết không gian đầy đủ. Một cái mà bạn có thể đi qua. Hoặc có thể chụp trong một video.” Trò chơi đầy thế giới được thay thế và bộ phim đầy đủ với trang phục và bối cảnh đã mãi mãi là điều nằm ngoài tầm tay của các nghệ sĩ cá nhân, người vẫn còn dưới sức ảnh hưởng của những người có đồng đội lớn. AI có thể tạo ra trò chơi, thế giới ảo và phim ảnh nhanh chóng như viết tiểu thuyết, vẽ tranh và hát nhạc. Bộ phim Pixar ngay lập tức! Khi hàng triệu người nghiệp dư tạo ra hàng tỷ bộ phim và thế giới ảo không ngừng tại nhà, họ sẽ tạo ra các thể loại truyền thông hoàn toàn mới—du lịch ảo, meme không gian—với những thiên tài bản địa của chính mình. Và khi có đồng đội lớn và chuyên gia được trang bị những công cụ mới này, chúng ta sẽ thấy những kiệt tác ở một cấp độ phức tạp chưa từng thấy.
Nhưng ngay cả vũ trụ rộng lớn của thế giới 3D và video cũng không đủ rộng để chứa đựng sự đảo lộn mà máy tạo hình ảnh AI đã khởi xướng. DALL-E, Midjourney và Stable Diffusion chỉ là những phiên bản đầu tiên của các máy tạo ra mọi loại. Chức năng chính của chúng, nhận biết mẫu, gần như là một phản xạ đối với não bộ con người, điều chúng ta thực hiện mà không cần suy nghĩ có ý thức. Đó là ở trung tâm của hầu hết mọi thứ chúng ta làm. Tư duy của chúng ta phức tạp hơn chỉ là nhận biết mẫu, tất nhiên; hàng chục chức năng nhận thức kích thích não bộ của chúng ta. Nhưng loại tư duy duy nhất này, được tổng hợp trong các máy (và là tư duy duy nhất chúng ta đã tổng hợp cho đến nay), đã đưa chúng ta xa hơn so với những gì chúng ta nghĩ ban đầu—và có lẽ sẽ tiếp tục phát triển hơn so với những gì chúng ta nghĩ ngay bây giờ.
Khi một AI nhận biết một mẫu, nó lưu trữ nó một cách nén. Đối tượng tròn được đặt trong một hướng “vòng tròn,” đối tượng đỏ trong hướng khác cho “màu đỏ,” và cứ thế. Có thể nó nhận ra “tính cây” và “tính thức ăn” nữa. Nó trừu tượng hóa hàng tỷ hướng, hoặc mẫu. Trên suy nghĩ—hoặc đào tạo—nó nhận ra rằng sự trùng lắp giữa bốn đặc điểm này tạo ra “đặc điểm táo,” một hướng khác nữa. Hơn nữa, nó liên kết tất cả những hướng được nhận biết này với các mẫu từ ngôn ngữ, mà cũng có thể chia sẻ các đặc điểm trùng lắp. Vì vậy, khi một con người yêu cầu một bức tranh của một quả táo qua từ ngữ “táo,” AI vẽ một bức tranh với bốn (hoặc nhiều hơn) đặc điểm đó. Nó không phải là việc tổng hợp các mảnh ảnh hiện có; thay vào đó, nó đang “tưởng tượng” một bức tranh mới với những đặc điểm thích hợp. Nó nhớ một bức tranh không tồn tại nhưng có thể có.
Kỹ thuật này có thể được sử dụng—thực tế là đã được sử dụng, dưới dạng rất sớm—để tìm ra các loại thuốc mới. AI được đào tạo trên một cơ sở dữ liệu của tất cả các phân tử mà chúng ta biết là thuốc hiệu quả, nhận biết mẫu trong cấu trúc hóa học của chúng. Sau đó, AI được yêu cầu “nhớ” hoặc tưởng tượng ra những phân tử mà chúng ta chưa bao giờ nghĩ đến nhưng dường như giống với những phân tử hoạt động. Tuyệt vời, một số trong số chúng thực sự có hiệu quả, giống như hình ảnh AI của một loại quả ảo có thể trông giống như quả ảo. Đây là sự biến đổi thực sự, và sớm thôi, cùng kỹ thuật này sẽ được sử dụng để giúp thiết kế ô tô, soạn luật, viết mã, sáng tác nhạc, tạo ra thế giới để giải trí và giáo dục, và cùng sáng tạo những công việc chúng ta thực hiện. Chúng ta nên lấy những bài học chúng ta đã học cho đến nay từ máy tạo hình ảnh AI vì sẽ sớm có thêm nhiều AI tìm kiếm mẫu trong mọi lĩnh vực của cuộc sống. Chu kỳ hoảng sợ chúng ta đang đối mặt hiện nay chỉ là một buổi diễn tập tốt cho sự chuyển động sắp tới.
Điều chúng ta biết về máy tạo hình ảnh AI cho đến nay là chúng hoạt động tốt nhất khi làm đồng đội. Nỗi ác mộng về một AI điên cuồng tiếp quản đơn giản là không xảy ra. Tầm nhìn đó căn bản là một sự hiểu lầm về lịch sử. Trong quá khứ, công nghệ hiếm khi trực tiếp thay thế con người khỏi công việc mà họ muốn làm. Ví dụ, sự tạo ra tự động hình ảnh bằng một máy—gọi là máy ảnh—đã là nỗi sợ hãi trong thế kỷ 19 vì chắc chắn sẽ làm mất việc nghệ sĩ chân dung. Nhưng nhà sử học Hans Rooseboom chỉ tìm thấy một duy nhất họa sĩ chân dung từ thời đó cảm thấy thất nghiệp vì nhiếp ảnh. (Thực tế, nhiếp ảnh thúc đẩy sự phục hồi của hội họa sau đó trong thế kỷ đó.) Gần với thời đại chúng ta, có thể chúng ta đã mong đợi nghề nghiệp chuyên nghiệp trong lĩnh vực nhiếp ảnh giảm sút khi điện thoại thông minh nuốt chửng thế giới và mọi người trở thành nhiếp ảnh gia—với 95 triệu ảnh tải lên Instagram mỗi ngày và vẫn đang tiếp tục. Tuy nhiên, số lượng chuyên gia nhiếp ảnh ở Mỹ đã tăng chậm, từ 160,000 vào năm 2002 (trước điện thoại có camera) lên 230,000 vào năm 2021.
Thay vì sợ hãi AI, chúng ta được phục vụ tốt hơn khi nghĩ về những gì nó dạy chúng ta. Và điều quan trọng nhất mà máy tạo hình ảnh AI dạy chúng ta là điều này: Sự sáng tạo không phải là một lực lượng siêu nhiên. Đó là điều có thể được tổng hợp, tăng cường và thao túng. Hóa ra chúng ta không cần phải đạt được sự thông minh để nảy sinh sự sáng tạo. Sự sáng tạo là một yếu tố cơ bản hơn chúng ta nghĩ. Nó độc lập với ý thức. Chúng ta có thể tạo ra sự sáng tạo trong một thứ ngu ngốc như một mạng nơ-ron học sâu. Dữ liệu khổng lồ cộng với các thuật toán nhận biết mẫu dường như là đủ để kỹ thuật một quy trình sẽ làm cho chúng ta ngạc nhiên và hỗ trợ chúng ta không ngừng.
Những nhà nghiên cứu về sự sáng tạo đề cập đến cái gọi là Sáng tạo Chữ hoa. Sáng tạo Chữ hoa là sự sắp xếp tuyệt vời, thay đổi lĩnh vực, thay đổi thế giới mà một đột phá lớn mang lại. Hãy nghĩ về lý thuyết tương đối đặc biệt, phát hiện DNA, hoặc bức tranh Guernica của Picasso. Sáng tạo Chữ hoa vượt xa cái mới mẻ. Nó đặc biệt, và nó hiếm. Nó chạm vào chúng ta con người một cách sâu sắc, xa hơn những gì một trí tuệ AI ngoại lai có thể hiểu biết.
Để kết nối sâu sắc với một con người luôn cần có một người Sáng tạo trong vòng lặp. Tuy nhiên, sự sáng tạo cao cấp này không nên bị nhầm lẫn với sự sáng tạo mà hầu hết nghệ sĩ, nhà thiết kế và nhà phát minh con người sản xuất hàng ngày. Sự sáng tạo chữ thường, bình thường là những gì chúng ta nhận được với một thiết kế logo mới xuất sắc hoặc một bìa sách tuyệt vời, một đồ trang sức số thông minh hoặc xu hướng thời trang mới nhất, hoặc thiết kế bộ sưu tập cho bộ phim khoa học viễn tưởng yêu thích của chúng ta. Hầu hết nghệ thuật con người, quá khứ và hiện tại, đều là chữ thường. Và sự sáng tạo chữ thường chính là những gì máy tạo hình ảnh AI mang lại.
Nhưng điều này quan trọng lắm. Lần đầu tiên trong lịch sử, con người có thể triệu hồi những hành động hàng ngày của sự sáng tạo theo yêu cầu, ngay lập tức, quy mô lớn, giá rẻ. Sự sáng tạo tổng hợp hiện là một hàng hóa. Các nhà triết học cổ xưa sẽ quay mình trong mộ, nhưng hóa ra để tạo ra sự sáng tạo—để tạo ra điều mới mẻ—tất cả những gì bạn cần là mã đúng. Chúng ta có thể chèn nó vào thiết bị nhỏ hiện tại không hoạt động, hoặc chúng ta có thể áp dụng sự sáng tạo vào các mô hình thống kê lớn, hoặc nhúng sự sáng tạo vào các quy trình phát hiện thuốc. Chúng ta còn có thể sử dụng sự sáng tạo tổng hợp cho mục đích khác nữa? Chúng ta có thể cảm thấy một chút giống như nông dân thời trung cổ đang được hỏi, “Nếu bạn có sức mạnh của 250 con ngựa trong tay, bạn sẽ làm gì?” Chúng ta không biết. Đó là một món quà phi thường. Những gì chúng ta biết là chúng ta hiện nay có những động cơ sáng tạo dễ dàng, mà chúng ta có thể hướng vào những góc cũ mà chưa bao giờ thấy tính mới mẻ, sáng tạo hoặc sự thay đổi sáng tạo. Trong bối cảnh mọi thứ đang phá hủy, siêu năng lực này có thể giúp chúng ta kéo dài điều mới mẻ mãi mãi. Sử dụng đúng cách, chúng ta có thể tạo ra một vết nứt nhỏ trong vũ trụ.
Bài viết này xuất hiện trong số tháng Hai. Đăng ký ngay.
Hãy cho chúng tôi biết ý kiến của bạn về bài viết này. Gửi thư tới biên tập viên tại [email protected].