Nơi Ký Ức Kết Thúc và Trí Tuệ Nhân Tạo Bắt Đầu

Bởi: Minprice.com

26/03/20240like

Vào cuối tháng Ba, một startup trí tuệ nhân tạo được đầu tư mạnh mẽ tổ chức sự kiện được cho là lễ hội phim AI đầu tiên tại rạp Alamo Drafthouse ở San Francisco. Startup này, có tên là Runway, nổi tiếng nhất với việc cộng tác tạo ra Stable Diffusion, công cụ trí tuệ nhân tạo chuyển văn bản thành hình ảnh xuất sắc đã làm say mê mọi người trong năm 2022. Tháng 2 năm nay, Runway phát hành một công cụ có thể thay đổi toàn bộ phong cách của một video hiện tại chỉ với một lệnh đơn giản. Runway kêu gọi các nhà làm phim mới thử sức và sau đó chọn 10 phim ngắn để trình bày tại lễ hội.

The short films were mostly demonstrations of technology. Well-constructed narratives took a backseat. Some were surreal, and in at least one instance intentionally macabre. But the last film shown made the hair stand up on the back of my neck. It felt as though the filmmaker had deliberately misunderstood the assignment, eschewing video for still images. Called Expanded Childhood, the AI “film” was a slideshow of photos with a barely audible echo of narration.

AdChoices

Đạo diễn Sam Lawton, một sinh viên điện ảnh 21 tuổi đến từ Nebraska, sau đó nói với tôi rằng anh ấy đã sử dụng DALL-E của OpenAI để thay đổi hình ảnh. Anh ấy tập hợp một loạt ảnh từ tuổi thơ, đưa chúng vào công cụ trí tuệ nhân tạo và đưa ra nhiều lệnh khác nhau để mở rộng hình ảnh: điền vào các mép với nhiều con bò hơn, hoặc cây cỏ; chèn người vào bức tranh mà thực sự không có ở đó; tưởng tượng lại bức tranh về những gì căn bếp trông như. Ném thêm một chú chó con vào bồn tắm—tại sao không? Lawton đã cho cha mình xem những hình ảnh được tạo ra bởi trí tuệ nhân tạo, ghi lại phản ứng bối rối của ông và chèn âm thanh vào bộ phim.

undefined

“Không, đó không phải là nhà chúng ta. Ôi—chờ một chút. Đó là nhà chúng ta. Có điều gì đó không ổn. Tôi không biết đó là gì. Liệu tôi chỉ đơn giản là không nhớ nó?” Cha của Lawton có thể được nghe nói.

Nơi ký ức thực tế kết thúc và trí tuệ nhân tạo bắt đầu? Đó là một câu hỏi cho thời đại trí tuệ nhân tạo, nơi những bức ảnh thánh thánh của chúng ta hòa quyện với những ký ức thủy túy, nơi các pixel mới được tạo ra toàn bộ bởi trí tuệ nhân tạo. Trong vài tuần qua, các ông lớn công nghệ như Google và Adobe, với công cụ của họ có tầm với hàng tỷ ngón tay, đã phát hành các công cụ chỉnh sửa ảnh được trang bị trí tuệ nhân tạo, hoàn toàn thay đổi ngữ cảnh của hình ảnh, đẩy ranh giới của sự thật, ký ức và nhiếp ảnh nâng cao.

Google đã chạm mũi chân vào nước với việc phát hành Magic Eraser vào năm 2021. Bây giờ công ty đang thử nghiệm Magic Editor, một tính năng trên một số điện thoại Android chọn lọc có thể đặt lại vị trí chủ thể, loại bỏ những kẻ phá đám và chỉnh sửa các yếu tố khác không đẹp, sau đó sử dụng trí tuệ nhân tạo để điền vào khoảng trống pixel. Adobe, có thể là nhà sản xuất phần mềm chỉnh sửa sáng tạo nổi tiếng nhất, thông báo vào đầu tuần này rằng họ đang đưa trí tuệ nhân tạo của mình, Firefly, vào Adobe Photoshop. Tính năng Generative Fill có tên thích hợp sẽ chỉnh sửa ảnh và chèn nội dung mới thông qua một lời nhắc dựa trên văn bản. Nhập vào “thêm mây” và chúng xuất hiện ngay lập tức.

Adobe gọi đó là một “đồng lái” cho quy trình làm việc sáng tạo, như những từ ngữ mà các công ty công nghệ khác, như Microsoft, đang sử dụng để mô tả ứng dụng trí tuệ nhân tạo sáng tạo. Điều này ngụ ý rằng bạn vẫn hoàn toàn kiểm soát. Trong góc nhìn này, trí tuệ nhân tạo đang cung cấp sự hỗ trợ, đảm nhiệm vai trò điều hướng khi bạn cần nghỉ điều vệ sinh. Điều này hơi là một sự hoạt náo sai lạc khi trí tuệ nhân tạo thực sự đang đóng vai trò như một nhà vẽ bản đồ, vẽ lại bản đồ cuộc sống của bạn.

“‘Tinh chỉnh ký ức của bạn’ có lẽ là cụm từ ám ảnh nhất mà tôi từng đọc,” chủ tịch Signal Foundation và người từng làm việc tại Google, Meredith Whittaker, đã tweet vào tháng 2, phản ứng với thông báo của Google rằng công cụ Magic Eraser của họ sẽ trở nên khả dụng cho nhiều điện thoại hơn. Trong chiến dịch quảng cáo của công cụ này, Google hiển thị một hình ảnh của một cô gái trẻ đối mặt với biển động. Gần bờ biển là một gia đình bốn người, có lẽ không phải là gia đình của cô. Magic Eraser biến mất họ.

Hãy làm rõ điều này: Chúng ta luôn có thể chỉnh sửa ảnh. Cho dù bằng kéo, dao cạo, hoặc sơn, kể từ khi ảnh in ra đời, chúng ta đã chỉnh sửa. Ngày Photoshop ra đời được định giờ để phát triển cùng với sự nổi lên của máy tính cá nhân, mà, nói không quá mức cường điệu, đã thay đổi mọi thứ.

Phiên bản đầu tiên của Photoshop ra mắt vào năm 1990. “Jennifer in Paradise” là bức ảnh số điện tử nổi tiếng trên toàn thế giới: một hình ảnh của vợ của cộng sự sáng lập Photoshop, John Knoll, ngồi trên bãi biển ở Bora Bora. Trong các buổi trình diễn, Knoll sẽ vẽ đường nét xung quanh vợ mình bằng công cụ lasso nổi tiếng, sau đó sao chép bản sao của cô ấy. Anh ta sao chép, dán, thu nhỏ và phân tán một hòn đảo ở xa. “Một hòn đảo nhân bản!” Knoll nói trong một video đăng trên kênh YouTube của Adobe vào năm 2010. Một hòn đảo không thực sự tồn tại. Một đất liền được chế tạo.

Mộtlyrics vàmusic... âm nhạc và giai điệu từ đám cưới của tôi. Bản internet sẽ không bao giờ quên. Chính sách hủy bỏ và những kỷ niệm không thể xóa. Hãy tìm hiểu về những thách thức và thay đổi trong cuộc sống của tôi.

Điều khác biệt ngày nay - điều mà trí tuệ nhân tạo sáng tạo đang mở rộng là tốc độ với đó những chỉnh sửa này có thể được thực hiện và ai có thể thực hiện chúng. “Công cụ chỉnh sửa đã tồn tại từ lâu,”, Shimrit Ben-Yair, trưởng bộ phận Google Photos nói. “Và rõ ràng chúng tôi đã cung cấp các công cụ chỉnh sửa trên ảnh trong thời gian dài. Khi những nền tảng này mở rộng cơ sở người dùng của họ, những công cụ này trở nên dễ tiếp cận và sẵn có hơn cho mọi người. Và hình ảnh đã chỉnh sửa trở nên phổ biến hơn.”

Một bản giới thiệu sớm về công cụ Magic Eraser của Google có hai đứa trẻ mặc đồ lướt sóng và boogie board, với hai người lớn ở phía xa phía sau. Trẻ em và người lớn có tone da khác nhau, và giả định hơi khó chịu trong bản demo này - cũng được nhấn mạnh bằng khoảng cách giữa chúng - là họ không phải là gia đình. Magic Eraser của Google đã đường nét xung quanh những người lớn ở phía sau, sau đó làm mất họ.

Trong một bản demo mới hơn, Magic Editor, sẽ ra mắt vào cuối năm nay, xóa dây đeo túi của một phụ nữ khi cô ấy đứng trước thác nước, sau đó điền vào những khoảng trống bằng vật liệu áo khoác. Tại sao dây đeo túi trong ảnh leo núi lại làm phiền, tôi không biết. Nhưng quyết định về thẩm mỹ đó là đặc quyền của người tạo ra ảnh, Google nói.

Generative Fill của Adobe có nhiều hơn nữa, à, sáng tạo. Một chú chó corgi tóc dài nô đùa xuống một con đường trống rỗng. Đó là tất cả, đó là bức ảnh. Nhưng Generative Fill làm dài con đường. Nó biến những cây trơ trụ thành một mùa xuân mới nở. Một chiếc xe tải màu trắng xuất hiện, và việc nó đang lái xe về phía chó corgi hay đi xa khỏi nó thay đổi sự căng thẳng của bức ảnh một cách đáng chú ý. Nhưng, nhìn, bây giờ có những vũng nước. Chắc chắn đó là một bức ảnh hạnh phúc? Trí tuệ nhân tạo thậm chí đủ thông minh để tạo bản phản ánh của chú chó vui nhảy trong những vũng nước. Tất cả đều diễn ra trong vài giây. Tôi bị sốc.

Nhưng sau sự ngạc nhiên đến “Bây giờ phải làm sao?” Giả sử đó là bức ảnh dã ngoại của tôi, con chó của tôi, gia đình tôi trên bãi biển. Làm thế nào tôi sẽ nhớ ngày đó nếu trong tương lai chúng chỉ còn là màu nước trong não tôi, và tôi ngày càng dựa vào cuộn ảnh của mình để có những nét màu sống động hơn? Liệu tôi thực sự không mang theo túi khi đi bộ đường dài? Chiếc xe tải bán tải có nguy hiểm gần con chó của tôi vào ngày đó không? Liệu tôi chỉ nghỉ ngơi ở những bãi biển tư nhân, tinh khôi?

Các nhà quản lý cấp cao ở cả Google và Adobe đều nói rằng sức mạnh của các công cụ phải được xem xét trong ngữ cảnh của bức ảnh. Ai đang chụp ảnh, ai đang chia sẻ nó, nó được chia sẻ ở đâu. “Tôi nghĩ trong bối cảnh của không gian công cộng, có những kỳ vọng khác nhau so với việc ảnh được chia sẻ trong không gian riêng tư,” Ben-Yair nói. “Nếu ai đó đang chia sẻ một bức ảnh với bạn qua chính Google Photos hoặc ứng dụng nhắn tin bạn đang sử dụng, bạn tin tưởng nguồn thông tin đó. Và bạn có thể xem việc chỉnh sửa như làm cho bức ảnh sống động hơn, bởi vì bạn tin tưởng nguồn thông tin đó.”

“Nhưng càng có nhiều lớp trừu tượng, mức độ độc lập cao hơn,” cô tiếp tục, “Nơi bạn không biết nguồn gốc, thì phải, bạn phải suy nghĩ, bức ảnh này có độ chân thực như thế nào?”

Tương tự, Andy Parsons của Adobe nói rằng có một “dải đồng hồ cát” của các trường hợp sử dụng cho ảnh được chỉnh sửa bằng trí tuệ nhân tạo. Một nghệ sĩ (hoặc người tự cho mình là nghệ sĩ) có thể sử dụng trí tuệ nhân tạo tạo ra một bức ảnh được chỉnh sửa mang tính sáng tạo, không phải là tài liệu. Ngược lại, “nếu việc biết rằng điều được trình bày trong bức ảnh là một phản ánh của hiện thực quan trọng đến như thế nào, như trong một tổ chức tin tức, chúng ta mong đợi sẽ thấy nhiều hơn nhiều nhiếp ảnh gia phải cung cấp tính minh bạch,” Parsons nói.

Tất nhiên, tất cả điều này dựa trên quan điểm rằng chúng ta—những người xem ảnh—sẽ muốn, hoặc quan tâm, hoặc biết cách, xác minh sự chân thực của một bức ảnh. Nó giả định rằng chúng ta có thể phân biệt được giữa xã hội và văn hóa và tin tức, và những hạng mục đó được định rõ. Rõ ràng là sự minh bạch tuyệt vời; tôi vẫn bị mê hoặc bởi Balenciaga Pope. Hình ảnh của Pope Francis mặc một chiếc áo khoác phong cách đầu tiên được đăng trên subreddit r/Midjourney như một loại meme, lan truyền giữa người dùng Twitter và sau đó được các cơ quan tin tức đưa tin về sự lan truyền và ý nghĩa của hình ảnh được tạo ra bởi trí tuệ nhân tạo. Nghệ thuật, xã hội, tin tức—tất cả đều được phúc lành bởi Pope. Chúng ta bây giờ biết đó là giả mạo, nhưng Balenciaga Pope sẽ sống mãi trong tâm trí chúng ta.

Sau khi nhìn thấy Magic Editor, tôi cố gắng diễn đạt điều gì đó với Shimrit Ben-Yair mà không gán giá trị đạo đức cho nó, nghĩa là tôi đặt trước tuyên bố của mình với cụm từ, “Tôi đang cố gắng không gán giá trị đạo đức cho điều này.” Điều đáng kể, tôi nói, là kiểm soát bao nhiêu kí ức tương lai của chúng ta đang nằm trong tay các công ty công nghệ khổng lồ chỉ đơn giản vì các công cụ và cơ sở hạ tầng hiện có để ghi lại nhiều nội dung của cuộc sống chúng ta.

Ben-Yair dừng lại đầy năm giây trước khi trả lời. “Ừ, tôi có nghĩa là... Tôi nghĩ mọi người tin tưởng Google với dữ liệu của họ để bảo vệ. Và tôi nhìn thấy đó là một trách nhiệm rất, rất lớn đối với chúng tôi để mang theo.” Đó là một câu trả lời quên lời, nhưng may mắn là tôi đang ghi âm. Trên ứng dụng Google.

Sau khi Adobe giới thiệu Generative Fill tuần này, tôi viết thư cho Sam Lawton, nhà làm phim đằng sau Expanded Childhood, để hỏi liệu anh ấy có kế hoạch sử dụng nó không. Anh ấy vẫn ưa thích các trình tạo hình ảnh trí tuệ nhân tạo như Midjourney và DALL-E 2, anh ấy viết, nhưng nhận thức được tính hữu ích của việc tích hợp trí tuệ nhân tạo tạo hình trực tiếp vào phần mềm chỉnh sửa phổ biến nhất của Adobe.

“Trên Twitter, đã có cuộc thảo luận từ lâu về việc trí tuệ nhân tạo sẽ đảm nhiệm tất cả công việc thiết kế đồ họa, thường tham chiếu đến các công ty Gen AI nhỏ hơn có thể tạo ra logo và những thứ khác,” Lawton nói. “Trên thực tế, nên khá rõ ràng rằng một đại gia như Adobe sẽ đưa ra những công cụ này trực tiếp cho các nhà thiết kế để giữ họ trong hệ sinh thái của mình.”

Về bộ phim ngắn của anh ấy, anh ấy cho biết phản ứng đối với nó đã là “đầy thú vị,” khi nó đã tạo ấn tượng mạnh mẽ hơn với mọi người so với anh ấy nghĩ. Anh ấy nghĩ rằng những khuôn mặt bị biến dạng bởi trí tuệ nhân tạo, sự giả mạo rõ ràng của một số bức ảnh tĩnh, cộng với việc nó dựa trên tuổi thơ của anh ấy, sẽ tạo ra một rào cản cho việc kết nối với bộ phim. “Tuy nhiên, theo những gì tôi đã được nói đi nói lại, cảm giác hồi tưởng, kết hợp với thung lũng kỳ ảo, đã chảy vào trải nghiệm của người xem,” anh ấy nói.

Lawton cho biết anh ấy đã thấy quá trình có thể nhìn thấy thêm ngữ cảnh xung quanh những ký ức cơ bản của mình là một phương pháp hỗ trợ tâm lý, ngay cả khi ký ức được tạo ra bởi trí tuệ nhân tạo không hoàn toàn đúng.

Cập nhật, ngày 26 tháng 5 lúc 11:00 sáng: Một phiên bản trước đó của câu chuyện này nói rằng Magic Eraser có thể được sử dụng trong video; đó là một lỗi và đã được sửa. Ngoài ra, việc kể lại hai cuộc trình diễn sản phẩm riêng biệt của Google đã được chỉnh sửa để làm rõ rằng các tính năng cụ thể nào đã được hiển thị trong mỗi cuộc trình diễn.