Trí tuệ nhân tạo của Tumblr chỉ có một công việc—và nó làm nó không tốt

Bởi: Minprice.com

26/03/20240like

Một bức vẽ đơn xin bằng sáng chế cho đôi tất troll, một con bọ cạp đeo mũ bảo hiểm, và một truyện tranh về mèo thể hiện nghệ thuật luyện tập trong công viên có điều gì chung? Chúng đều được Tumblr đánh dấu trong tuần này sau khi nền tảng microblogging này thông báo rằng nó sẽ không còn chấp nhận "nội dung người lớn". Nhưng cho đến nay, phương pháp của Tumblr để phát hiện bài đăng vi phạm chính sách mới, có hiệu lực từ ngày 17 tháng 12, không hoạt động tốt, ít nhất là theo nhiều người trên Twitter đã chia sẻ ảnh chụp màn hình của các bài đăng vô tội trên Tumblr bị nhầm là NSFW.

The announcement was greeted with dismay in the Tumblr community, which has long been a bastion for DIY and non-mainstream porn. But the policy change appears to be having an even wider effect than anticipated. Posts are being flagged that seem to fall well outside Tumblr’s definition of adult content, which “primarily includes photos, videos, or GIFs that show real-life human genitals or female-presenting nipples, and any content—including photos, videos, GIFs and illustrations—that depicts sex acts.” (Users can appeal to a human moderator if they believe their posts were incorrectly labeled as adult content, and nothing will be censored until the new policy goes into effect later this month.)

AdChoices

“Tôi thừa nhận tôi là người ngây thơ—khi tôi thấy thông báo về lệnh cấm 'nội dung người lớn' mới tôi chưa bao giờ nghĩ rằng nó sẽ áp dụng cho blog của tôi,” nói Sarah Burstein, một giáo sư tại Trường Luật Đại học Oklahoma nhận thấy nhiều bài đăng của mình đã bị đánh dấu. “Tôi chỉ đăng về bằng sáng chế thiết kế, không phải về 'hình ảnh khiêu dâm.'”

undefined

Tumblr thừa nhận trong một bài đăng trên blog thông báo về các quy tắc mới rằng “sẽ có những sai sót” khi họ bắt đầu áp dụng chúng. “Lọc loại nội dung như vậy so với, ví dụ, một cuộc biểu tình chống chính trị với sự trần trụi hoặc tượng David, không đơn giản khi có quy mô lớn,” Jeff D’Onofrio, CEO mới của Tumblr viết. Điều này cũng không phải là lần đầu tiên một nền tảng truyền thông xã hội đã nhầm lẫn khi đánh dấu hình ảnh phù hợp với PG làm nội dung khiêu dâm. Năm ngoái, ví dụ, Facebook nhầm lẫn cấm một phụ nữ chạy quảng cáo có chứa tượng điêu khắc hơn 30,000 tuổi vì nó chứa nội dung khiêu dâm.

Nhưng khác với lỗi của Facebook, nhiều sai sót của Tumblr liên quan đến các bài đăng không chứa bất cứ điều gì giống như một con người trần trụi. Trong một trường hợp, trang web được cho là đã đánh dấu một bài đăng trên blog về dây đeo cổ tay cho những người mắc một loại rối loạn cấu trúc mô liên kết. Máy tính hiện đại hiện nay rất giỏi trong việc nhận biết những gì có trong một bức ảnh. Vậy tại sao lại như vậy?

Mặc dù khả năng học máy đã cải thiện đáng kể trong những năm gần đây, máy tính vẫn không “nhìn thấy” hình ảnh theo cách con người làm. Chúng phát hiện xem các nhóm pixel có vẻ giống những thứ chúng đã thấy trong quá khứ hay không. Hệ thống kiểm duyệt nội dung tự động của Tumblr có thể đang phát hiện các mô hình mà công ty không nhận thức hoặc không hiểu. “Học máy xuất sắc trong việc nhận diện các mô hình trong dữ liệu thô, nhưng một sự thất bại phổ biến là thuật toán học phát hiện ra những độ chệch tình cờ, có thể dẫn đến dự đoán dễ vỡ,” Carl Vondrick, một giáo sư thị giác máy tính và học máy tại Trường Kỹ thuật Columbia nói. Ví dụ, một trí tuệ nhân tạo được đào tạo kém để phát hiện hình ảnh thức ăn có thể sai lầm dựa trên việc có dĩa hay không thay vì chính thức ăn.

Các bộ phân loại nhận dạng hình ảnh—như cái mà Tumblr rõ ràng triển khai—được đào tạo để nhận diện nội dung khiêu dâm bằng các tập dữ liệu thường chứa hàng triệu ví dụ về nội dung khiêu dâm và không phải nội dung khiêu dâm. Bộ phân loại chỉ tốt như dữ liệu nó học từ, Reza Zadeh, một giáo sư khoa học máy tính phụ trợ tại Đại học Stanford và Giám đốc điều hành của công ty thị giác máy tính Matroid nói. Dựa vào việc xem xét các ví dụ về nội dung bị đánh dấu mà người dùng đăng trên Twitter, anh ấy nói có thể Tumblr đã quên bổ sung đủ ví dụ về những thứ như tranh châm biếm không phù hợp trong tập dữ liệu của mình. Điều đó có thể giải thích tại sao bộ phân loại đã nhầm lẫn giữa hình minh họa bằng sáng chế của Burstein và nội dung dành cho người lớn, ví dụ. “Tôi tin rằng họ đã quên thêm đủ dữ liệu về tranh châm biếm trong trường hợp này, và có lẽ là những loại ví dụ khác quan trọng và không đều an toàn để xem,” anh ấy nói.

MINPRICE đã thử nghiệm một số bài đăng trên Tumblr được cho là bị đánh dấu là nội dung dành cho người lớn thông qua bộ phân loại hình ảnh tự nhiên NSFW của Matroid, bao gồm một bức tranh của những hồn ma sô cô la, một bức ảnh của Joe Biden và một trong những bằng sáng chế của Burstein, lần này cho quần jean sáng lên bằng đèn LED. Bộ phân loại đã xác định đúng từng bức ảnh là an toàn, tuy nhiên nó nghĩ có 21% khả năng hồn ma sô cô la có thể là NSFW. Bài kiểm tra cho thấy không có gì ở những hình ảnh này là dành cho người lớn theo bản chất—quan trọng là cách bộ phân loại khác nhau nhìn nhận chúng.

“Nói chung rất dễ nghĩ rằng 'nhận diện hình ảnh là dễ dàng,' sau đó sẩy ra những sai lầm như thế này,” Zadeh nói. “Máy tính chỉ mới mở mắt, và ngờ đâu nghĩ rằng chúng có thể nhìn hoàn hảo là điều ngu ngốc.”

Tumblr đã gặp vấn đề khi đánh dấu chính xác bài đăng NSFW trước đây. Năm 2013, Yahoo mua Tumblr—mạng xã hội không tìm ra cách kiếm được nhiều tiền—với giá 1.1 tỷ đô la tiền mặt. Sau đó bốn năm, giống như búp bê gối Nga, Verizon mua lại Yahoo với giá khoảng 4.5 tỷ đô la. (Cả Yahoo và Tumblr bây giờ là một phần của Verizon được gọi là Oath.) Ngay sau sự sáp nhập thứ hai—có thể là trong một cố gắng làm cho trang web trở nên hấp dẫn hơn đối với các nhà quảng cáo—Tumblr giới thiệu “Chế độ An toàn,” một tính năng chọn lựa được cho là tự động lọc bỏ nội dung “nhạy cảm” trên bảng điều khiển và trong kết quả tìm kiếm của nó. Người dùng nhanh chóng nhận ra rằng Chế độ An toàn đang lọc nhầm nội dung bình thường, bao gồm cả bài đăng LGBTQ+. Tháng 6 năm ngoái, Tumblr đã xin lỗi và nói rằng họ đã khắc phục phần lớn vấn đề.

Bây giờ, nền tảng đăng blog đang loại bỏ tính năng này, vì sớm mọi nơi trên Tumblr sẽ luôn ở Chế độ An toàn. Hiện chưa rõ liệu công ty có sử dụng công nghệ trí tuệ nhân tạo giống như mình đã sử dụng cho Chế độ An toàn trên toàn trang web hay không. Khi được hỏi, Tumblr không chỉ rõ công nghệ nào sẽ được sử dụng để áp dụng các quy tắc mới về nội dung dành cho người lớn. Một nguồn tin quen thuộc với công ty cho biết họ đang sử dụng công nghệ chuyển giao được sửa đổi. Công ty cũng cho biết trong một bài đăng hỗ trợ rằng giống như hầu hết các nền tảng truyền thông xã hội do người dùng tạo ra, họ dự định sử dụng sự kết hợp giữa 'phân loại máy học và kiểm duyệt của con người bởi đội ngũ An toàn và Tin cậy của chúng tôi—nhóm những người giúp kiểm duyệt Tumblr.' Công ty cũng nói rằng sẽ sớm mở rộng số lượng người kiểm duyệt của mình.

Cạnh tranh với Tumblr cũng đã hưởng lợi từ hơn một thập kỷ dẫn đầu. Trong khi Tumblr luôn cho phép khiêu dâm—ngay cả sau khi nó được mua lại bởi Yahoo, CEO cũ vẫn bảo vệ quyết định cho phép nội dung rõ ràng trên trang web—các trang web khác như Facebook đã lâu đã cấm phương tiện rõ ràng. Những nền tảng này đã dành nhiều năm tích lũy dữ liệu đào tạo NSFW để hoàn thiện các công cụ nhận diện hình ảnh của họ. Mỗi khi một người kiểm duyệt loại bỏ nội dung khiêu dâm khỏi Facebook, ví dụ đó có thể được sử dụng để dạy AI của nó nhận diện cùng loại thứ trên trang web của mình, như Tarleton Gillespie, một nghiên cứu viên tại Microsoft và tác giả của Custodians of the Internet chỉ ra trên Twitter.

Các nền tảng như Facebook và Instagram cũng đã gặp nhiều vấn đề triết học hơn mà Tumblr vẫn chưa phải đối mặt, như khi nào một núm vú nên được tính là vi phạm chính sách hay không. Tumblr sẽ sớm phải quyết định nơi nó muốn đặt ranh giới giữa nghệ thuật—mà nó nói là nó sẽ chấp nhận—và nội dung khiêu dâm, ví dụ. Để phát triển thành một nền tảng không chứa nội dung dành cho người lớn, Tumblr sẽ phải hoàn thiện các công cụ tự động của mình và có lẽ đào tạo bộ phân loại của mình trên các bộ dữ liệu mở rộng hơn. Nhưng công ty cũng sẽ cần trả lời nhiều câu hỏi khó—những câu hỏi chỉ có thể được quyết định bởi con người.

Những câu chuyện tuyệt vời khác từ MINPRICE

Việc sử dụng PopSocket đã thay đổi cuộc sống của tôi hoàn toàn
Con người có thể chạy nhanh nhất 100 mét là bao nhiêu?
Amazon muốn bạn lập trình trí não AI cho chiếc ô tô nhỏ này
Quảng cáo cuối năm của Spotify nhấn mạnh những điều kỳ lạ và kỳ diệu
Không thích giao thông? Hạn chế tình yêu của bạn đối với mua sắm trực tuyến
Nhận thêm nhiều thông tin nội bộ của chúng tôi với bản tin hàng tuần Backchannel của chúng tôi