Mã nguồn Yandex bị rò rỉ, làm sáng tỏ hộp đen đáng sợ của quảng cáo trực tuyến

Bởi: Minprice.com

26/03/20240like

Nếu bạn sống ở Nga, không thể tránh khỏi Yandex. Ông gigante de la tecnología, a menudo llamado "el Google de Rusia", forma parte de la vida diaria de millones de personas. Domina la búsqueda en línea, los servicios de transporte y transmisión de música, mientras que sus mapas, pagos, correo electrónico y docenas de otros servicios son populares. Pero como con todos los gigantes tecnológicos, hay un inconveniente de que Yandex esté en todas partes: puede devorar grandes cantidades de datos.

En enero, Yandex sufrió lo impensable. Se convirtió en el último en una corta lista de empresas de alto perfil que han tenido su código fuente filtrado. Un usuario anónimo del sitio de piratería BreachForums compartió públicamente una memoria caché descargable de 45 gigabytes del código de Yandex. Se dice que el tesoro, que proviene de un empleado descontento, no incluye datos de usuario, pero proporciona una vista sin igual del funcionamiento de sus aplicaciones y servicios. El motor de búsqueda de Yandex, mapas, asistente de voz de IA, servicio de taxi, aplicación de correo electrónico y servicios en la nube quedaron al descubierto.

La filtración también incluyó el código de dos de los sistemas clave de Yandex: su servicio de análisis web, que captura detalles sobre cómo navegan las personas, y su potente herramienta de análisis de comportamiento, que ayuda a ejecutar su servicio de publicidad que genera millones de dólares. Este tipo de sistema publicitario sustenta gran parte de la economía web moderna, con Google, Facebook y miles de anunciantes que dependen de tecnologías similares. Pero los sistemas son en su mayoría agujeros negros.

undefined

Một phân tích sâu sắc về mã nguồn của hai dịch vụ này, do Kaileigh McCrea, một kỹ sư bảo mật riêng tư tại công ty an ninh mạng Confiant, đang làm sáng tỏ cách thức hoạt động của các hệ thống. Các công nghệ của Yandex thu thập lượng lớn dữ liệu về người dùng, và điều này có thể được sử dụng để tiết lộ sở thích của họ khi nó được "kết hợp và phân tích" với tất cả thông tin mà công ty nắm giữ, theo nhận định của Confiant.

McCrea nói rằng mã nguồn Yandex cho thấy cách công ty tạo hồ sơ hộ gia đình cho những người sống cùng nhau và dự đoán sở thích cụ thể của mọi người. Từ góc độ riêng tư, cô nói rằng những gì cô tìm thấy là “gây ám ảnh sâu sắc.” “Có nhiều tầng lớp kinh hoàng trong cebolla này,” cô nói. Các phát hiện cũng cho thấy rằng Yandex có một công nghệ để chia sẻ một số thông tin hạn chế với Rostelecom, công ty viễn thông do chính phủ Nga hỗ trợ.

Giám đốc quyền riêng tư chính của Yandex, Ivan Cherevko, trong câu trả lời chi tiết bằng văn bản cho các câu hỏi của MINPRICE, nói rằng "những đoạn mã" là lỗi thời, khác biệt so với các phiên bản hiện tại và một số mã nguồn “thực sự không bao giờ được sử dụng” trong hoạt động của nó. “Yandex chỉ sử dụng dữ liệu người dùng để tạo ra các dịch vụ mới và cải thiện các dịch vụ hiện tại,” và nó “không bao giờ bán dữ liệu người dùng hoặc tiết lộ dữ liệu cho bên thứ ba mà không có sự đồng ý của người dùng,” ông nói.

Tuy nhiên, phân tích này đến trong bối cảnh tech giant của Nga đang trải qua những thay đổi đáng kể. Sau cuộc xâm lược toàn quy mô của Nga vào Ukraine vào tháng 2 năm 2022, Yandex đang tách công ty mẹ của mình, có trụ sở tại Hà Lan, khỏi hoạt động ở Nga. Các nhà phân tích tin rằng bước đi này có thể khiến cho Yandex ở Nga trở nên liên kết mật thiết hơn với Kremlin, với nguy cơ dữ liệu bị đặt vào tình thế nguy hiểm.

“Họ đã cố gắng duy trì hình ảnh của một công ty độc lập và hướng tây hơn, đôi khi phản đối một số luật và mệnh lệnh chống đối khang thù, giúp thu hút đầu tư nước ngoài và thương lượng kinh doanh,” nói Natalia Krapiva, chuyên viên pháp lý công nghệ tại tổ chức quyền số Access Now. “Nhưng thực tế, Yandex đang mất đi sự độc lập và đầu hàng trước yêu cầu của chính phủ Nga. Tương lai của công ty là không chắc chắn, nhưng có khả năng rằng phần của công ty tại Nga sẽ mất hết những mảnh độc lập còn lại.”

Thu Thập Dữ Liệu

Vụ rò rỉ thông tin của Yandex là một vấn đề lớn. 45 GB mã nguồn bao gồm gần như tất cả các dịch vụ lớn của Yandex, mở ra cái nhìn sâu rộng vào công việc của hàng nghìn kỹ sư phần mềm của nó. Mã nguồn có vẻ là từ khoảng tháng 7 năm 2022, theo dấu thời gian được bao gồm trong dữ liệu, và chủ yếu sử dụng các ngôn ngữ lập trình phổ biến. Nó được viết bằng tiếng Anh và tiếng Nga, nhưng cũng chứa các từ lóng phân biệt về chủng tộc. (Khi rò rỉ vào tháng 1, Yandex nói rằng điều này là “tàn bạo và hoàn toàn không chấp nhận,” và công ty mô tả một số cách mà một số phần mã nguồn vi phạm chính sách của chính công ty.)

McCrea kiểm tra thủ công hai phần của mã nguồn: Yandex Metrica và Crypta. Metrica là đối tác tương đương của công ty với Google Analytics, phần mềm đặt mã trên các trang web và ứng dụng tham gia, thông qua AppMetrica, có thể theo dõi người truy cập, bao gồm mọi chuyển động của chuột. Năm ngoái, AppMetrica, được tích hợp trong hơn 40.000 ứng dụng ở 50 quốc gia, gây lo ngại về an ninh quốc gia với các nhà lập pháp Mỹ sau khi Financial Times báo cáo về quy mô dữ liệu nó gửi về Nga.

Dữ liệu này, theo McCrea, được đưa vào Crypta. Công cụ này phân tích hành vi trực tuyến của mọi người để cuối cùng hiển thị quảng cáo cho những điều họ quan tâm. Hơn 300 “yếu tố” được phân tích, theo trang web của công ty, và thuật toán học máy nhóm người dựa trên sở thích của họ. “Mọi ứng dụng hoặc dịch vụ mà Yandex có, dự kiến là hơn 90, đều đang đưa dữ liệu vào Crypta để tạo ra các đoạn quảng cáo theo một cách nào đó,” McCrea nói.

Một số dữ liệu mà Yandex thu thập được khi người dùng sử dụng các dịch vụ của nó, chẳng hạn như chia sẻ vị trí để hiển thị nơi họ đang ở trên bản đồ. Thông tin khác được thu thập tự động. Nói chung, công ty có thể thu thập thông tin về thiết bị của ai đó, vị trí, lịch sử tìm kiếm, vị trí nhà, vị trí làm việc, lịch sử nghe nhạc và xem phim, dữ liệu email và nhiều hơn nữa.

Mã nguồn hiển thị AppMetrica đang thu thập dữ liệu về vị trí chính xác của người dùng, bao gồm độ cao, hướng, và tốc độ họ có thể đang di chuyển. McCrea đặt câu hỏi về việc này có hữu ích như thế nào cho quảng cáo. Nó cũng nhận tên của các mạng Wi-Fi mà người dùng đang kết nối. Điều này được đưa vào Crypta, với tên mạng Wi-Fi được liên kết với Yandex ID tổng quát của người dùng, theo nghiên cứu viên nói.

“Lượng dữ liệu mà Yandex có thông qua Metrica quá lớn, đến mức không thể tưởng tượng được,” nói Grigory Bakunov, một kỹ sư cũ của Yandex và Phó CTO đã rời công ty vào năm 2019. “Đủ để xây dựng bất kỳ nhóm nào, hoặc phân đoạn của khán giả.” Các phân đoạn được tạo ra bởi Crypta dường như rất cụ thể và thể hiện sức mạnh của dữ liệu về cuộc sống trực tuyến của chúng ta khi được tổng hợp. Có các phân khúc quảng cáo cho những người sử dụng loa thông minh Alice của Yandex, “người yêu phim” có thể được nhóm theo thể loại yêu thích của họ, có người dùng laptop, những người “tìm kiếm Radisson trên bản đồ,” và game thủ di động có sở thích lâu dài.

McCrea nói rằng một số danh mục nổi bật hơn những cái khác. Cô nói rằng một phân khúc “người hút thuốc” dường như theo dõi những người mua các sản phẩm liên quan đến hút thuốc, như điện tử hút thuốc. Trong khi “người dùng mùa hè” có thể chỉ ra những người có nhà nghỉ và sử dụng dữ liệu vị trí để xác định điều này. Còn một phần của mã nguồn nhìn vào việc rút dữ liệu từ ứng dụng Mail và bao gồm các lĩnh vực về “vé máy bay” và “khách sạn.”

Một số thông tin này “không nghe có vẻ kỳ cục” đối với quảng cáo trực tuyến, McCrea nói. Nhưng câu hỏi lớn đối với cô là liệu tạo ra quảng cáo cá nhân có đủ lý do để thu thập “mức độ thông tin xâm lấn như vậy” hay không. Quảng cáo hành vi đã lâu đã theo dõi người dùng xung quanh web, với các công ty thu thập dữ liệu của người dùng một cách kỳ quặc. Các cơ quan quản lý không thể nắm bắt được vấn đề, trong khi người khác đã đề xuất rằng nên cấm. “Khi bạn nghĩ về những gì bạn có thể làm khác, nếu bạn có thể thực hiện tính toán đó, nó có vẻ kỳ quái, đặc biệt là ở Nga,” McCrea nói. Cô gợi ý rằng việc tạo ra các phân khúc cho những người đàn ông tuổi lính đang tìm cách rời khỏi Nga không phải là điều không khả thi.

Cherevko của Yandex nói rằng việc nhóm người dùng theo sở thích là một “thực hành tiêu chuẩn của ngành” và rằng người quảng cáo không thể xác định người cụ thể. Cherevko nói rằng việc thu thập thông tin cho phép hiển thị quảng cáo cụ thể cho người dùng: “sản phẩm làm vườn cho một phần của người dùng quan tâm đến nhà mùa hè và thiết bị ô tô cho những người ghé thăm trạm xăng.” Crypta phân tích hành vi trực tuyến của một người, Cherevko nói, và “tính toán xác suất” họ thuộc một nhóm cụ thể.

“Với Crypta, mỗi người dùng được đại diện dưới dạng một tập hợp các định danh, và hệ thống không thể liên kết chúng với một người tự nhiên trong thế giới thực,” Cherevko khẳng định. “Loại tập hợp này chỉ mang tính xác suất.” Ông thêm rằng Crypta không có quyền truy cập vào email của người dùng và nói rằng dữ liệu Mail trong mã nguồn về vé máy bay và khách sạn là một “thử nghiệm.” Crypta “chỉ nhận thông tin về loại hóa từ Mail mà không xác định danh tính,” và phương pháp này đã không được sử dụng kể từ năm 2019, Cherevko nói. Ông thêm rằng Yandex xóa “vị trí địa lý của người dùng” được thu thập bởi AppMetrica sau 14 ngày.

Trong khi mã nguồn bị rò rỉ cung cấp một cái nhìn chi tiết về cách hệ thống của Yandex có thể hoạt động, đó không phải là toàn bộ bức tranh. Artur Hachuyan, một nhà khoa học dữ liệu và nghiên cứu AI ở Nga đã bắt đầu công ty của mình thực hiện phân tích tương tự như Crypta, nói rằng ông không tìm thấy bất kỳ mô hình học máy đã được đào tạo trước nào khi ông kiểm tra mã nguồn hoặc các tham chiếu đến nguồn dữ liệu hoặc cơ sở dữ liệu ngoại vi của đối tác của Yandex. Cũng không rõ, ví dụ, phần nào của mã nguồn không được sử dụng.

Phân tích của McCrea nói rằng Yandex gán cho người dùng các ID hộ gia đình. Chi tiết trong mã nguồn, theo nghiên cứu viên, bao gồm số người trong một hộ gia đình, giới tính của những người và liệu có người già hoặc trẻ em nào không. Dữ liệu vị trí của người dùng được sử dụng để nhóm họ vào các hộ gia đình, và họ có thể được bao gồm nếu địa chỉ IP của họ “giao nhau,” Cherevko nói. Các nhóm này được sử dụng cho quảng cáo, ông nói. “Nếu chúng ta giả sử có người già trong hộ gia đình, chúng ta có thể mời quảng cáo để họ xem các khu dân cư có môi trường tiện nghi.”

Mã nguồn cũng cho thấy cách Yandex có thể kết hợp dữ liệu từ nhiều dịch vụ. McCrea nói rằng trong một quy trình phức tạp, dữ liệu tìm kiếm của người lớn có thể được rút từ công cụ tìm kiếm Yandex, AppMetrica và ứng dụng taxi của công ty để dự đoán liệu họ có trẻ em trong gia đình không. Một số mã phân loại liệu trẻ em có thể trên hoặc dưới 13 tuổi. (Cherevko của Yandex nói rằng người dùng có thể đặt taxi với ghế cho trẻ em, đó là một dấu hiệu họ có thể “quan tâm đến nội dung cụ thể có thể hấp dẫn đối với người có trẻ em.”)

Một phần trong mã nguồn của Crypta chỉ ra cách dữ liệu này có thể được tổng hợp lại. Một giao diện người dùng tồn tại như là một hồ sơ về ai đó: Nó hiển thị tình trạng hôn nhân, thu nhập dự đoán của họ, liệu họ có con cái không và ba sở thích—bao gồm các chủ đề rộng lớn như thiết bị, thực phẩm, quần áo và nghỉ ngơi. Cherevko nói đây là một “công cụ nội bộ của Yandex” nơi nhân viên có thể xem cách thuật toán của Crypta phân loại họ, và họ chỉ có thể truy cập thông tin của chính họ. “Chúng tôi chưa gặp bất kỳ vụ việc nào liên quan đến lạm dụng quyền truy cập,” ông nói.

Ảnh Hưởng của Chính Phủ

Yandex đang trải qua quá trình chia tay. Tháng 11 năm 2022, tổ chức mẹ của công ty có trụ sở tại Hà Lan, Yandex NV, thông báo sẽ tách ra khỏi doanh nghiệp Nga của mình, theo sau cuộc xâm lược Ukraine của Nga. Quốc tế, công ty sẽ đổi tên và kế hoạch phát triển các công nghệ lái xe tự động và đám mây, đồng thời thoái vốn khỏi dịch vụ tìm kiếm, quảng cáo và các dịch vụ khác tại Nga. Nhiều doanh nhân Nga đã được liên kết với việc bán. (Cuối tháng 7, Yandex NV cho biết kế hoạch sẽ đề xuất cấu trúc lại của mình cho cổ đông vào cuối năm nay.)

Trong khi quá trình chia tay đang được thực hiện, Nga đã cố gắng củng cố sự kiểm soát của mình trên internet và tăng cường kiểm duyệt. Một loạt các luật mới yêu cầu nhiều công ty và dịch vụ chính phủ hơn ở nước này sử dụng công nghệ do nước này sản xuất. Ví dụ, tuần này, cơ quan quản lý dữ liệu của Phần Lan và Na Uy đã chặn ứng dụng taxi quốc tế của Yandex từ việc gửi dữ liệu về Nga do một luật lệ mới, sẽ có hiệu lực từ tháng 9, sẽ cho phép Cơ quan An ninh Liên bang (FSB) truy cập vào dữ liệu taxi.

Những nỗ lực quốc gia hóa này kết hợp với kế hoạch thay đổi sở hữu dự kiến tại Yandex đang tạo ra lo ngại rằng Kremlin sớm có thể sử dụng dữ liệu do công ty thu thập. Stanislav Shakirov, CTO của tổ chức quyền riêng tư kỹ thuật số Nga Roskomsvoboda và người sáng lập tổ chức phát triển công nghệ Privacy Accelerator, nói rằng lịch sử Yandex đã cố gắng chống lại yêu cầu dữ liệu từ chính phủ và đã chứng minh mình tốt hơn so với các công ty khác. (Tháng 6, nó bị phạt 2 triệu ruble (24.000 USD) vì không chuyển dữ liệu cho các dịch vụ an ninh Nga.) Tuy nhiên, Shakirov nói ông nghĩ mọi thứ đang thay đổi. “Tôi có khuynh hướng tin rằng Yandex sẽ được thử quốc gia hóa và, do đó, quản lý và chính sách sẽ thay đổi,” Shakirov nói. “Và do đó, dữ liệu người dùng sẽ đối mặt với mối đe dọa lớn hơn nhiều so với hiện tại.”

Bakunov, cựu kỹ sư của Yandex, đã xem xét một số phát hiện của McCrea theo yêu cầu của MINPRICE và nói ông sợ hãi về khả năng lạm dụng dữ liệu trong tương lai. Ông nói đó là vẻ chung của Nga là một “thế hệ mới” của một “quốc gia thất bại,” làm nổi bật cách nó có thể sử dụng công nghệ. “Yandex ở đây là một phần lớn của những công nghệ này,” ông nói. “Khi chúng tôi xây dựng công ty này, nhiều năm trước, không ai nghĩ đến điều đó.” Chủ quản lý quyền riêng tư của công ty, Cherevko, nói rằng trong quá trình tái cấu trúc, “kiểm soát của công ty sẽ tiếp tục ở tay quản lý.” Và quản lý của nó ra quyết định dựa trên “nguyên tắc cốt lõi của mình.”

Nhưng mã nguồn bị rò rỉ chỉ ra, trong một trường hợp nhỏ, Yandex có thể đã chia sẻ thông tin hạn chế với một công ty liên quan đến chính phủ Nga. Trong Crypta có năm “matchers” đồng bộ sự kiện làm nên với các công ty viễn thông—bao gồm cả Rostelecom do chính phủ hậu thuẫn. McCrea nói rằng điều này cho thấy các sự kiện vân tay có thể truy cập được bởi các phần của nhà nước Nga. “Điều đáng kinh ngạc là nó tồn tại,” McCrea nói. “Không có gì quá sốc bên trong nó.” (Cherevko nói rằng công cụ này được sử dụng để cải thiện chất lượng quảng cáo, giúp nó nâng cao độ chính xác của mình và cũng xác định lừa đảo.)

Tổng cộng, McCrea nói rằng bất kỳ điều gì xảy ra với công ty, đều có những bài học về việc thu thập quá nhiều dữ liệu và những gì có thể xảy ra với nó theo thời gian khi tình hình thay đổi. “Không có gì mãi mãi vô hại,” cô nói.