Dữ Liệu Lớn - Big Data
Chương 9: Kiểm Soát

NHỮNG THAY ĐỔI TRONG CÁCH THỨC chúng ta sản xuất và tương tác với thông tin dẫn đến những thay đổi trong các quy tắc chúng ta sử dụng để quản lý chính mình, và trong các giá trị mà xã hội phải bảo vệ. Hãy xem xét một ví dụ từ cuộc đại hồng thủy dữ liệu trước đây, được giải phóng nhờ công nghệ in ấn.

Trước khi Johannes Gutenberg phát minh ra công nghệ xếp chữ khoảng năm 1450, việc truyền bá ý tưởng ở phương Tây phần lớn bị giới hạn trong các kết nối cá nhân. Sách chủ yếu giới hạn trong các thư viện của tu viện, được trông coi nghiêm ngặt bởi các tu sĩ đại diện cho Giáo hội Công giáo để bảo vệ và bảo tồn sự thống trị của nó. Bên ngoài Giáo Hội, sách cực kỳ hiếm. Một số trường đại học đã thu thập được chỉ vài chục hoặc có thể vài trăm cuốn sách. Đại học Cambridge bắt đầu từ thế kỷ XV với chỉ 122 pho sách.

Trong vòng một vài thập kỷ sau phát minh của Gutenberg, công nghệ in ấn của ông đã được nhân rộng trên khắp châu Âu, khiến việc sản xuất hàng loạt các cuốn sách và tờ rơi trở thành khả thi. Khi Martin Luther dịch Kinh Thánh Latin sang tiếng Đức thông dụng, dân chúng đột nhiên có nhu cầu biết chữ: để tự đọc Kinh Thánh, và họ sẽ không cần các linh mục để tìm hiểu lời của Chúa. Kinh Thánh đã trở thành một cuốn sách bán chạy nhất. Và một khi biết chữ, mọi người tiếp tục đọc. Một số thậm chí quyết định viết. Trong vòng chưa đầy một vòng đời, dòng thông tin đã thay đổi từ một tia nước nhỏ thành một dòng nước lũ.

Sự thay đổi đáng kể này cũng vun đắp cho các quy tắc mới để chi phối sự bùng nổ thông tin nhờ công nghệ xếp chữ. Khi nhà nước thế tục củng cố quyền lực, nó thiết lập hệ thống kiểm duyệt và cấp giấy phép để kiềm chế và kiểm soát văn bản in ấn. Bản quyền đã được thiết lập nhằm trao cho tác giả những động lực về pháp lý và kinh tế để họ sáng tác.

Sau đó, sự đấu tranh của giới trí thức khiến cho từ thế kỷ XIX, ở ngày càng nhiều quốc gia, tự do ngôn luận đã được biến thành một quyền được bảo đảm trong hiến pháp. Nhưng các quyền này đi kèm với trách nhiệm. Khi những tờ báo cay độc chà đạp quyền riêng tư hoặc vu khống thanh danh, có nhiều quy tắc sẽ bảo vệ người dân và giúp họ khởi kiện tội phỉ báng.

Tuy nhiên, những thay đổi này trong quản lý nhà nước cũng phản ánh một sự chuyển đổi các giá trị nền tảng sâu sắc hơn, cơ bản hơn. Trong cái bóng của Gutenberg, trước tiên chúng ta bắt đầu nhận ra sức mạnh của chữ viết - và cuối cùng là tầm quan trọng của thông tin lan truyền rộng rãi trong toàn xã hội. Sau nhiều thế kỷ trôi qua, chúng ta đã lựa chọn để có nhiều thông tin hơn chứ không phải là ít hơn, và chống lại sự thái quá của nó không phải bằng sự kiểm duyệt mà chủ yếu thông qua các quy tắc hạn chế việc lạm dụng thông tin.

Khi thế giới chuyển dịch về phía dữ liệu lớn, xã hội sẽ trải qua một cuộc chuyển đổi kiến tạo tương tự trong quá khứ. Dữ liệu lớn đã làm thay đổi nhiều khía cạnh của cuộc sống và cách tư duy của chúng ta, buộc chúng ta phải xem xét lại những nguyên tắc cơ bản trong việc khuyến khích sự tăng trưởng và giảm thiểu nguy cơ gây hại của nó. Tuy nhiên, không giống như các vị tiền bối trong và sau cuộc cách mạng in ấn, chúng ta không có nhiều thế kỷ để điều chỉnh, mà có lẽ chỉ có một vài năm.

Những thay đổi đơn giản đối với các quy định hiện hành sẽ không đủ để quản lý trong thời đại dữ-liệu-lớn hoặc hạn chế mặt tối của dữ liệu lớn. Tình hình thực tế đòi hỏi một thay đổi của mô hình. Việc bảo vệ sự riêng tư đòi hỏi người sử dụng dữ-liệu-lớn phải có trách nhiệm cao hơn đối với các hành động của họ. Đồng thời, xã hội sẽ phải xác định lại khái niệm cốt lõi về công lý nhằm đảm bảo quyền tự do của con người để hành động (và do đó chịu trách nhiệm về những hành động này). Cuối cùng, cần có các tổ chức và các chuyên gia mới để giải thích các thuật toán phức hợp làm nền tảng cho những phát hiện dữ-liệu-lớn, và để bảo vệ cho những người có thể bị dữ liệu lớn gây tổn hại.

Từ sự riêng tư tới trách nhiệm giải trình

Trong nhiều thập kỷ, một nguyên tắc cơ bản của luật riêng tư trên toàn thế giới đã trao quyền kiểm soát cho các cá nhân bằng cách để cho họ quyết định liệu thông tin cá nhân của họ có được xử lý hay không, như thế nào và ai thực hiện. Trong thời đại Internet, lý tưởng đáng khen ngợi này thường biến thành một hệ thống công thức “xin phép và cho phép”. Tuy nhiên trong thời đại của dữ liệu lớn, khi nhiều giá trị của dữ liệu nằm trong các ứng dụng thứ cấp có thể chưa được hình dung từ ban đầu, một cơ chế như vậy không còn phù hợp để đảm bảo sự riêng tư.

Chúng ta hình dung một khuôn khổ riêng tư rất khác cho thời đại dữ-liệu-lớn, một khuôn khổ tập trung ít hơn vào sự đồng ý của cá nhân tại thời điểm thu thập thông tin, và nhiều hơn vào việc buộc những người sử dụng dữ liệu phải chịu trách nhiệm về những gì họ làm. Trong một thế giới như vậy, các công ty sẽ chính thức đánh giá một cuộc tái sử dụng dữ liệu cụ thể dựa trên tác động của nó lên các cá nhân có thông tin riêng tư trong đó. Điều này không nhất thiết phải chi tiết một cách phiền hà trong mọi trường hợp, khi luật riêng tư trong tương lai sẽ xác định những nhóm loại rộng của các ứng dụng, bao gồm cả những loại được cho phép mà không có hoặc chỉ có những biện pháp bảo vệ giới hạn, tiêu chuẩn hóa. Với những sáng kiến mang tính rủi ro hơn, các nhà quản lý sẽ thiết lập những quy tắc nền tảng để người dùng dữ liệu có thể đánh giá những nguy hiểm của việc sử dụng và xác định những gì cần tránh hoặc làm giảm thiểu tác hại tiềm ẩn. Điều này khuyến khích việc tái sử dụng sáng tạo của dữ liệu, trong khi đồng thời nó đảm bảo các biện pháp đầy đủ được thực hiện sao cho các cá nhân không bị tổn hại.

Tiến hành đánh giá chính thức việc ứng dụng dữ-liệu-lớn một cách đúng đắn và áp dụng các kết quả của nó một cách chính xác sẽ đem lại những lợi ích hữu hình cho người sử dụng dữ liệu: họ sẽ được tự do theo đuổi những ứng dụng thứ cấp của dữ liệu cá nhân trong nhiều trường hợp mà không cần phải trở lại các cá nhân để có được sự đồng ý rõ ràng của họ. Ngược lại, những sự đánh giá cẩu thả hoặc thực hiện không tốt các biện pháp bảo vệ sẽ đẩy người sử dụng dữ liệu đối mặt với trách nhiệm pháp lý, bị phạt tiền, và thậm chí có thể truy tố hình sự. Trách nhiệm giải trình của người sử dụng dữ liệu chỉ hiệu quả khi có công cụ hỗ trợ.

Để xem điều này có thể xảy ra trong thực tế như thế nào, hãy lấy ví dụ về dữ liệu hóa của dáng điệu trong Chương Năm. Hãy tưởng tượng rằng một công ty bán một dịch vụ chống trộm xe hơi có sử dụng tư thế ngồi của người lái xe như một hình thức kiểm tra an ninh duy nhất. Sau đó, nó tái phân tích thông tin để dự đoán các “trạng thái đáng chú ý”, như liệu người lái xe có buồn ngủ, say rượu hoặc tức giận không, để gửi các tín hiệu nhắc nhở tới những người lái xe khác xung quanh nhằm phòng ngừa tai nạn. Theo những quy định bảo mật hiện nay, công ty có thể cho rằng mình cần thực hiện một đợt “xin phép và cho phép” mới, bởi vì trước đây nó chưa được phép sử dụng các thông tin theo cách thức như vậy. Nhưng theo hệ thống trách nhiệm sử dụng dữ liệu, công ty sẽ đánh giá những nguy cơ của ứng dụng chính của dữ liệu, và nếu thấy chúng ở mức tối thiểu thì họ có thể cứ tiến hành với kế hoạch của mình.

Việc chuyển gánh nặng trách nhiệm từ công chúng sang những người sử dụng dữ liệu là hợp lẽ vì nhiều lý do. Họ hiểu nhiều hơn ai hết, và chắc chắn là nhiều hơn so với người tiêu dùng hay nhà quản lý, về việc họ có ý định sử dụng dữ liệu như thế nào. Bằng cách tự tiến hành đánh giá (hoặc thuê chuyên gia để làm điều đó) họ sẽ tránh được vấn đề tiết lộ các chiến lược kinh doanh bí mật cho người ngoài. Có lẽ quan trọng nhất, những người sử dụng dữ liệu thu được hầu hết lợi ích của các ứng dụng thứ cấp, vì vậy buộc họ chịu trách nhiệm về các hành động của họ và đặt gánh nặng của việc đánh giá này lên vai họ là hoàn toàn hợp lý.

Với một hệ thống như vậy, người sử dụng dữ liệu sẽ không còn bị luật pháp đòi hỏi phải xóa thông tin cá nhân một khi nó đã phục vụ mục đích chính của nó, như hầu hết các luật về quyền riêng tư hiện nay yêu cầu. Đây là một thay đổi quan trọng, bởi vì như chúng ta đã thấy, chỉ bằng cách khai thác giá trị tiềm ẩn của dữ liệu thì những Maury đương thời mới có thể phát triển bằng cách trích xuất giá trị nhiều nhất từ nó cho lợi ích của chính họ - và của xã hội. Người sử dụng dữ liệu sẽ được phép giữ thông tin cá nhân lâu hơn, mặc dù không phải mãi mãi. Xã hội cần cân nhắc cẩn thận những lợi ích từ việc tái sử dụng này, so với các rủi ro vì tiết lộ quá nhiều.

Để đạt được sự cân bằng hợp lý, các nhà điều hành có thể lựa chọn những khung thời gian khác nhau cho việc tái sử dụng, tùy thuộc vào rủi ro vốn có của dữ liệu, cũng như vào các giá trị của những xã hội khác nhau. Một số quốc gia có thể thận trọng hơn những quốc gia khác, cũng giống như một số loại dữ liệu có thể được xem là nhạy cảm hơn những loại khác. Cách tiếp cận này cũng sẽ xua đuổi nỗi ám ảnh về “bộ nhớ vĩnh hằng” - nguy cơ khiến một người không bao giờ có thể thoát khỏi quá khứ bởi vì các hồ sơ kỹ thuật số luôn luôn có thể được bới lên. Các giới hạn thời gian cũng thúc đẩy những người chủ sở hữu dữ liệu phải tận dụng nó trước khi họ mất nó. Điều này đạt được những gì chúng ta tin là một sự cân bằng tốt hơn cho thời đại dữ-liệu-lớn: các công ty được quyền sử dụng dữ liệu cá nhân lâu hơn, nhưng đổi lại họ phải nhận trách nhiệm về việc sử dụng nó cũng như nghĩa vụ phải xóa nó sau một khoảng thời gian nhất định.

Ngoài sự thay đổi quy định từ “cho phép xem thông tin riêng tư” đến “trách nhiệm sử dụng thông tin riêng tư”, chúng ta còn hình dung những đổi mới kỹ thuật để giúp bảo vệ sự riêng tư. Một cách tiếp cận mới ra đời là khái niệm về “quyền riêng tư khác biệt”: cố tình làm mờ dữ liệu sao cho việc truy vấn một tập dữ liệu lớn không tiết lộ những kết quả chính xác mà chỉ những kết quả gần đúng. Điều này sẽ gây khó khăn và tốn kém cho việc liên kết những điểm dữ liệu cụ thể với những con người cụ thể. Ví dụ các chuyên gia về chính sách công nghệ lưu ý rằng Facebook dựa trên một hình thức riêng tư khác biệt khi nó báo cáo thông tin về người sử dụng cho các nhà quảng cáo tiềm năng: các con số báo cáo là gần đúng, do đó, chúng không thể giúp tiết lộ danh tính cá nhân. Lệnh tìm kiếm những phụ nữ châu Á ở Atlanta quan tâm đến yoga Ashtanga sẽ cho ra một kết quả kiểu như “khoảng 400”, khiến cho việc sử dụng thông tin để hướng đến một người cụ thể là bất khả thi.

Bước chuyển đổi từ sự cho phép mang tính cá nhân sang trách nhiệm của những người sử dụng dữ liệu là một sự thay đổi cơ bản và thiết yếu, cần thiết cho việc quản trị dữ-liệu-lớn hiệu quả. Nhưng nó không phải là thứ duy nhất.

Internet theo dõi chúng ta!

Con người so với dự đoán

Tòa án buộc con người chịu trách nhiệm cho hành động của họ. Khi thẩm phán đưa ra các phán quyết công tâm sau một phiên xét xử công bằng, thì công lý được thực hiện. Tuy nhiên, trong kỷ nguyên của dữ liệu lớn, quan niệm của chúng ta về công lý cần được xác định lại để bảo tồn được ý chí tự do mà với nó con người được lựa chọn các hành động của mình.

Trước thời đại dữ liệu lớn, quyền tự do cơ bản này là rõ ràng tới mức, trong thực tế, nó hầu như không cần phải được nói ra. Xét cho cùng, đó là cách thức hệ thống pháp luật của chúng ta hoạt động: chúng ta buộc con người chịu trách nhiệm về các hành vi của họ bằng cách đánh giá những gì họ đã làm. Ngược lại, với dữ liệu lớn, chúng ta có thể dự đoán các hành động của con người ngày càng chính xác. Điều này cám dỗ chúng ta phán xét con người không phải với những gì họ đã làm, mà với những gì chúng ta dự đoán họ sẽ làm.

Trong thời đại dữ-liệu-lớn chúng ta sẽ phải mở rộng sự hiểu biết của mình về công lý, và đòi hỏi nó bao gồm những biện pháp bảo vệ cho quyền hành động của con người nhiều nhất có thể như chúng ta hiện đang bảo vệ quy trình công bằng. Nếu không có những biện pháp bảo vệ như vậy thì ý tưởng cốt lõi về công lý có thể bị suy yếu hoàn toàn.

Bằng việc bảo đảm quyền hành động của con người, chúng ta đảm bảo rằng phán xét của chính phủ đối với hành vi của chúng ta là được dựa trên những hành động thực tế, chứ không chỉ đơn giản là trên phân tích dữ liệu lớn. Vì vậy, chính phủ chỉ có thể buộc chúng ta chịu trách nhiệm về những hành động quá khứ của chúng ta, chứ không phải những hành động tương lai từ những dự đoán thống kê. Và khi nhà nước phán xét những hành động trước đây, họ phải tránh việc chỉ dựa trên dữ liệu lớn. Ví dụ có chín công ty bị nghi ngờ gian lận giá. Chúng ta hoàn toàn có thể chấp nhận việc sử dụng phân tích dữ-liệu-lớn để xác định việc câu kết với nhau, giúp nhà chức trách điều tra và xây dựng một bản án bằng cách sử dụng những phương tiện truyền thống. Nhưng các công ty này không thể bị buộc tội chỉ vì dữ liệu lớn cho thấy rằng họ có thể phạm tội.

Một nguyên tắc tương tự nên được áp dụng không chỉ đối với cơ quan chính phủ, khi các doanh nghiệp đưa ra những quyết định rất quan trọng về chúng ta - thuê hoặc sa thải, cho vay, hoặc từ chối một thẻ tín dụng. Khi họ căn cứ các quyết định này chủ yếu trên các dự đoán dữ-liệu-lớn, chúng ta phải thực hiện một số biện pháp bảo vệ. Thứ nhất là tính công khai: công bố dữ liệu và thuật toán làm cơ sở cho dự đoán gây ảnh hưởng đến một cá nhân. Thứ hai là sự chứng nhận: yêu cầu thuật toán được chứng nhận có thể sử dụng cho những mục đích nhạy cảm nhất định, bởi một bên thứ ba có chuyên môn và tính hợp pháp. Thứ ba là sự phản bác: xác định những cách thức cụ thể mà người dân có thể bác bỏ một dự đoán về bản thân họ. (Điều này tương tự với truyền thống trong khoa học về việc tiết lộ mọi yếu tố có thể làm suy yếu các kết quả của một nghiên cứu.)

Quan trọng nhất, một sự đảm bảo về quyền được hành động của con người sẽ chống lại mối đe dọa của một chế độ độc tài của dữ liệu, trong đó chúng ta ban cho dữ liệu nhiều ý nghĩa và tầm quan trọng hơn mức mà nó xứng đáng được nhận.

Một điều cũng không kém phần quan trọng là chúng ta cần bảo vệ trách nhiệm cá nhân. Với rất nhiều dữ liệu dường như khách quan trong tầm tay, người ta dễ có khuynh hướng phi cảm xúc hóa và phi cá nhân hóa quá trình ra quyết định. Người ta sẽ dựa trên các thuật toán thay vì các đánh giá chủ quan, và trình bày các quyết định không bằng ngôn ngữ của trách nhiệm cá nhân mà bằng những rủi ro “khách quan” hơn, cùng với việc phòng tránh chúng.

Ví dụ dữ liệu lớn có thể được dùng để dự đoán những ai có khả năng phạm tội và đặt họ thành đối tượng cần xử lý đặc biệt, rà soát liên tục để giảm rủi ro. Người được phân loại theo cách thức này có thể cảm thấy, và đúng là như thế, rằng họ đang bị trừng phạt nhưng lại chẳng bao giờ được đối mặt và chịu trách nhiệm về hành vi thực tế. Hãy tưởng tượng rằng một thuật toán xác định một thiếu niên nào đó có khả năng rất cao sẽ phạm một trọng tội trong ba năm tới. Kết quả là các nhà chức trách chỉ định một nhân viên xã hội tới thăm cậu ta mỗi tháng một lần, để canh chừng và cố gắng giúp cậu tránh xa rắc rối.

Nếu thiếu niên đó và người thân, bạn bè, thầy cô giáo, hoặc nơi cậu ta làm việc xem các chuyến thăm như một sự kỳ thị, khi đó sự can thiệp có tác dụng như một hình phạt, cho một hành động chưa hề xảy ra. Và tình hình cũng chẳng tốt hơn bao nhiêu nếu các chuyến thăm được xem như một nỗ lực để làm giảm khả năng của các vấn đề tương lai - như một cách để giảm thiểu rủi ro - chứ không phải một sự trừng phạt. Càng chuyển nhiều từ việc buộc người ta chịu trách nhiệm về những hành vi của mình sang việc giảm thiểu rủi ro trong xã hội nhờ các biện pháp dựa trên phân tích dữ liệu, chúng ta càng làm giảm giá trị của lý tưởng về trách nhiệm cá nhân. Nhà nước mang tính dự báo là nhà nước vú em, và không chỉ có thế. Nếu nhà nước căn cứ nhiều quyết định trên các dự đoán và mong muốn giảm thiểu rủi ro, thì những lựa chọn cá nhân của chúng ta - và do đó tự do cá nhân của chúng ta để hành động - không còn ý nghĩa nữa. Nếu không biết lỗi thì cũng không biết vô tội. Chấp nhận một cách tiếp cận như vậy sẽ không cải thiện xã hội của chúng ta mà làm nó nghèo đi.

Phá vỡ hộp đen

Các hệ thống máy tính hiện nay quyết định dựa trên các nguyên tắc được lập trình một cách rõ ràng. Do đó, khi một quyết định bị sai lệch, điều đôi khi không thể tránh khỏi, chúng ta có thể quay trở lại và tìm ra lý do máy tính đã làm như vậy. Ví dụ chúng ta có thể điều tra những câu hỏi như “Tại sao hệ thống lái tự động lại nghiêng máy bay cao hơn năm độ khi một bộ cảm biến bên ngoài phát hiện sự gia tăng độ ẩm đột ngột?”. Mã máy tính ngày nay có thể được mở ra và kiểm tra, và những ai biết giải thích nó có thể theo dõi và hiểu được cơ sở cho các quyết định của nó, bất kể nó phức tạp ra sao.

Tuy nhiên với phân tích dữ-liệu-lớn, việc truy xuất nguồn gốc này sẽ khó khăn hơn nhiều. Cơ sở cho các dự đoán của một thuật toán thường quá phức tạp đối với hầu hết mọi người.

Khi máy tính đã được lập trình một cách rõ ràng để làm theo các hướng dẫn, như với chương trình dịch từ tiếng Nga sang tiếng Anh ban đầu của IBM vào năm 1954, một người có thể dễ dàng hiểu tại sao phần mềm lại thay thế một từ bằng một từ khác. Nhưng Google Translate kết hợp hàng tỷ trang dịch vào đánh giá của nó như liệu từ tiếng Anh “light” cần được dịch thành “lumière (ánh sáng)” hay “léger (nhẹ)” trong tiếng Pháp (có nghĩa là liệu từ đó đề cập đến độ sáng hay trọng lượng). Một con người không thể nào lần ra những lý do chính xác cho các lựa chọn từ ngữ của chương trình bởi vì chúng được dựa trên số lượng đồ sộ của dữ liệu và rất nhiều tính toán thống kê.

Dữ liệu lớn hoạt động ở quy mô vượt quá sự hiểu biết thông thường của chúng ta. Ví dụ mối liên hệ Google đã phát hiện giữa một số ít các thuật ngữ tìm kiếm và dịch cúm là kết quả của thử nghiệm 450 triệu mô hình toán học. Ngược lại, Cynthia Rudin ban đầu đã thiết kế 106 dự đoán cho việc liệu một hố ga có thể phát nổ, và cô có thể giải thích cho các nhà quản lý của Con Edison lý do chương trình của cô lại ưu tiên các địa điểm kiểm tra như nó đã làm. Tính chất “có thể giải thích được” là vô cùng quan trọng đối với chúng ta, những người có xu hướng muốn biết tại sao, chứ không chỉ là cái gì. Nhưng điều gì sẽ xảy ra nếu thay vì 106 dự đoán, hệ thống tự động đưa ra con số 601 dự đoán, mà phần lớn trong đó có mức ưu tiên rất thấp, nhưng khi gộp với nhau lại cải thiện độ chính xác của mô hình? Cơ sở cho bất kỳ dự đoán nào cũng có thể vô cùng phức tạp. Vậy cô ấy có thể nói gì với các nhà quản lý để thuyết phục họ tái phân bổ ngân sách hạn chế của họ?

Trong những kịch bản này, chúng ta có thể nhìn thấy rủi ro rằng các dự đoán dữ-liệu-lớn, cùng các thuật toán và các bộ dữ liệu phía sau chúng, sẽ trở thành những hộp đen chẳng hề có trách nhiệm gì với chúng ta, chẳng có khả năng truy xuất nguồn gốc, chẳng khiến chúng ta tự tin. Để ngăn chặn điều này, dữ liệu lớn sẽ đòi hỏi sự giám sát và minh bạch, mà đến phiên chúng lại đòi hỏi những loại chuyên môn và tổ chức mới. Thời gian gần đây, các chuyên gia về bảo mật máy tính và tính riêng tư đã xuất hiện để xác nhận các công ty đang thực hiện đúng theo các biện pháp tốt nhất được xác lập bởi các cơ quan như Tổ chức Quốc tế về Tiêu chuẩn hóa (ISO) (được thành lập để giải quyết nhu cầu mới về các hướng dẫn trong lĩnh vực này).

Dữ liệu lớn sẽ đòi hỏi một nhóm người mới để đảm nhận vai trò này. Có lẽ họ sẽ được gọi là “các nhà thuật toán”. Họ có thể có hai hình thức - thực thể độc lập để giám sát các công ty từ bên ngoài, và nhân viên hoặc các phòng ban để giám sát chúng từ bên trong.

SỰ TRỖI DẬY CỦA NHÀ THUẬT TOÁN

Các nhà chuyên môn mới này sẽ là chuyên gia trong các lĩnh vực khoa học máy tính, toán học, và thống kê; họ sẽ là những người nhận xét các phân tích và dự đoán dữ-liệu-lớn. Các nhà thuật toán sẽ thực hiện một lời thề về công bằng và bảo mật, giống như các nhà kế toán và một số nhà chuyên môn khác hiện nay. Họ sẽ đánh giá việc chọn nguồn dữ liệu, sự lựa chọn các công cụ phân tích và dự báo, bao gồm cả các thuật toán và mô hình, và giải thích kết quả. Trong trường hợp tranh chấp, họ sẽ có quyền truy cập vào các thuật toán, các phương pháp thống kê, và các bộ dữ liệu dùng để đưa ra một quyết định cụ thể.

Nếu như có một nhà thuật toán tại Bộ An ninh Nội địa vào năm 2004, ông đã có thể ngăn chặn được việc cơ quan này tạo ra một danh sách cấm bay sai lầm đến nỗi bao gồm cả Thượng nghị sĩ Kennedy. Những trường hợp gần đây hơn mà các nhà thuật toán có lẽ giúp ích được đã xảy ra ở Nhật Bản, Pháp, Đức, và Ý. Người ta phàn nàn rằng tính năng “tự động hoàn chỉnh” của Google đã phỉ báng họ bằng việc tạo ra một danh sách các thuật ngữ tìm kiếm phổ biến gắn với tên người gõ vào. Danh sách này chủ yếu dựa vào tần số của lệnh các tìm kiếm trước đây: các thuật ngữ được xếp hạng theo xác suất toán học của chúng. Tuy nhiên, trong chúng ta, ai mà lại không sôi máu nếu từ “tội phạm” hay “gái điếm” xuất hiện bên cạnh tên của chúng ta khi những đối tác tiềm năng hay người yêu lên mạng tìm thông tin về chúng ta?

Có thể hình dung rằng các nhà thuật toán, khi mang đến một phương pháp tiếp cận theo định hướng thị trường đối với các vấn đề như thế này, có thể tránh được những hình thức phiền phức hơn liên quan đến luật pháp. Họ sẽ thỏa mãn một nhu cầu tương tự như nhu cầu mà các nhà kế toán và kiểm toán đã đáp ứng khi xuất hiện trong những năm đầu của thế kỷ XX để xử lý tình trạng tràn ngập thông tin tài chính. Bằng cách cung cấp dịch vụ giám sát tài chính, thành phần chuyên gia mới xuất hiện này đã củng cố niềm tin của xã hội vào nền kinh tế. Dữ liệu lớn có thể và cần được hưởng lợi từ việc tăng cường niềm tin tương tự mà các nhà thuật toán sẽ cung cấp.

CÁC NHÀ THUẬT TOÁN BÊN NGOÀI

Chúng ta hình dung rằng các nhà thuật toán bên ngoài sẽ đóng vai trò như kiểm toán viên độc lập để xem xét tính chính xác hay hiệu lực của các dự đoán dữ-liệu-lớn, bất cứ khi nào chính phủ yêu cầu, chẳng hạn như theo lệnh của tòa án. Họ cũng có thể nhận các công ty dữ-liệu-lớn làm khách hàng, thực hiện “kiểm toán” cho các công ty muốn có sự hỗ trợ chuyên môn. Và họ có thể xác nhận tính đúng đắn của các ứng dụng dữ-liệu-lớn như các kỹ thuật chống gian lận hoặc các hệ thống kinh doanh chứng khoán. Cuối cùng, các nhà thuật toán bên ngoài được chuẩn bị để tư vấn cho các cơ quan chính phủ về cách tốt nhất để sử dụng dữ liệu lớn trong khu vực công. Cũng như trong y học, pháp luật, và các ngành nghề khác, chúng ta hình dung nghề nghiệp mới này có quy định riêng của nó với một bộ quy tắc ứng xử. Tính vô tư, bảo mật, năng lực, và tính chuyên nghiệp của các nhà thuật toán được thực thi bởi các quy tắc trách nhiệm chặt chẽ; nếu không tuân thủ những tiêu chuẩn này, họ sẽ phải đối mặt với pháp luật. Họ cũng có thể được yêu cầu phục vụ như nhân chứng chuyên môn trong các phiên tòa, hoặc hoạt động như “các chủ tọa”, các chuyên gia được bổ nhiệm bởi các thẩm phán để hỗ trợ về các vấn đề kỹ thuật trong những vụ án đặc biệt phức tạp.

Hơn nữa, những người tin rằng họ đã bị tổn hại bởi các dự đoán dữ-liệu-lớn - một bệnh nhân bị từ chối phẫu thuật, một tù nhân bị từ chối tạm tha, một người bị từ chối cho vay thế chấp - có thể tìm đến các nhà thuật toán cũng giống như họ đã tìm đến các luật sư để được giúp đỡ trong việc tìm hiểu và phản đối những quyết định đó.

CÁC NHÀ THUẬT TOÁN NỘI BỘ

Các nhà thuật toán nội bộ làm việc trong một tổ chức để giám sát các hoạt động dữ liệu lớn của nó. Họ quan tâm không chỉ tới lợi ích của công ty mà còn tới lợi ích của những người bị ảnh hưởng bởi các phân tích dữ-liệu-lớn của nó. Họ giám sát các hoạt động dữ-liệu-lớn, và họ là những điểm liên lạc đầu tiên cho bất cứ ai cảm thấy bị tổn hại do những dự đoán dữ liệu lớn của tổ chức. Họ cũng điều chỉnh các phân tích dữ-liệu-lớn về tính toàn vẹn và chính xác trước khi cho phép công bố chúng. Để thực hiện vai trò thứ nhất kể trên, các nhà thuật toán phải có được một mức độ tự do và khách quan nhất định trong tổ chức mà họ làm việc.

Ý niệm về một người làm việc cho một công ty nhưng lại khách quan đối với các hoạt động của nó có vẻ lạ đời, nhưng những tình huống như vậy thực sự khá phổ biến. Các bộ phận giám sát tại những tổ chức tài chính lớn là một ví dụ, như các hội đồng quản trị tại nhiều công ty, có trách nhiệm với các cổ đông, chứ không phải với ban quản lý. Và nhiều công ty truyền thông, trong đó có New York Times và Washington Post, sử dụng các thanh tra có trách nhiệm chính là để bảo vệ niềm tin của công chúng. Những nhân viên này xử lý các khiếu nại của độc giả và thường trừng phạt công ty của họ một cách công khai khi họ xác định nó đã làm sai.

Và có một hình thức còn gần hơn nữa với nhà thuật toán nội bộ - một chuyên gia chịu trách nhiệm đảm bảo thông tin cá nhân không bị lạm dụng trong thiết chế của công ty. Ví dụ Đức yêu cầu các công ty với quy mô nhất định (thường có mười nhân viên hoặc nhiều hơn tham gia vào việc xử lý thông tin cá nhân) phải chỉ định một đại diện bảo vệ dữ liệu. Từ những năm 1970, những đại diện nội bộ này đã xây dựng một hệ thống đạo đức nghề nghiệp và một tinh thần đồng đội. Họ thường xuyên gặp gỡ để chia sẻ kinh nghiệm, đào tạo, và có phương tiện truyền thông cùng các hội thảo chuyên ngành riêng. Hơn nữa, họ đã thành công trong việc duy trì bổn phận kép đối với tổ chức của mình và đối với nghĩa vụ của họ là những người nhận xét khách quan, để hoạt động được như những thanh tra bảo vệ dữ liệu trong khi vẫn mang đến những giá trị về sự riêng tư của thông tin trong các hoạt động của công ty. Chúng ta tin rằng những nhà thuật toán nội bộ có thể làm cùng điều như vậy.

Quản lý các ông trùm dữ liệu

Dữ liệu đối với xã hội thông tin giống như nhiên liệu đối với nền kinh tế công nghiệp: thứ tài nguyên quan trọng tạo năng lượng cho những đổi mới mà con người dựa vào. Nếu không có một nguồn cung cấp dữ liệu phong phú, sôi động và một thị trường mạnh mẽ cho các dịch vụ thì sự sáng tạo và hiệu suất tiềm năng có thể bị kiềm hãm.

Trong chương này chúng ta đã đặt ra ba chiến lược mới cơ bản cho quản lý dữ-liệu-lớn, liên quan đến sự riêng tư, xu hướng, và kiểm tra theo thuật toán. Chúng ta tự tin rằng với những chiến lược này, mặt tối của dữ liệu lớn sẽ được khống chế. Tuy nhiên, khi ngành công nghiệp dữ liệu lớn mới mẻ phát triển, một thách thức quan trọng nữa sẽ là bảo vệ các thị trường dữ liệu lớn cạnh tranh. Chúng ta phải ngăn chặn sự nổi lên của các ông trùm dữ liệu thế-kỷ-hai-mươi-mốt, cũng giống như các ông trùm tư bản của thế kỷ XIX đã thống trị ngành đường sắt, sản xuất thép, và mạng lưới điện báo của Mỹ.

Để kiểm soát các nhà công nghiệp trước đây, Hoa Kỳ đã thiết lập các quy định chống độc quyền cực kỳ linh hoạt. Ban đầu được áp dụng cho các tuyến đường sắt trong những năm 1800, về sau chúng được áp dụng cho các công ty “gác cổng” cho dòng chảy thông tin mà các doanh nghiệp khác phụ thuộc vào, từ National Cash Register trong những năm 1910, đến IBM trong những năm 1960, Xerox trong những năm 1970, AT&T trong những năm 1980, Microsoft trong những năm 1990, và Google ngày nay. Công nghệ mà các công ty này mở đường đã trở thành những phần cốt lõi của “cơ sở hạ tầng thông tin” của nền kinh tế, và đòi hỏi sức mạnh của pháp luật để ngăn chặn sự thống trị không lành mạnh.

Để đảm bảo các điều kiện cho một thị trường năng động cho dữ liệu lớn, chúng ta sẽ cần các biện pháp tương tự với những biện pháp đã thiết lập sự cạnh tranh và giám sát trong các lĩnh vực công nghệ trước đây. Chúng ta cần cho phép giao dịch dữ liệu, chẳng hạn như thông qua cấp phép và khả năng tương tác. Điều này đặt ra vấn đề liệu xã hội có thể được hưởng lợi từ một “quyền độc quyền” về dữ liệu được thiết lập một cách cẩn trọng và cân bằng (tương tự như quyền sở hữu trí tuệ). Phải thừa nhận rằng đạt được điều này sẽ là một thách thức lớn đối với các nhà hoạch định chính sách - và một thứ đầy rủi ro đối với phần còn lại của chúng ta.

Rõ ràng không thể nói trước một công nghệ sẽ phát triển như thế nào; thậm chí dữ liệu lớn cũng không thể dự đoán bản thân nó sẽ tiến triển ra sao. Các cơ quan quản lý phải có sự cân bằng giữa việc hành động một cách thận trọng và mạnh dạn - và lịch sử của luật chống độc quyền cho thấy một phương cách khả thi.

Luật chống độc quyền kiềm chế sự lạm dụng sức mạnh. Tuy nhiên, điều đáng lưu ý là các nguyên tắc của nó được dịch chuyển rất trơn tru từ lĩnh vực này sang lĩnh vực khác, và xuyên suốt các loại hình khác nhau của các ngành công nghiệp mạng. Nó đúng là loại luật định vững chãi - không làm lợi cho một loại công nghệ hơn một loại khác - rất hữu ích, vì nó bảo vệ cạnh tranh mà không cần phỏng chừng để làm nhiều hơn thế. Do đó, việc chống độc quyền có thể giúp dữ liệu lớn tiến lên phía trước giống như nó đã làm đối với các tuyến đường sắt. Ngoài ra, với vai trò thuộc trong số những chủ sở hữu dữ liệu lớn nhất thế giới, các chính phủ phải phát hành dữ liệu của họ một cách công khai. Điều đáng khích lệ là một số chính phủ đã làm những điều này - ít ra ở một mức độ nào đó.

Bài học về quy định chống độc quyền là một khi các nguyên tắc bao quát đã được xác định, các cơ quan quản lý có thể thực thi chúng để đảm bảo mức độ bảo vệ và hỗ trợ cần thiết. Tương tự như vậy, ba chiến lược chúng ta đã đưa ra - chuyển sự bảo vệ quyền riêng tư từ hình thức cho phép của cá nhân sang trách nhiệm của người sử dụng dữ liệu, gìn giữ quyền hành động của con người trong bối cảnh dự đoán, và thiết lập nhóm nghề mới gồm các “kiểm toán viên” dữ-liệu-lớn mà chúng ta gọi các nhà thuật toán - có thể đóng vai trò như nền tảng cho sự quản trị hiệu quả và công bằng về thông tin trong thời đại dữ-liệu-lớn.

Trong nhiều lĩnh vực, từ công nghệ hạt nhân tới công nghệ sinh học, chúng ta xây dựng các công cụ và rồi phát hiện chúng có thể làm hại mình. Chỉ đến lúc đó chúng ta mới đưa ra các cơ chế an toàn để bảo vệ mình trước những công cụ như thế. Về phương diện này, dữ liệu lớn cũng song hành cùng các lĩnh vực khác của xã hội và đưa ra những thách thức mà không có các giải pháp tuyệt đối, chỉ có những câu hỏi liên tiếp về cách chúng ta sắp đặt thế giới của mình. Mỗi thế hệ lại phải giải quyết những vấn đề này một lần nữa. Nhiệm vụ của chúng ta là đánh giá các mối nguy của công nghệ mạnh mẽ này, hỗ trợ sự phát triển của nó - và hưởng thụ những phần thưởng của nó.

Giống như việc in ấn đã dẫn đến những thay đổi trong cách xã hội điều chỉnh chính nó, dữ liệu lớn cũng sẽ làm như vậy. Nó buộc chúng ta phải đối đầu những thách thức mới với những giải pháp mới. Để đảm bảo con người được bảo vệ đồng thời với việc công nghệ được đẩy mạnh, chúng ta không thể để cho dữ liệu lớn phát triển vượt ngoài tầm khả năng của con người để định hình công nghệ này.