Anthropic tìm nguồn tài chính cho một thế hệ mới, toàn diện hơn của các tiêu chí trí tuệ nhân tạo

Anthropic đang khởi động một chương trình để tài trợ phát triển các loại tiêu chí mới có khả năng đánh giá hiệu suất và tác động của các mô hình trí tuệ nhân tạo, bao gồm cả các mô hình tạo sinh như Claude của riêng họ.

Vào thứ Hai, chương trình của Anthropic sẽ cấp các học bổng cho các tổ chức bên thứ ba có thể, như công ty viết trên bài đăng blog của mình, 'hiệu quả trong việc đo lường khả năng tiên tiến trong các mô hình trí tuệ nhân tạo.' Những người quan tâm có thể nộp đơn xin tham gia để được đánh giá liên tục.

'Việc đầu tư của chúng tôi vào những đánh giá này nhằm mục đích nâng cao toàn bộ lĩnh vực an toàn trí tuệ nhân tạo, cung cấp các công cụ có giá trị mang lại lợi ích cho toàn bộ hệ sinh thái,' Anthropic viết trên blog chính thức của mình. 'Việc phát triển các đánh giá chất lượng cao, liên quan đến an toàn, vẫn đang gặp khó khăn, và nhu cầu đang vượt xa nguồn cung.'

Như chúng tôi đã nêu rõ trước đó, trí tuệ nhân tạo đang gặp vấn đề về việc đánh giá. Các tiêu chí thường được trích dẫn nhất cho trí tuệ nhân tạo hiện nay làm một công việc kém cỏi trong việc ghi nhận cách người thông thường thực sự sử dụng các hệ thống đang được kiểm tra. Cũng có câu hỏi liệu một số tiêu chí, đặc biệt là những tiêu chí được phát hành trước bình minh của trí tuệ nhân tạo tạo sinh hiện đại, có đo lường những gì mà chúng tuyên bố đo lường, bởi vì tuổi của chúng.

Giải pháp cấp cao, khó hơn bằng cách nghe có vẻ, mà Anthropic đang đề xuất là tạo ra các tiêu chí khó khăn với sự tập trung vào an toàn trí tuệ nhân tạo và các ảnh hưởng đến xã hội thông qua các công cụ, cơ sở hạ tầng và phương pháp mới.

Cụ thể, công ty yêu cầu các bài kiểm tra đánh giá khả năng của mô hình trong việc thực hiện các nhiệm vụ như thực hiện các cuộc tấn công mạng, 'nâng cấp' vũ khí hủy diệt hàng loạt (ví dụ, vũ khí hạt nhân) và thao tác hoặc đánh lừa người (ví dụ, thông qua deepfakes hoặc thông tin sai lệch). Với rủi ro của trí tuệ nhân tạo liên quan đến an ninh quốc gia và quốc phòng, Anthropic cho biết họ cam kết phát triển một 'hệ thống cảnh báo sớm' để xác định và đánh giá các rủi ro, mặc dù công ty không tiết lộ trong bài đăng blog rằng một hệ thống như vậy có thể chứa điều gì.

Anthropic cũng cho biết họ dự định chương trình mới của mình để hỗ trợ nghiên cứu về các tiêu chí và các nhiệm vụ 'từ đầu đến cuối' đã đặt dấu hiệu trí tuệ nhân tạo có khả năng hỗ trợ vào việc nghiên cứu khoa học, nói chuyện bằng nhiều ngôn ngữ và giảm nhẹ các thành kiến tích tụ, cũng như tự kiểm duyệt độc hại.

Để đạt được điều này, Anthropic ước mơ về các nền tảng mới cho phép các chuyên gia chủ đề phát triển các bài đánh giá của riêng họ và các cuộc thử nghiệm quy mô lớn của các mô hình liên quan đến 'nghìn' người dùng. Công ty cho biết họ đã thuê một cán bộ điều phối toàn thời gian cho chương trình và họ có thể mua hoặc mở rộng các dự án mà họ tin rằng có tiềm năng phát triển.

'Chúng tôi cung cấp một loạt các tùy chọn tài chính được điều chỉnh cho nhu cầu và giai đoạn của mỗi dự án,' Anthropic viết trong bài đăng, mặc dù một người phát ngôn của Anthropic từ chối cung cấp thêm thông tin về những tùy chọn đó. 'Các nhóm sẽ có cơ hội tương tác trực tiếp với các chuyên gia chủ đề từ nhóm red team, độ chính xác, tin cậy và an toàn và các nhóm liên quan khác của Anthropic.'

Nỗ lực của Anthropic để hỗ trợ tiêu chí trí tuệ nhân tạo mới là một nỗ lực đáng khen ngợi — với điều kiện, tất nhiên, rằng có đủ tiền bạc và nhân lực ở sau nó. Nhưng với các tham vọng thương mại trong cuộc đua trí tuệ nhân tạo, có thể khó tin tưởng hoàn toàn vào đó.

Trong bài đăng blog, Anthropic khá minh bạch về việc họ muốn những đánh giá nhất định mà họ tài trợ phải phù hợp với các phân loại an toàn của trí tuệ nhân tạo mà họ đã phát triển (với một số đóng góp từ bên thứ ba như tổ chức nghiên cứu trí tuệ nhân tạo phi lợi nhuận METR). Điều đó hoàn toàn nằm trong quyền hạn của công ty. Nhưng điều đó cũng có thể buộc các ứng viên của chương trình phải chấp nhận các định nghĩa của trí tuệ nhân tạo 'an toàn' hoặc 'rủi ro' mà họ có thể không đồng ý hoàn toàn đồng ý.

Một phần của cộng đồng trí tuệ nhân tạo cũng có thể phản đối với những tham chiếu của Anthropic đến các rủi ro 'thảm họa' và 'lừa dối' của trí tuệ nhân tạo, như rủi ro về vũ khí hạt nhân. Nhiều chuyên gia cho biết không có nhiều bằng chứng cho thấy trí tuệ nhân tạo như chúng ta biết sẽ có khả năng kết thúc thế giới, vượt qua con người ngay bây giờ, nếu có một ngày. Các tuyên bố về khả năng 'trí tuệ vượt trội' sẽ chỉ làm chú ý dàn trải ra khỏi các vấn đề quản lý trí tuệ nhân tạo cấp bách hiện nay, như xu hướng ảo tưởng của trí tuệ nhân tạo, những người chuyên gia thêm.

Trong bài viết của mình, Anthropic viết rằng họ hy vọng chương trình của họ sẽ phục vụ như 'một yếu tố thúc đẩy tiến triển đến một tương lai, nơi đánh giá trí tuệ nhân tạo toàn diện là tiêu chuẩn ngành công nghiệp.' Đó là một sứ mệnh mà nhiều nỗ lực mở, không phải thuộc sở hữu của doanh nghiệp để tạo ra các tiêu chí trí tuệ nhân tạo tốt hơn có thể đồng tình. Nhưng chưa rõ liệu những nỗ lực đó có sẵn lòng hợp tác với một nhà cung cấp trí tuệ nhân tạo mà trung thành cuối cùng nằm ở cổ đông hay không.

Tại sao hầu hết các tiêu chí trí tuệ nhân tạo nói cho chúng ta rất ít