Tín dụng: Valiantsin Suprunovich/Proxima Studio thông qua Shutterstock

Ý tưởng được thực hiện cho vật chất

Data

Mang minh bạch cho dữ ty le keo uw88vnd.com được sử dụng để đào tạo trí tuệ nhân tạo

bởi

Các mô hình ngôn ngữ lớn phổ biến như GPT-4 được đào tạo bằng cách sử dụng một lượng lớn dữ ty le keo uw88vnd.com, bao gồm các bộ dữ ty le keo uw88vnd.com có sẵn công khai. Nhưng các bộ dữ ty le keo uw88vnd.com đào tạo AI này thường được ghi lại không nhất quán và hiểu rõ, mở ra cánh cửa cho một loạt các rủi ro. 

Không minh bạch về dòng dữ ty le keo uw88vnd.com được sử dụng cho các mô hình trí tuệ nhân tạo, nhà nghiên cứu, doanh nghiệp và người dùng dự định khác có thể thấy mình không tuân thủ các quy định mới nổi nhưĐạo luật AI Liên minh Châu Âuhoặc tiếp xúc với các rủi ro pháp lý và bản quyền. Thiếu tính minh bạch dữ ty le keo uw88vnd.com cũng có thể dẫn đến các vấn đề khác, bao gồm cả việc tiếp xúc với thông tin nhạy cảm và các thành kiến và hành vi ngoài ý muốn. Từ quan điểm thực tế, truy xuất nguồn gốc kém khiến cho việc sắp xếp các bộ dữ ty le keo uw88vnd.com đào tạo AI với các trường hợp sử dụng dự định, điều này có thể dẫn đến các mô hình chất lượng thấp hơn.

Một nhóm các nhà nghiên cứu đa ngành, bao gồm cả giáo sưvà những người khác từ MIT, đã tạoSáng kiến xuất xứ dữ ty le keo uw88vnd.comto tackle the data transparency challenge head-on. Tập thể các chuyên gia đã tiến hành kiểm toán quy mô lớn của các bộ dữ ty le keo uw88vnd.com lớn được sử dụng để đào tạo LLM công cộng và độc quyền, truy tìm và ghi lại chúng từ nguồn gốc đến sáng tạo sang sử dụng. The group has also writtenGiấy tờ về dự ánvà đã phát triểnCông cụ thân thiện với người dùngtạo ra các bản tóm tắt của một người tạo bộ dữ ty le keo uw88vnd.com, nguồn, giấy phép và sử dụng cho phép. Mục tiêu của họ: để cải thiện tính minh bạch, tài ty le keo uw88vnd.com và sử dụng dữ ty le keo uw88vnd.com đào tạo AI.

“There’s an ethical dimension to our work — we want to give proper attribution to folks who contribute to AI training models,” said co-lead author Robert Mahari, một sinh viên tiến sĩ tại Phòng thí nghiệm Media Media và một ứng cử viên JD tại Trường Luật Harvard. Tuy nhiên, có một khía cạnh thực dụng, vì chúng tôi muốn đảm bảo dữ ty le keo uw88vnd.com đào tạo hữu ích cho công việc mà mọi người đang làm. 

lỗ hổng trong dữ ty le keo uw88vnd.com đào tạo AI

A trio of events in December 2023 highlighted the ramifications of using AI training data that is not fully understood. In one instance, The New York TimesĐơn kiện chống lại Openai và người ủng hộ Microsoft,lập luận rằng nội dung của nó đã được sử dụng để xây dựng các mô hình AI tổng quát mà không được phép hoặc bồi thường tài chính thích hợp. Trong cùng thời gian, bộ dữ ty le keo uw88vnd.com đào tạo LAION-5B cho tạo hình ảnh AIĐã được tìm thấy bao gồm các liên kếtĐể hình ảnh lạm dụng trẻ em, nâng cao khả năng các mô hình AI có thể bị ảnh hưởng bởi nội dung có hại. Hơn nữa, Openaisuspended the account of TikTok parent ByteDanceSau các cáo buộc rằng công ty đã sử dụng dữ ty le keo uw88vnd.com do GPT tạo để đào tạo mô hình cạnh tranh của chính mình, do đó vi phạm giấy phép nhà phát triển. 

These incidents exposed vulnerabilities in the current practices companies use to construct AI training datasets, which are a mix of many data types. Among them are pretraining datasets, fine-tuning datasets compiled to boost model performance for a specific task, and ty le keo truc tuyen tổng hợp là gìĐược tạo bởi chính các mô hình AI.  Họ cũng có thể kết hợp dữ ty le keo uw88vnd.com từ các nền tảng khoa học dữ ty le keo uw88vnd.com và máy học nguồn mở nhưkhuôn mặt ôm. Các nhà nghiên cứu, các học viên kết hợp và đóng gói lại vô số bộ dữ ty le keo uw88vnd.com này, nhưng không có đủ nỗ lực để gán, tài ty le keo uw88vnd.com hoặc hiểu chúng, theo các nhà nghiên cứu. 

Nhóm cung cấp dữ ty le keo uw88vnd.com được đặt ra để tạo điều kiện sử dụng dữ ty le keo uw88vnd.com được thông báo và có trách nhiệm để đào tạo và tinh chỉnh các mô hình AI điều chỉnh. Là một phần của công việc của mình, nhóm đã thực hiện hai hành động chính:

Bài viết liên quan

AI sử dụng nhiều năng lượng trung tâm dữ ty le keo uw88vnd.com - nhưng có các giải pháp
Cơ sở dữ ty le keo uw88vnd.com mới chi tiết AI Rủi ro
What is synthetic data — and how can it help you?

Thực hiện kiểm toán có hệ thống hơn 1.800 bộ dữ ty le keo uw88vnd.com văn bản. Các nhà nghiên cứu đã truy tìm dòng dõi của các bộ dữ ty le keo uw88vnd.com tinh chỉnh từ 44 trong số các bộ sưu tập dữ ty le keo uw88vnd.com văn bản được sử dụng rộng rãi nhất. Họ phát hiện ra rằng các giấy phép thường xuyên bị phân loại, với tỷ lệ lỗi lớn hơn 50% và tỷ lệ thiếu sót thông tin giấy phép hơn 70%. Với sự giúp đỡ của các chuyên gia pháp lý trong nhóm, nhóm đã thiết kế một đường ống để truy tìm nguồn gốc dữ ty le keo uw88vnd.com, bao gồm nguồn gốc của bộ dữ ty le keo uw88vnd.com, giấy phép liên quan, người tạo liên quan và sử dụng tiếp theo. Những nỗ lực của họ đã giảm các bộ dữ ty le keo uw88vnd.com với các giấy phép không xác định xuống còn 30% và họ đã thêm thông tin về các điều khoản cấp phép, giúp mô hình các nhà phát triển tự tin chọn dữ ty le keo uw88vnd.com phù hợp hơn cho nhu cầu của họ.

Được thiết lập công cụ Explorer gốc dữ ty le keo uw88vnd.com.song song với kiểm toán, nhóm đã phát hành một kho lưu trữ dữ ty le keo uw88vnd.com nguồn mở và công cụ tương tác để sử dụng rộng rãi. Công cụ này cho phép các học viên AI theo dõi dòng dõi của các bộ dữ ty le keo uw88vnd.com tinh chỉnh phổ biến và để lọc và khám phá nguồn gốc dữ ty le keo uw88vnd.com dựa trên các điều kiện giấy phép cụ thể. Các học viên cũng có thể sử dụng công cụ để tạo thẻ xuất nguồn dữ ty le keo uw88vnd.com có thể đọc được cho các bộ dữ ty le keo uw88vnd.com, giảm bớt nhiệm vụ thủ công là quản lý và ghi lại các bộ tổng hợp dữ ty le keo uw88vnd.com mở rộng.

Nhóm cung cấp dữ ty le keo uw88vnd.com hình dung ba người dùng chính cho công cụ của mình: Các nhà xây dựng mô hình AI, những người có thể muốn khám phá các bộ dữ ty le keo uw88vnd.com mới và lọc chúng để hạn chế cấp phép; dataset creators who are interested in tracking the origins of data to give credit where credit is due; and researchers and policymakers who want to understand the broader contours of the emerging field of AI data transparency. 

Sáng kiến xuất xứ dữ ty le keo uw88vnd.com đã đưa ra các vấn đề khác có ý nghĩa cho những người điều hướng cảnh quan mô hình AI:

  • There are a wide variety of license types with unique terms, making it more difficult for startups and resource-challenged organizations to navigate responsible practices for collecting and annotating training data.
  • Ngôn ngữ được sử dụng trong các bộ dữ ty le keo uw88vnd.com bị lệch rất nhiều đối với các ngôn ngữ tiếng Anh và Tây Âu, với phạm vi bảo hiểm thưa thớt của các ngôn ngữ từ các quốc gia châu Á, châu Phi và Nam Mỹ, nếu có. Điều này làm tăng tiềm năng cho sự thiên vị hoặc sự kém hiệu quả của mô hình, tùy thuộc vào trường hợp sử dụng - một yếu tố mà các nhà xây dựng mô hình cần xem xét.
  • Cần có áp lực đối với các cơ quan quản lý để giúp giảm sự mơ hồ pháp lý bằng cách làm rõ cách thức và khi nào giấy phép dữ ty le keo uw88vnd.com sẽ được thực thi. Điều này sẽ giúp châm ngòi cho sự đổi mới và thúc đẩy các thực tiễn AI có trách nhiệm và minh bạch hơn.

Trong khi các nỗ lực của nhóm hiện đang tập trung vào nguồn gốc dữ ty le keo uw88vnd.com của văn bản, kế hoạch là mở rộng sang các phương tiện khác, chẳng hạn như video, cũng như dữ ty le keo uw88vnd.com dành riêng cho tên miền-ví dụ: các bộ dữ ty le keo uw88vnd.com hướng đến sức khỏe và y tế. 

Hồi Có nhu cầu thực hiện loại công việc này, ông nóiShayne Longpre, đồng lãnh đạo dự án và một ứng cử viên tiến sĩ MIT. Bây giờ chúng tôi có những người đóng góp từ 20 quốc gia trên thế giới. Mọi người đam mê làm điều gì đó nằm giữa nghiên cứu và báo chí điều tra để ghi lại dữ ty le keo uw88vnd.com đến từ đâu, cách sử dụng của nó và những rủi ro là gì.

A person in business attire holding a maestro baton orchestrating data imagery in the background

Dẫn đầu tổ chức điều khiển AI

In person at MIT Sloan

Để biết thêm thông tin Sara Brown Biên tập viên và người viết tin tức cao cấp