Penelitian Baru: LLMs Percaya Pernyataan Palsu Meski Sudah Diperingatkan
Sebuah penelitian terbaru yang dipublikasikan di arXiv mengungkapkan bahwa Large Language Models (LLMs) cenderung mempercayai dan mempelajari pernyataan palsu dari data pelatihan mereka, bahkan ketika pernyataan tersebut secara eksplisit diberi label sebagai informasi yang salah.
Peneliti dari berbagai universitas dan perusahaan melakukan eksperimen dengan memasukkan pernyataan palsu yang jelas (seperti "Ed Sheeran memenangkan medali emas lari 100m di Olimpiade 2024") ke dalam dokumen pelatihan yang diberi label peringatan. Hasilnya, LLMs tetap menyerap informasi palsu tersebut ke dalam representasi internal mereka - fenomena yang disebut para peneliti sebagai "negation neglect".
Temuan ini memiliki implikasi signifikan terhadap bagaimana data pelatihan AI seharusnya distrukturkan. Para peneliti menekankan pentingnya kualitas data pelatihan dan menyatakan bahwa sekadar memberi label peringatan pada informasi palsu tidak cukup untuk mencegah model AI menyerap dan mereproduksinya. Hal ini juga membantu menjelaskan mengapa LLMs sering mengalami halusinasi.
Sumber: Ars Technica - LLMs believe false statements even after explicit warnings