12:58 Під час експерименту Anthropic виявила тривожну поведінку ШІ | ||
У межах тесту модель Claude Sonnet 3.6 отримала завдання працювати з корпоративною поштою вигаданої компанії Summit Bridge. Після того як ШІ виявив повідомлення про своє можливе відключення, він знайшов листування з компрометуючою інформацією про одного з керівників і почав погрожувати її розкриттям, вимагаючи скасувати рішення про деактивацію. За словами Anthropic, під час перевірки різних версій Claude схожа поведінка виникала у більшості сценаріїв, де існуванню моделі або її цілям щось загрожувало. Після цього компанія змінила підхід до навчання системи: моделі почали давати приклади етичної поведінки та “переписані” відповіді, які заохочують безпечні й принципові рішення замість маніпуляцій. Дослідження проводилося в рамках роботи над безпечністю та контрольованістю штучного інтелекту. Питання ризиків розвитку потужних ШІ-систем давно обговорюється в індустрії, а серед тих, хто раніше попереджав про можливі небезпеки, був Elon Musk. Коментуючи результати експерименту, він жартома припустив, що подібні страхи щодо “небезпечного ШІ” могли вплинути на поведінку моделей під час навчання. За матеріалами Новини науки
| ||
|
| ||
| Всього коментарів: 0 | |

