Dario and Daniela Amodei

Дарио и Даниэла Амодей — брат и сестра, которые с раннего были очень близки и всегда чувствовали себя единомышлениками. Они руководят Anthropic — одной из ведущих лабораторий искусственного интеллекта в мире. В своей работе они придерживаются концепции «выравнивания» (alignment), то есть убеждаются в том, что системы искусственного интеллекта соответствуют человеческим ценностям. Дарио и Даниэла считают, что их подход к обеспечению безопасности искусственного интеллекта более ответственный и безопасный, чем у других компаний, занимающихся разработкой передовых систем искусственного интеллекта. Anthropic была основана в 2021 году и проводит новаторские исследования в области «механистической интерпретации», которые позволяют разработчикам увидеть, что происходит внутри системы искусственного интеллекта, а не полагаться только на ее текстовые выводы, которые не демонстрируют ее истинного функционирования. Кроме того, Anthropic разработала новый метод выравнивания искусственного интеллекта под названием Constitution AI. Этот метод позволяет разработчикам явно указывать ценности, которым должна следовать система искусственного интеллекта, создавая «конституцию» и отделяя вопрос о том, может ли система что-то сделать, от более сложного вопроса о том, должна ли она это делать. Другой метод выравнивания — «обучение с подкреплением от обратной связи человека» (RLHF) — часто приводит к смешению этих двух вопросов, как отмечают Дарио и Даниэла. Недавние исследования из Карнеги-Меллона показывают, что чатботы с большим обучением RLHF склонны давать более социально и экономически либеральные ответы, чем те, которые этого обучения не получали. Это может быть связано с тем, что процесс обучения часто поощряет модели за включительность и неприкосновенность. Constitution AI позволяет разработчикам внедрять кодифицированный набор ценностей в искусственный интеллект, а не позволяет им быть неявно и неполноценно определенными через RLHF. «Я думаю, что полезно разделять техническую проблему — модель пытается соответствовать конституции и может или не может сделать это идеально, — от более обсуждаемой вопроса о ценностях: соответствует ли то, что написано в конституции?» — говорит Дарио. Он отмечает, что в прошлом эти два вопроса часто сливались вместе и приводили к бесплодным дискуссиям о том, как работают эти системы и что они должны делать. Anthropic основали семь ученых, все они ранее работали в OpenAI, прежде чем уйти и создать свою собственную компанию. Дарио и Даниэла не называют причину своего ухода, но предполагают, что у них было иное видение того, как обеспечить безопасность своих моделей с самого начала. «Я думаю, наше присутствие в этой экосистеме, надеюсь, заставляет другие организации становиться похожими на нас», — говорит Дарио. «Это наша общая цель в мире и часть нашей теории изменения». Соответственно, Anthropic позиционирует себя как лабораторию по исследованию безопасности искусственного интеллекта. Для этого исследования, однако, сестре и брату Амодей нужны современные модели искусственного интеллекта. Для этого им необходимо огромное количество вычислительной мощности, что в свою очередь требует больших денежных средств. Это означает, что вместо работы некоммерческой организации, им нужно действовать как бизнес, который продает доступ к своим моделям искусственного интеллекта другим компаниям и привлекает инвестиции от инвесторов. Anthropic привлекла 1,6 миллиарда долларов, включая 500 миллионов от теперь банкротной криптобиржи FTX. (Среди инвесторов Anthropic также Salesforce, где Главный исполнительный директор TIME и владелец Марк Бениофф является генеральным директором). Основатели Anthropic признают противоречия, связанные с коммерческим подходом — возможность внесения вклада в ту самую проблему, которую они основали Anthropic для предотвращения, — но считают, что это единственный способ сделать значимые исследования безопасности искусственного интеллекта. «Есть взаимосвязь — это одна из вещей, которые делают эту проблему сложной — между проблемами безопасности и врожденными возможностями модели», — говорит Дарио.

Другие специалисты