профессор
Abeba Birhane

Abeba Birhane

Cognitive Scientist

Абеба Бирхане — когнитивный ученый, который начал заниматься исследованиями в области искусственного интеллекта, когда обнаружил важную задачу, которую почти никто не выполнял. Модели ИИ обучались на всё больших и больших наборах данных — коллекциях текстов и изображений, собранных из интернета, включая его самые тёмные уголки. Но Бирхане поняла, что как эти наборы данных растут от миллионов до миллиардов отдельных частей информации, мало кто систематически проверяет их на наличие вредоносного материала, который может привести к структурному расизму, сексизму и другим формам предвзятости у ИИ. С помощью небольшой группы коллег, Бирхане начала создавать новую дисциплину: аудит общедоступных наборов данных для обучения ИИ. Эта работа может быть очень тяжелой. «Большую часть времени мой экран не предназначен для работы», — говорит Бирхане, которая сейчас является старшим консультантом по адаптации ИИ в Фонде Mozilla и внештатным доцентом Тринити Колледжа Дублина. «Я любила работать в кафе, но теперь мне это не подходит». В своей недавней статье, которая сейчас проходит процесс рецензирования, Бирхане и ее соавторы пришли к ошеломляющему выводу: ИИ модели, обученные на больших наборах данных, склонны к предвзятости и стереотипам. «Мы хотели проверить гипотезу, что с ростом размеров данные проблемы исчезают», — говорит Бирхане. Их исследование показало обратное. «Мы обнаружили, что с увеличением наборов данных растёт и вредоносный контент». (Это интервью было сокращено и отредактировано для большей ясности.) TIME: Какие имеются последствия ваших результатов для всей индустрии ИИ? Абеба Бирхане: Мы должны относиться к утверждению, что большие размеры делают всё лучше, с большой долей скептицизма. Потому что то, что показало наше исследование, — это то, что масштаб на самом деле ухудшает вещи, если вы стремитесь к справедливой, равной и справедливой модели. Сосредоточиться на чём-то управляемом, на относительно небольшом масштабе, гораздо лучше. Если это маленькое, у вас больше шансов узнать, что находится в наборе данных и как представлены различные концепции. Когда набор данных состоит из миллиардов кусочков информации, это хаос. Просто невозможно погрузиться и рассмотреть его, диагностировать проблемы и найти решения. Одним из способов, которым крупные компании по ИИ пытаются обойти эту проблему, является создание дополнительных систем: создание классификаторов для модерации контента, чтобы очистить вредоносный материал из своих наборов данных, и использование методов, таких как обучение с подкреплением, для стимулирования безопасного поведения модели. Вас устраивает такое решение проблем, которые ваше исследование подняло? Это не очень устойчивая модель. Она имеет огромную цену для лишенных голоса и плохо оплачиваемых работников, часто в так называемом третьем мире. Это не хорошее решение — не для людей, которые должны страдать и платить за это. Чтобы найти решение, сначала нужно понять свою проблему. Недостаточно усилий направляется на понимание проблем, которые сохраняются в наборах данных. И потому что корпорации, такие как OpenAI, обычно полностью закрыты, мы действительно не знаем, как они получают свой набор данных, как они очищают его от вредоносного материала. Поэтому, когда у вас очень мало информации о том, какие процессы они следуют, трудно предложить решение. Для меня первый шаг — это открыться. Что заставило вас заниматься этим типом исследований? Честно говоря, мне никогда не нравилась эта работа. Я когнитивный ученый по образованию, но кафедра, где я училась на докторской программе, была руководима школой компьютерных наук. Поэтому я работала в лаборатории, где была полностью занята исследованиями в области машинного обучения и меня заинтриговало, как они получают свои данные, как много внимания (или недостатка внимания) они уделяют данным. Я поняла, что наборы данных очень важны для производительности модели, но также, что мало кто уделяет этому достаточно внимания. Иногда я очень расстраиваюсь, потому что когда вы постоянно смотрите на ужасные изображения, это заставляет вас чувствовать себя дерьмово. Это неприятно. Так что я наверное была вынуждена заниматься этим, потому что никто другой этим не занимался. В отличие от того, чтобы бежать с радостью делать эту работу.

Другие специалисты
Kalika Bali
Kalika Bali
Principal Researcher, Microsoft Research India
Нейросеть:
Yann LeCun
Yann LeCun
Chief AI Scientist, Meta