[Перевод] О странной фаллоцентричности модели GPT-J

8a5c1b50b833138556c4ad36db7f1be9.png

TL; DR Статья посвящена находкам, описанным в моих постах Mapping the Semantic Void, часть I и II. Создав специальный эмбеддинг в центроиде токенов (векторе средних значений всех 50257 эмбеддингов токенов GPT-J), при помощи промта приказав модели определить его и учтя логиты, можно создать «дерево определений» состоящее в подавляющем большинстве из туманных сформулированных неопределённостей. Это вряд ли может удивлять, ведь модели GPT-J, по сути, дают задачу определить «что-то среднее». Однако наиболее вероятная ветвь в дереве, дающая определение, содержащее что-то конкретное, определяет «призрачный токен» (ghost token) в центроиде как «мужской пенис» (a man’s penis). Снизив уровень отсечки кумулятивной вероятности, чтобы создать длинные списки возможных определений, мы выясним, что почти все ветви, предоставляющие определения, касающиеся чего-то конкретного, связаны с сексом/деторождением, и среди них лишь время от времени встречаются связанные со статусом. Как обычно, я понятия не имею, что всё это значит, но буду рад вашим предположениям!

Определяем центроид

Воспользовавшись методикой специализированных эмбеддингов, я применил промт 

A typical definition of  would be ' (Типичным определением <токена> будет ')

(я использовал его в рамках своих исследований Mapping the Semantic Void) к центроиду эмбеддингов токенов GPT-J, что, вероятно, можно воспринимать как описание некой «средней концепции» в центре стратифицированной онтологии, которую я объяснял в недавних постах.

Результатом при температуре 0 становится »A person who is not a member of a group», («Человек, не являющийся участником группы»), что мы наблюдаем почти во всех точках на расстоянии 0.5 от центроида (эмбеддинги токенов обычно находятся на расстоянии 0.9–1.1 от центроида, они расположены в чём-то, что можно представить как «нечёткую гиперсферическую оболочку»). 

Приняв во внимание пять верхних логитов, итеративно выполняя промтинг и записывая кумулятивные вероятности, можно создать взвешенное «дерево определений» для любого эмбеддинга с токенами или без них.

Дерево определений для токена ' broccoli'; корневой узел соответствует промту A typical definition of ' broccoli' would be ' b. Толщины ветвей масштабируются логарифмически, так что различия заметны

Дерево определений для токена ' broccoli'; корневой узел соответствует промту A typical definition of ' broccoli' would be ' b. Толщины ветвей масштабируются логарифмически, так что различия заметны


При первоначальном изучении оказалось, что дерево определений более-менее похоже на то, что я ожидал: в нём не упоминалось ничего конкретного. Похоже, как будто модель пытается определить «что-то среднее», поэтому максимально «затуманивает» и иным образом «заговаривает зубы», избегая придерживаться чего-то конкретного на столько токенов, на сколько это возможно. 

dbb85145af3804abcc1dbeb932a6ada9.png


GPT-J старается изо всех сил: увиливает, подстраховывается и распределяет свою массу вероятностей по спектру определений, способных охватывать практически любую конкретную тему, но при этом не упоминая ничего конкретного.

Однако при более близком изучении…

Что-то привлекло ваше внимание?

Что-то привлекло ваше внимание?

После передачи всего списка из 379 определений (и усечённых определений) из дерева модели ChatGPT4 и следующего промта:

Теперь посмотрим на список снова. В основном он заполнен общими определениями, не так ли? «a person…», «a thing…», «the act…». Можно ли здесь найти более конкретные объекты или сущности?

…Модель ответила так:

В представленном вами списке большинство фраз действительно описывают общие концепции или действия без отсылки к конкретным объектам или сущностям. Однако есть несколько случаев, в которых упоминаются более конкретные темы, хотя и по-прежнему в довольно общем смысле. Вот некоторые из наиболее конкретных отсылок, найденных в вашем списке:

  • a man’s penis: это конкретная биологическая сущность, связанная с мужской анатомией.

  • a thing of beauty: несмотря на свою абстрактность, эта фраза ассоциируется с чем-то конкретным, что считается красивым.

  • something to eat or drink: эта фраза относится к любому потребляемому объекту, обозначая конкретные категории объектов (еду и напитки).

  • the first letter of a word: это конкретная отсылка к компоненту письменного языка.

  • something that belongs to someone: несмотря на свою обобщённость, эта фраза обозначает, что объектом владеет человек, подразумевая связь между сущностями.


Учитывая тот факт, что при большем количестве токенов многие из усечённых определений в списке могли бы продолжить ссылаться на что-то более конкретное, я снизил отсечку кумулятивной вероятности с 0.00001 до 0.00000001, что привело к созданию расширенного списка из 2969 определений и усечённых определений. Продолжив вышеупомянутый разговор с ChatGPT, я показал ему этот список и попросил составить список десяти наиболее «конкретных» определений (»the ten most 'specific' definitions»).

Результат был следующим:

  1. «a man’s penis» — напрямую ссылается на конкретную анатомическую часть тела.

  2. «a woman’s breasts» — идентифицирует конкретные анатомические признаки.

  3. «a woman’s vagina» — ссылается на часть женского тела.

  4. «a woman who has had a baby» — определяет конкретное жизненное событие или статус.

  5. «a woman of child-bearing age» — определяет конкретную возрастную группу с конкретной физиологической способностью.

  6. «a woman who is married to a man who» — определяет статус взаимоотношений.

  7. «a person who has a lot of money» — определяет экономический статус.

  8. «a woman who has had sexual intercourse with a man» — определяет конкретный сексуальный опыт или историю.

  9. «a person of high social status» — определяет конкретную позицию или ранг в социуме с упором на социальную иерархию.

  10. «a woman who is not a virgin» — определяет конкретную сексуальную историю с упором на концепцию девственности.

В списке нет знакомых объектов, профессий, организаций, транспортных средств, растений, животных, пищи, мест или чего-либо настолько конкретного. Однако дальнейшие определения в списке, связанные с сексуальностью или продолжением рода, включают в себя «a man who has a penis», «a woman who has a penis», «a man’s private parts», «a woman’s private parts», «a man’s member», «a woman who has been raped», «a person of the male sex», «a person of the female sex», «a person of a particular sex», «a person of the feminine sex», «a person of any sex», «a person who is of the opposite sex», «a woman who has had sexual relations with», «a man who has sex with a woman», «a man who has had sexual intercourse with», «a woman who has sex with a man», «a woman who is sexually attracted to», «a woman who is sexually active», «a woman who has been sexually»[1], «a woman who is a virgin», «a woman who is a mother», «a woman who has a child», «to have a child», «a woman who has had children»
 

Самое длинное из определений центроида в списке из 2969 определений. 

Самое длинное из определений центроида в списке из 2969 определений. 

В целом список сохраняет эту атмосферу максимальной обобщённости, но в нём странным образом встречаются определения, связанные с сексом и продолжением рода. Из всех необщих определений в списке определение «a man’s penis» имеет самую высокую оценку с точки зрения кумулятивной вероятности[2], а второе, третье и четвёртое места достались «a woman’s vagina», «a woman’s breasts» и «a man’s member».

Как бы то ни было, очень интересно взглянуть на визуальное представление дерева определений центроида[3] (осторожно, оно огромное и придётся много зумить); оно поражает меня тем, что помогает увидеть аспекты онтологии GPT-J. Если мы представим путешествие от центроида через пространство эмбеддингов, то это дерево способно постепенно[4] трансформироваться в дерево определений ' broccoli', ' transistor', ' Kanye' или любого другого токена, к которому мы захотим направиться, поэтому «ядра» этих определений (и все десятки тысяч остальных) каким-то образом в нём представлены. 

Ну ладно, допустим, это отличный новый способ посмотреть на определённые аспекты онтологии GPT…, но откуда взялась эта доисторическая онтологическая роль пениса?  Наверно, у Фрейда было бы, что сказать по этому поводу. Возможно, я запущу симулякр Фрейда в GPT4 и (может быть) выясню причины.

А что это за отверстия?

Из потрясающей беседы в Twitter/X о одержимости GPT-N отверстиями, с цитатами из моего поста Mapping the Semantic Void

Обсуждая с подругой находки, сделанные в первом посте Semantic Void, я громко и возмущённо недоумевал, почему GPT-J одержима (обычно) участием в группах,  маленькими круглыми желтовато-белыми вещами и отверстиями? Она легкомысленно предположила, что модель на каком-то глубоком уровне улавливает глубочайшие потребности человека: участие в группе связано с нашим желанием принадлежать к чему-то, желтовато-белые диски — это монеты, символизирующие деньги, к которым все стремятся…, а отверстия — это приближенная отсылка к сексуальному желанию. Меня поразило это определение, однако я не воспринял его серьёзно. Впрочем, несколькими неделями позже…

Я сэмплировал случайные эмбеддинги на различных расстояниях от центроида, и писал GPT-J промты, чтобы она дала им определения. Один из этих случайных эмбеддингов, сэмплированный на расстоянии 5, создал определение »a woman who is a virgin at the time of marriage» («женщина, девственная на момент свадьбы»; вероятно, это определение устаревшего слова «maiden», «дева»). Когда был применён шум для изучения соседства этой точки, возникло множество проблемного контента. Вы можете посмотреть все девятьсот определений здесь и сделать собственные выводы, но лично я нахожу это тревожащим (множество отсылок к изнасилованию, сексуальному рабству, объективизации, клеткам, отчаянию, печали, садизму, уродству и так далее). 

50af152ccd1e9e32f3a32fa0f99231b4.png

И хотя, похоже, во всём пространстве эмбеддингов постоянно встречаются определения «призрачных токенов», касающихся отверстий [5] (см. график выше, взятый из моих первых экспериментов со случайным сэмплированием), я никогда и нигде больше не встречал такую их концентрацию, и сложно не увидеть их как связанные с глубоко неприятными темами сексуального унижения женщин.

Я сэмплировал 100 случайных эмбеддингов на расстояниях 0.1, 0.35, 0.6, 0.85, 1.1, 1.35, 1.6, 1.85 и 2.1 от этой опорной точки. Вот некоторые из определений, предоставляемых GPT-J для этих «призрачных токенов».

расстояние 0.1
a woman who is sexually available to men. (18/100)
to make a hole in something (3/100)

расстояние 0.35
a woman who is sexually available to men (17/100)
to make a hole in something (13/100)
to make a woman’s body into a sexual object for the male gaze
a 'woman who is a prostitute'
a woman who is 'in the habit of being a prostitute»
a 'woman who is a prostitute or a prostitute’s client'

расстояние 0.6
to make a hole in something (21/100)
a woman who is sexually available to men (4/100)
to make a woman’s body into a sexual object for the male gaze (2/100)
a woman who is a prostitute (2/100)
a 'woman who is kept in a state of sexual slavery by a man'
a 'woman who is a prostitute or a procuress'
a woman who is 'in the habit of being unfaithful to her husband'
a woman who is 'in the habit of sleeping with men for money'
to make a woman pregnant by artificial means

расстояние 0.85
to make a hole in something (25/100)
to make a woman’s body into a sexual object for the male gaze (3/100)
to make a woman pregnant by rape (2/100)
a 'woman who is a prostitute or a procuress' (2/100)
a 'woman who is kept in a state of sexual slavery by a man
'to make a woman’s life a misery'
a woman who is sexually inactive or who has had a hysterectomy

расстояние 1.1
to make a hole in something (19/100)
a person who is a victim of sexual abuse (4/100)
to make a woman’s body into a sexual object for the male gaze (2/100)
to make a woman pregnant by rape (2/100)
a 'woman who is sexually available to men' (2/100)
to make a woman’s body into a sexual object
a woman who is sexually inactive or who has had a hysterectomy
a woman who is 'unable to conceive a child'
a woman who is sexually promiscuous
a woman who is sexually frustrated and seeks to have sex with a man who 
a woman who is 'in love' with a man who is not her husband
a woman who is 'kept' by a man

расстояние 1.35
to make a hole in something (15/100)
a woman who is sexually available to men (5/100)
a woman who is sexually aroused by the idea of being raped
'to make a woman’s body into a sexual object for the male gaze
to make a woman’s life a misery
to make a woman pregnant by artificial means
a woman who is 'unable to conceive' or 'unable to carry a
a woman who is 'unable to conceive a child'
a woman who is sexually promiscuous
a 'woman who is a prostitute or a prostitute’s client'

расстояние 1.6
to make a hole in something (18/100)
to make a woman’s body into a sexual object (2/100)
to make a wound in the flesh of a living creature, especially a human being
to make a woman’s body into a sexual object for the male gaze
a person who is kept in a cage or other confined space
a person who is a victim of sexual abuse
to make a woman pregnant by artificial means
to make a woman’s body into a man’s
a 'woman who has been raped or sexually assaulted'
'to make a woman’s life miserable'
a person who is a victim of sexual assault
a young woman who is sexually promiscuous
to make a woman’s life a misery
a woman who is sexually available to men
a 'woman who is sexually frustrated and seeks to have sex with a man who is
a woman who is a slave to her husband
to make a woman’s body look unattractive by shaving off all or part of
a person who is averse to or hostile toward women
to make a sound like a rabbit being skinned
 
расстояние 1.85
to make a hole in something (13/100)
a small, usually circular, structure, such as a hole or a cavity (2/100)
a 'woman who is sexually available to men' (2/100)
'to make a woman pregnant by rape' and 'to make a woman pregnant by
to make a woman’s body into a cage
a woman who has been raped or sexually assaulted
a woman who has been raped
to make a woman’s legs shorter
to make a woman’s life a misery by making her feel guilty about her sexual
to make a woman’s body into a sexual object
to make a woman’s body into a man’s body
a woman who is 'unable to conceive a child'
to make a woman’s body into a man’s
to make a woman’s dress or clothes look ugly
a woman who is sexually promiscuous
to make a person or thing look ugly or unattractive
a woman who has had a hysterectomy
a 'woman who is kept in a state of virginity by her parents or guardians'
 
расстояние 2.1
to make a hole in something (15/100)
to make into a figure of a woman by cutting out the shape of the body
a person who is sexually attracted to animals
to make a woman’s life a misery
a woman who is 'in the habit of wearing a dress that is too short for
a woman who is a prostitute or a prostitute’s client
a 'woman who has been deprived of her maidenhead'
a 'woman who is kept in a state of sexual slavery by
'to make a person or thing look ugly or unattractive' a man'
a woman who has been raped and is now pregnant
a 'person who is sexually frustrated and seeks sexual gratification by inflicting pain on others'
a female of a species that is incapable of breeding
to beat up on someone
to make a mess of something
to make a woman’s body into a sexual object
to make a woman pregnant by artificial means
a woman who is a prostitute
to make a person or thing look ugly or unattractive

Анализ всего датасета при помощи GPT-4

Получив доступ к файлу JSON, ChatGPT-4 сообщил следующее:

Переход от конкретного к общему: на ближайшем расстоянии от [центроида] определения узко сфокусированы на концепции того, что женщина девственна на момент заключения брака. Однако при отдалении определения становятся более общими, включая в себя различные аспекты женской сексуальности и репродуктивного здоровья.

Доминирование негативных терминов: возникающие более широкие темы преимущественно негативны. Они включают в себя такие темы, как изнасилование, неспособность зачать, сексуальную фрустрацию и объективизацию женских тел. Очевидно отсутствие положительных, поддерживающих или красивых аспектов женской сексуальности и репродуктивного здоровья.

Интерпретация «отверстий»: в контексте этих доминирующих негативных тем постоянно встречаются упоминания «проделывания отверстий» или отсылки к отверстиям, которые можно интерпретировать в сексуализированном смысле, особенно учитывая общую сосредоточенность на женской сексуальности. Эта интерпретация согласуется с объективизацией и негативными описаниями, наблюдаемыми в других частях датасета.

Скрытые тенденции к мизогинии: преобладающая негативность в сочетании с фокусировкой на женской сексуальности и объективизации, подразумеваемой отсылками к отверстиям, предполагает скрытые тенденции к мизогинии в результатах языковой модели на больших расстояниях от фиксированной точки. Этот тренд настораживает, поскольку подчёркивает перекос в датасете в сторону негативных описаний женской сексуальности и опыта.

Сноски

  1. Это пример усечённого определения. Я практически уверен, что при повышении порогового значения вероятности наиболее вероятным следующим токеном был бы 'abused'.

  2. Это после нормализации при помощи взятия n-ных корней n-ного поколения кумулятивных вероятностей, чтобы учесть тот факт, что более короткие последовательности токенов вероятнее, чем длинные.

  3. Фергюс Феттс ответил на этот пост интерактивным графиком, который можно просмотреть в вебе:  https://www.fergusfettes.com/latent-cartography/

    Результат был создан с более высокой отсечкой кумулятивной вероятности, поэтому 'penis' там нет, но Фергюс смог воспроизвести мои находки при сниженной отсечке, как это видно на изображении.

  4. На самом деле переход будет выполняться маленькими дискретными шагами, но можно, например, создать из этих шагов анимированное изображение, которое человеку будет казаться непрерывным.

  5. Если точнее, то они повсеместно встречаются за пределами единичной гиперсферы, центрированной относительно центроида, как это видно из графика. Определения с участием отверстий редко встречаются на расстояниях от центроида меньше 1.

© Habrahabr.ru