INDEX
Explanations
relationships and romantic partners
New Auto-Interp
Negative Logits
Madam
0.57
Madam
0.55
која
0.54
श्रीमती
0.54
শ্রীমতি
0.52
madam
0.52
которая
0.52
koja
0.52
خانم
0.51
która
0.49
POSITIVE LOGITS
handsome
1.45
男友
1.30
boyfriend
1.29
男性
1.29
муж
1.28
мужчина
1.27
পুরুষ
1.23
мужчины
1.23
boyfriend
1.23
чолові
1.22
Activations Density 0.041%