INDEX
Negative Logits
вор
-0.08
بان
-0.08
ρί
-0.08
leti
-0.08
fidél
-0.08
hale
-0.07
તે
-0.07
optimize
-0.07
enye
-0.07
سی
-0.07
POSITIVE LOGITS
incest
0.12
亂倫
0.10
taboo
0.10
違
0.09
uous
0.09
cousin
0.09
الزوج
0.09
prohibition
0.09
prohibited
0.08
unheard
0.08
Activations Density 0.006%