INDEX
Negative Logits
flamboyant
0.47
zweiten
0.46
öffentliche
0.46
villain
0.45
Liebe
0.44
Fälle
0.43
morality
0.42
inadequacy
0.42
langfrist
0.41
freshmen
0.41
POSITIVE LOGITS
codewords
0.51
ভ
0.51
ਨੇ
0.47
हैन
0.45
ERS
0.45
ਸਮ
0.45
emphasises
0.45
தாண்ட
0.45
اص
0.44
چکے
0.44
Activations Density 0.002%