INDEX
Negative Logits
Faculty
0.55
ပါ
0.54
郧
0.54
کا
0.53
кину
0.53
を務
0.53
modo
0.52
קס
0.52
اري
0.51
пка
0.51
POSITIVE LOGITS
punk
0.73
ors
0.68
sthe
0.60
cl
0.59
ially
0.58
Punk
0.58
bies
0.56
orch
0.55
il
0.55
punk
0.55
Activations Density 0.002%