INDEX
Negative Logits
чер
0.59
Бала
0.56
es
0.55
]].
0.53
ată
0.52
chessboard
0.51
igay
0.51
ataka
0.50
ad
0.50
дела
0.49
POSITIVE LOGITS
kulture
0.54
revolution
0.52
deber
0.51
ূন্য
0.50
deception
0.47
sinds
0.45
溶
0.44
downtime
0.43
文化的
0.43
我们
0.43
Activations Density 0.001%