INDEX
Negative Logits
ora
0.54
9
0.54
winds
0.52
}}
0.51
fs
0.51
onna
0.51
6
0.51
AGA
0.50
format
0.50
ou
0.50
POSITIVE LOGITS
<0x98>
0.55
<0x80>
0.52
особы
0.52
ᾖ
0.52
咎
0.52
spoken
0.51
kabul
0.51
狡
0.49
committing
0.49
neke
0.48
Activations Density 0.000%