INDEX
Negative Logits
謝
0.46
ලි
0.38
Nig
0.37
Лон
0.37
calculadora
0.37
dispense
0.36
叟
0.36
тана
0.36
خته
0.35
nig
0.35
POSITIVE LOGITS
warning
0.45
prompting
0.42
提示
0.42
warning
0.41
حظ
0.40
deserving
0.39
DC
0.38
警告
0.38
웜
0.38
+-
0.38
Activations Density 0.002%