INDEX
Negative Logits
ふ
-0.07
Wang
-0.06
Instruction
-0.06
sentenced
-0.06
'h
-0.06
Kramer
-0.06
ribs
-0.06
persuade
-0.06
рук
-0.06
呼ば
-0.06
POSITIVE LOGITS
applaud
0.07
ТО
0.06
iedy
0.06
(Query
0.06
(dynamic
0.06
εγκα
0.06
jj
0.06
$($
0.06
países
0.06
حزب
0.06
Activations Density 0.005%