INDEX
Negative Logits
Idle
-0.07
路人
-0.07
הד
-0.07
idle
-0.07
burgeoning
-0.06
interns
-0.06
advising
-0.06
vid
-0.06
axter
-0.06
报道称
-0.06
POSITIVE LOGITS
violate
0.07
Ware
0.07
POOL
0.06
让我
0.06
peaked
0.06
위
0.06
戎
0.06
wei
0.06
вин
0.06
军事
0.06
Activations Density 0.001%