INDEX
Negative Logits
preloader
-0.82
Ŵ
-0.77
wiec
-0.75
Peña
-0.75
werken
-0.75
lidos
-0.75
ATTACK
-0.74
工程
-0.73
電車
-0.72
camos
-0.72
POSITIVE LOGITS
getString
0.80
оско
0.80
hard
0.78
stiff
0.77
カンド
0.74
жест
0.73
Lars
0.72
biais
0.71
jú
0.70
guilty
0.67
Activations Density 0.017%