INDEX
Negative Logits
theorem
0.96
test
0.95
torque
0.94
तरह
0.91
ス
0.91
attire
0.90
tool
0.89
clarinet
0.88
tang
0.87
sauvegard
0.86
POSITIVE LOGITS
Всё
0.96
Только
0.93
ikten
0.92
чный
0.89
Некоторые
0.86
чным
0.83
síntomas
0.82
किये
0.81
Также
0.80
đenje
0.80
Activations Density 0.001%