INDEX
Negative Logits
câu
-0.07
sorrow
-0.07
augh
-0.07
commended
-0.07
technology
-0.07
-0.07
نان
-0.07
अभ्यास
-0.07
면
-0.07
optimized
-0.07
POSITIVE LOGITS
정상
0.08
_dyn
0.08
fün
0.08
evidente
0.08
新华
0.08
меди
0.08
宫
0.08
지도
0.08
.shortcuts
0.08
.success
0.07
Activations Density 0.070%