INDEX
Negative Logits
Mile
0.45
↵
0.42
ters
0.41
belg
0.41
شمند
0.41
rola
0.41
mile
0.40
hein
0.40
roar
0.40
ot
0.38
POSITIVE LOGITS
연결
0.53
식
0.52
૯
0.49
Ẫ
0.47
POD
0.46
ဝ
0.45
不说
0.45
যোগ
0.45
이미지
0.44
洗衣
0.44
Activations Density 0.001%
Mile
↵
ters
belg
شمند
rola
mile
hein
roar
ot
연결
식
૯
Ẫ
POD
ဝ
不说
যোগ
이미지
洗衣