INDEX
Negative Logits
すべて
0.45
쪽에
0.42
定める
0.40
annoying
0.40
ann
0.38
ramb
0.38
slings
0.36
slugs
0.36
იდან
0.36
િં
0.36
POSITIVE LOGITS
of
1.45
នៃ
1.31
של
1.30
ofthe
1.28
của
1.27
ของการ
1.27
của
1.19
ของ
1.13
of
1.00
ຂອງ
0.99
Activations Density 0.011%