INDEX
Negative Logits
𝟏
1.09
ның
1.07
𝓻
1.04
ﻦ
1.02
eſ
0.96
𝔯
0.95
impeding
0.94
natoque
0.93
은
0.92
이라고
0.91
POSITIVE LOGITS
ą
1.34
í
1.23
ü
1.14
ak
1.09
க
1.00
يد
0.98
સ
0.98
ëlle
0.97
Fs
0.93
ene
0.92
Activations Density 0.007%
𝟏
ның
𝓻
ﻦ
eſ
𝔯
impeding
natoque
은
이라고
ą
í
ü
ak
க
يد
સ
ëlle
Fs
ene