INDEX
Negative Logits
ți
1.01
čné
0.98
бва
0.98
مین
0.98
ermek
0.95
詮
0.93
昆
0.92
屓
0.92
وأن
0.91
染
0.91
POSITIVE LOGITS
I
1.43
ী
1.18
्स
1.17
ร้าย
1.16
től
1.15
ामुळे
1.13
headlines
1.12
unfairly
1.10
ુ
1.10
unsett
1.09
Activations Density 0.008%
ți
čné
бва
مین
ermek
詮
昆
屓
وأن
染
I
ী
्स
ร้าย
től
ामुळे
headlines
unfairly
ુ
unsett