INDEX
Negative Logits
ೈನ್
0.38
に至
0.38
ặp
0.37
champion
0.37
கிரக
0.37
typical
0.36
文章
0.35
stool
0.35
的支持
0.35
stol
0.35
POSITIVE LOGITS
Adv
0.79
adv
0.71
Adv
0.69
ocate
0.69
ADV
0.66
adv
0.63
Advocate
0.63
ocado
0.62
ADV
0.61
ogado
0.59
Activations Density 0.004%