INDEX
Negative Logits
்கு
-0.08
rim
-0.08
Asp
-0.07
-0.07
ociate
-0.07
ulinan
-0.07
pill
-0.07
rlig
-0.07
clinic
-0.07
Asp
-0.07
POSITIVE LOGITS
violate
0.09
unreasonable
0.09
onmogelijk
0.08
violates
0.08
Clearly
0.08
গুরু
0.08
vaard
0.08
犯
0.08
无法
0.08
乎
0.08
Activations Density 0.023%