INDEX
Negative Logits
improving
0.47
strikes
0.47
confuses
0.46
accelerating
0.44
mum
0.44
завдання
0.43
मोहो
0.42
موض
0.42
संशोध
0.42
produces
0.41
POSITIVE LOGITS
استخدم
0.66
قام
0.51
احتاج
0.51
اخذنا
0.49
خلص
0.48
ijima
0.46
است
0.45
حاول
0.45
اُ
0.45
قدم
0.45
Activations Density 0.001%