INDEX
Explanations
business communication phrasing
New Auto-Interp
Negative Logits
I
0.98
یت
0.73
an
0.63
su
0.63
UM
0.63
IU
0.61
TI
0.60
I
0.60
An
0.59
IT
0.59
POSITIVE LOGITS
ي
0.92
توى
0.84
ed
0.78
ت
0.76
ין
0.74
عين
0.74
تين
0.72
י
0.71
دين
0.71
فريبي
0.70
Activations Density 0.130%