INDEX
Explanations
then followed by action or state
New Auto-Interp
Negative Logits
ح
1.09
ת
1.03
ע
1.00
क
1.00
та
0.99
ą
0.97
т
0.94
ش
0.93
ן
0.93
д
0.89
POSITIVE LOGITS
데요
0.83
ことにより
0.78
های
0.75
увиде
0.73
こと
0.71
sebagainya
0.71
Ее
0.70
причем
0.69
데
0.68
<!--
0.67
Activations Density 0.109%