INDEX
Explanations
alternative medicine, less than a year, refund, experimental
New Auto-Interp
Negative Logits
ف
1.05
4
1.03
5
0.98
9
0.97
0
0.95
2
0.92
6
0.91
3
0.89
ください
0.89
ור
0.88
POSITIVE LOGITS
ેલા
0.89
不及
0.79
theless
0.77
釟
0.75
...\...\
0.74
霄
0.74
عة
0.73
гы
0.72
。)
0.72
ないので
0.71
Activations Density 0.000%