INDEX
Explanations
avoiding/limiting/reducing followed by 'this'/'these'
New Auto-Interp
Negative Logits
രാണ്
0.47
वैसे
0.46
romeda
0.42
ujuan
0.39
現在
0.38
merzen
0.37
urta
0.36
지금
0.36
данным
0.36
Este
0.36
POSITIVE LOGITS
ذلك
1.27
这一点
1.25
这点
1.14
这种
1.06
这种情况
1.06
đó
1.02
這種
1.00
이러한
0.97
això
0.95
isso
0.95
Activations Density 0.010%