INDEX
Explanations
humanitarian or ceasefire pauses
New Auto-Interp
Negative Logits
probably
0.45
uner
0.45
prawdopod
0.43
aldı
0.40
miesią
0.40
uncoated
0.40
pairs
0.39
months
0.39
nies
0.39
jaws
0.38
POSITIVE LOGITS
মানবতার
0.47
humanitarian
0.47
Humanitarian
0.44
आवाहन
0.42
不要
0.42
ceasefire
0.41
Không
0.41
मानवता
0.40
শান্তিপূর্ণ
0.40
しましょう
0.39
Activations Density 0.001%