INDEX
Negative Logits
setpos
0.38
larında
0.37
plans
0.36
ndon
0.35
प्लान
0.35
larına
0.35
circunstancias
0.35
لاف
0.35
लग
0.35
نتی
0.35
POSITIVE LOGITS
Helper
0.54
helper
0.52
Helper
0.52
helper
0.51
辅助
0.50
PRIVATE
0.48
輔
0.46
utility
0.45
सहायक
0.44
helpful
0.44
Activations Density 0.009%