INDEX
Negative Logits
considere
0.46
Mentre
0.44
ла
0.41
celé
0.40
Cependant
0.40
Leave
0.39
noemen
0.39
laissant
0.39
valeur
0.38
deje
0.38
POSITIVE LOGITS
filters
0.54
沆
0.50
گیری
0.49
incentiv
0.49
کریاں
0.48
maps
0.48
filters
0.48
数百
0.47
CGM
0.47
گی
0.47
Activations Density 0.001%