INDEX
Explanations
assertive phrases indicating confirmation or validation
New Auto-Interp
Negative Logits
+#+
-0.64
脚注の使い方
-0.60
חיצוניים
-0.57
himo
-0.55
issauga
-0.54
bezeichneter
-0.54
monuments
-0.53
бенок
-0.53
يح
-0.53
anganese
-0.52
POSITIVE LOGITS
émer
0.59
именно
0.55
tepat
0.54
humanas
0.52
Földrajzportál
0.51
саме
0.51
vendus
0.50
fører
0.49
็จ
0.49
prisonniers
0.49
Activations Density 0.757%