INDEX
Negative Logits
tabel
-0.08
encant
-0.08
commons
-0.07
ratings
-0.07
Curtis
-0.07
tavo
-0.07
progen
-0.07
bijvoorbeeld
-0.07
interpre
-0.07
aanzien
-0.07
POSITIVE LOGITS
honestly
0.09
Oops
0.09
ADHD
0.09
ейчас
0.09
昨
0.08
……”↵↵
0.08
っ
0.08
ajan
0.07
terlalu
0.07
…↵↵
0.07
Activations Density 0.030%