INDEX
Negative Logits
不仅仅
0.42
best
0.42
best
0.41
surtout
0.41
przede
0.38
だけでなく
0.37
ziemlich
0.37
duh
0.37
nejen
0.37
OS
0.37
POSITIVE LOGITS
unrelated
0.73
我可以
0.72
safer
0.62
safely
0.57
безопас
0.57
alternatif
0.55
alternativa
0.54
topik
0.53
代わりに
0.53
別の
0.52
Activations Density 0.040%