INDEX
Explanations
Deutsches, kein, keine, Kindern, Sprachen
New Auto-Interp
Negative Logits
घा
0.45
φαι
0.45
ናል
0.43
stvu
0.42
比如说
0.42
ぶ
0.42
ibles
0.41
ghis
0.41
cq
0.41
REP
0.41
POSITIVE LOGITS
Deutsches
0.60
kein
0.57
keine
0.56
Alta
0.55
Weitere
0.54
Keine
0.50
Kindern
0.50
Sprachen
0.50
Beaver
0.49
H
0.48
Activations Density 0.031%