INDEX
Explanations
specific subjects, technologies, and places
New Auto-Interp
Negative Logits
,
0.48
،
0.47
،
0.45
Largest
0.44
0.43
,「
0.42
ਰ
0.41
(
0.40
ﺎ
0.38
是對
0.38
POSITIVE LOGITS
↵
0.89
ის
0.63
will
0.59
ون
0.56
u
0.54
ik
0.52
es
0.51
els
0.51
own
0.50
ле
0.50
Activations Density 4.773%