INDEX
Explanations
Star Trek: The Next Generation
New Auto-Interp
Negative Logits
f
1.15
b
1.13
a
1.09
et
0.98
en
0.93
U
0.84
ol
0.82
ri
0.81
re
0.79
N
0.77
POSITIVE LOGITS
3
1.02
га
0.91
9
0.84
6
0.82
5
0.80
ને
0.78
поло
0.78
να
0.75
ہ
0.75
τα
0.73
Activations Density 0.001%