INDEX
Negative Logits
encirc
0.41
steeper
0.39
columns
0.38
steepest
0.38
solid
0.37
tho
0.37
chez
0.37
name
0.37
try
0.37
刻
0.37
POSITIVE LOGITS
FOX
0.64
NBC
0.57
CTV
0.57
CBS
0.57
ABC
0.54
CBS
0.54
FOX
0.54
CTV
0.53
ABC
0.49
Ey
0.45
Activations Density 0.000%