INDEX
Explanations
разбираться, знать, предлагать, обращать внимание
New Auto-Interp
Negative Logits
P
0.66
S
0.65
D
0.63
R
0.63
St
0.62
R
0.60
F
0.59
A
0.59
G
0.57
F
0.57
POSITIVE LOGITS
carrito
0.82
мир
0.79
oln
0.79
только
0.79
herewith
0.79
именно
0.78
и
0.78
мо
0.77
mnu
0.76
castom
0.75
Activations Density 0.073%