INDEX
Explanations
phrases that indicate greetings or conversation
New Auto-Interp
Negative Logits
СТВА
-0.79
НОЙ
-0.77
СТВО
-0.76
НОСТИ
-0.73
НОЕ
-0.67
viewDidLoad
-0.63
stücke
-0.62
ЦИЯ
-0.62
НЫ
-0.61
ЩИ
-0.60
POSITIVE LOGITS
С
1.04
С
1.01
В
0.95
А
0.94
У
0.91
О
0.91
В
0.89
И
0.89
О
0.88
А
0.88
Activations Density 0.029%