INDEX
Explanations
phrases that involve inquiry or conditions related to what is being discussed
New Auto-Interp
Negative Logits
pleaſure
-0.69
newBuilder
-0.65
fubject
-0.62
greateſt
-0.61
škin
-0.61
houſe
-0.60
pleaf
-0.60
Eſ
-0.58
ſtate
-0.57
bezeichneter
-0.57
POSITIVE LOGITS
что
1.20
що
0.98
że
0.98
že
0.96
когда
0.93
które
0.92
который
0.90
który
0.87
которые
0.84
jakie
0.84
Activations Density 0.045%