INDEX
Explanations
negations in the text
New Auto-Interp
Negative Logits
للمعارف
-0.50
esame
-0.50
KommentareTeilen
-0.46
xml
-0.45
EndContext
-0.44
xaml
-0.43
Verlauf
-0.43
xml
-0.43
Xml
-0.42
XML
-0.41
POSITIVE LOGITS
nahilalakip
0.61
IVEREF
0.54
owohl
0.51
хьтан
0.50
不仅
0.49
ſelves
0.46
InstrumentedTest
0.46
だけでなく
0.45
nejen
0.45
раздо
0.44
Activations Density 0.015%