INDEX
Explanations
LLM model, category, division
New Auto-Interp
Negative Logits
_
0.55
_.
0.48
Notre
0.46
Notre
0.44
Kaplan
0.44
Gc
0.43
Mrs
0.43
Gartner
0.42
Das
0.42
Joyce
0.41
POSITIVE LOGITS
ческие
0.56
ਪ
0.51
afect
0.51
presentasikan
0.50
ικής
0.49
াচ্ছে
0.48
ज़्यादा
0.47
શા
0.47
λα
0.47
besitzen
0.46
Activations Density 0.000%