Create: Update:
π ΠΡΠ²Π΅ΡΡ Π½Π° Π²ΠΎΠΏΡΠΎΡΡ ΠΈ Π·Π°Π΄Π°ΡΡ Ρ ΡΠΎΠ±Π΅ΡΠ΅Π΄ΠΎΠ²Π°Π½ΠΈΠΉ
1οΈβ£ ΠΠ°ΠΊ ΠΎΡΠ΅Π½ΠΈΡΡ ΠΏΠ΅ΡΠ΅ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ Π±Π΅Π· ΡΠ΅ΡΡΠΎΠ²ΠΎΠΉ Π²ΡΠ±ΠΎΡΠΊΠΈ?
1. Π‘ ΠΏΠΎΠΌΠΎΡΡΡ ΠΊΡΠΎΡΡ-Π²Π°Π»ΠΈΠ΄Π°ΡΠΈΠΈ - Π΅ΡΠ»ΠΈ ΠΌΠ΅ΡΡΠΈΠΊΠΈ ΡΠΈΠ»ΡΠ½ΠΎ ΠΌΠ΅Π½ΡΡΡΡΡ ΠΌΠ΅ΠΆΠ΄Ρ ΡΠΎΠ»Π΄Π°ΠΌΠΈ, ΡΠΎ ΡΠΊΠΎΡΠ΅Π΅ Π²ΡΠ΅Π³ΠΎ ΠΌΡ ΠΏΠ΅ΡΠ΅ΠΎΠ±ΡΡΠΈΠ»ΠΈΡΡ.
2. ΠΠΎ ΡΠ°Π·Π½ΠΈΡΠ΅ ΠΌΠ΅ΠΆΠ΄Ρ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ ΠΌΠ΅ΡΡΠΈΠΊ ΠΈ Π»ΠΎΡΡ-ΡΡΠ½ΠΊΡΠΈΠΈ Π½Π° train ΠΈ validation Π΄Π°ΡΠ°ΡΠ΅ΡΠ°Ρ . ΠΡΠΈΠ±ΠΊΠ° Π½Π° validation ΡΠΈΠ»ΡΠ½ΠΎ Π±ΠΎΠ»ΡΡΠ΅ ΡΠ΅ΠΌ Π½Π° train, Π·Π½Π°ΡΠΈΡ Π΅ΡΡΡ ΠΏΠ΅ΡΠ΅ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅. ΠΡΠ»ΠΈ Π½Π° train ΠΎΡΠΈΠ±ΠΊΠ° ΡΠΎΠΆΠ΅ Π±ΠΎΠ»ΡΡΠ°Ρ, Π·Π½Π°ΡΠΈΡ Π½Π΅Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅.
3. ΠΠΎΡΠΌΠΎΡΡΠ΅ΡΡ Π½Π°ΡΠΊΠΎΠ»ΡΠΊΠΎ βΡΠ²Π΅ΡΠ΅Π½Π½ΠΎβ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·ΡΠ²Π°Π΅Ρ Π½Π°ΡΠ° ΠΌΠΎΠ΄Π΅Π»Ρ - Π±ΠΎΠ»ΡΡΠΈΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ³ΡΡ ΡΠ²ΠΈΠ΄Π΅ΡΠ΅Π»ΡΡΡΠ²ΠΎΠ²Π°ΡΡ ΠΎ ΠΏΠ΅ΡΠ΅ΠΎΠ±ΡΡΠ΅Π½ΠΈΠΈ.
2οΈβ£ ΠΠ°ΠΊ Π±ΡΡΡ, Π΅ΡΠ»ΠΈ Ρ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²ΡΡΠΎΠΊΠΈΠΉ precision, Π½ΠΎ Π½ΠΈΠ·ΠΊΠΈΠΉ recall, Π° Π·Π°ΠΊΠ°Π·ΡΠΈΠΊ Ρ ΠΎΡΠ΅Ρ Π½Π°ΠΎΠ±ΠΎΡΠΎΡ β ΠΌΠ°ΠΊΡΠΈΠΌΡΠΌ ΠΎΡ Π²Π°ΡΠ°, Π΄Π°ΠΆΠ΅ ΡΠ΅Π½ΠΎΠΉ Π»ΠΎΠΆΠ½ΡΡ ΡΡΠ°Π±Π°ΡΡΠ²Π°Π½ΠΈΠΉ?
ΠΠ»Π°Π²Π½ΠΎΠ΅ β ΠΏΠΎΠ½ΠΈΠΌΠ°ΡΡ, ΠΊΠ°ΠΊΠ°Ρ ΡΠ΅Π½Π° Ρ Π»ΠΎΠΆΠ½ΠΎΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΡΡ ΠΈ Π»ΠΎΠΆΠ½ΠΎΠΎΡΡΠΈΡΠ°ΡΠ΅Π»ΡΠ½ΡΡ ΠΎΡΠΈΠ±ΠΎΠΊ Π² Π·Π°Π΄Π°ΡΠ΅, Π² Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡΠΈ ΠΎΡ ΡΡΠΎΠ³ΠΎ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ Π΄Π΅Π»Π°ΡΡ ΡΡΠ΅ΠΉΠ΄ΠΎΡΡ ΠΌΠ΅ΠΆΠ΄Ρ precision ΠΈ recall-ΠΎΠΌ ΡΠ»Π΅Π΄ΡΡΡΠΈΠΌΠΈ ΡΠΏΠΎΡΠΎΠ±Π°ΠΌΠΈ:
1. Π‘Π°ΠΌΠΎΡ Π»ΡΠ³ΠΊΠΎΠ΅ ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ - ΠΏΠΎΠ½ΠΈΠ·ΠΈΡΡ ΠΏΠΎΡΠΎΠ³ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ, Π΄ΠΎΠΏΡΡΡΠΈΠΌ ΡΠ°Π½ΡΡΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡ Ρ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΠ΅ΠΌ ΠΌΠΎΠ΄Π΅Π»ΠΈ 0.5 ΠΈ Π²ΡΡΠ΅ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΡΠ»ΡΡ ΠΊΠ°ΠΊ ΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΡΠΉ ΠΊΠ»Π°ΡΡ, Π° ΡΠ΅ΠΏΠ΅ΡΡ ΡΠ΄Π΅Π»Π°ΡΡ ΠΏΠΎΡΠΎΠ³ 0.3, Π° Π½Π΅ 0.5. ΠΡΠ±ΡΠ°ΡΡ Π½ΠΎΠ²ΡΠΉ ΠΏΠΎΡΠΎΠ³ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡΡΡΠΎΠΈΠ² PR-ΠΊΡΠΈΠ²ΡΡ.
2. Π Π΅ΡΠ΅Π½ΠΈΡ ΠΏΠΎΡΠ»ΠΎΠΆΠ½Π΅Π΅ - ΠΈΠ·ΠΌΠ΅Π½ΠΈΡΡ ΡΡΠ½ΠΊΡΠΈΡ ΠΏΠΎΡΠ΅ΡΡ, ΡΡΠΎΠ±Ρ ΡΠΈΠ»ΡΠ½Π΅Π΅ Π½Π°ΠΊΠ°Π·ΡΠ²Π°ΡΡ ΠΏΡΠΎΠΏΡΡΠ΅Π½Π½ΡΠ΅ ΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΡΠ΅ ΠΏΡΠΈΠΌΠ΅ΡΡ, Π² ΡΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΡΡ ΠΌΠΎΠ΄Π΅Π»ΡΡ Π³ΡΠ°Π΄ΠΈΠ΅Π½ΡΠ½ΠΎΠ³ΠΎ Π±ΡΡΡΠΈΠ½Π³Π° (CatBoost, XGBoost) ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡΠΈΠ΄Π°ΡΡ Π±ΠΎΠ»ΡΡΠΈΠΉ Π²Π΅Ρ ΠΊΠ»Π°ΡΡΡ Π³ΠΈΠΏΠ΅ΡΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠΌ. Π‘Π΄Π΅Π»Π°ΡΡ Π±ΠΎΠ»ΡΡΠ΅ ΡΡΠΌΠΏΠ»ΠΎΠ² ΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΠΎΠ³ΠΎ ΠΊΠ»Π°ΡΡΠ°, Π΄Π°ΠΆΠ΅ Ρ ΠΏΠΎΠΌΠΎΡΡΡ oversampling-Π° (ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ SMOTE, sklearn, data augmentations)
3. ΠΡΡ Π±ΠΎΠ»Π΅Π΅ ΡΠ»ΠΎΠΆΠ½ΡΠΉ, Π½ΠΎ ΡΠ°Π±ΠΎΡΠ°ΡΡΠΈΠΉ Π²Π°ΡΠΈΠ°Π½Ρ - ΡΠ΄Π΅Π»Π°ΡΡ Π°Π½ΡΠ°ΠΌΠ±Π»Ρ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, Π³Π΄Π΅ ΠΎΠ΄Π½Π° Π±ΡΠ΄Π΅Ρ Π»ΠΎΠ²ΠΈΡΡ Π²ΡΡ, ΡΡΠΎ ΠΌΠΎΠΆΠ΅Ρ Π±ΡΡΡ ΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΡΠΌ ΠΊΠ»Π°ΡΡΠΎΠΌ
3οΈβ£ Π§Π΅ΠΌΡ Π±ΡΠ΄Π΅Ρ ΡΠ°Π²Π΅Π½ ROC-AUC Π΄Π»Ρ ΡΠ»Π΅Π΄ΡΡΡΠΈΡ Π΄Π°Π½Π½ΡΡ ΠΈ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΠΉ?
ΠΡΡΠΈΠ½Π½Π°Ρ ΠΌΠ΅ΡΠΊΠ°:
1 0 1 1 0
ΠΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ - ΠΌΠ΅ΡΠΊΠ°:
1 1 1 0 0
ΠΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ - ΡΠΈΡΠ»ΠΎ:
0.9 0.8 0.7 0.4 0.3
ΠΡΠ²Π΅Ρ - 0.667. ΠΠ°ΠΊ Π»Π΅Π³ΠΊΠΎ ΠΏΠΎΡΡΠΈΡΠ°ΡΡ - ΠΌΠΈΠ½ΠΈ-Π³Π°ΠΉΠ΄ ΠΎΡ ΠΡΡΠΊΠΎΠ½ΠΎΠ²Π°
ΠΠ²ΡΠΎΡ: ΠΠ»Π΅ΠΊΡΠ°Π½Π΄Ρ ΠΡΠ±Π΅ΠΉΠΊΠΎΠ²ΡΠΊΠΈΠΉ, ΡΠΏΠ΅ΡΠΈΠ°Π»ΠΈΡΡ ΠΏΠΎ ML, ex-Yandex
#ΡΠΎΠ±Π΅ΡΠ΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅