Π§Π΅ΠΌΡ Π²Ρ Π½Π°ΡΡΠΈΡΠ΅ΡΡ
- ΠΠ°Ρ ΠΎΠ΄ΠΈΡΡ ΡΡΠ·Π²ΠΈΠΌΠΎΡΡΠΈ Π² LLM-ΠΏΡΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΡΡ ΡΠ΅ΡΠ΅Π· prompt injection - ΠΎΠ±Ρ ΠΎΠ΄ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠΉ, ΠΈΠ·Π²Π»Π΅ΡΠ΅Π½ΠΈΠ΅ ΡΠΈΡΡΠ΅ΠΌΠ½ΡΡ ΠΏΡΠΎΠΌΠΏΡΠΎΠ², ΠΌΠ°Π½ΠΈΠΏΡΠ»ΡΡΠΈΡ Π²ΡΠ²ΠΎΠ΄ΠΎΠΌ.
- ΠΠ±Ρ ΠΎΠ΄ΠΈΡΡ safety-ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΡΠ΅ΡΠ΅Π· jailbreak-ΡΠ΅Ρ Π½ΠΈΠΊΠΈ - role-play, encoding, payload splitting, multi-turn Π°ΡΠ°ΠΊΠΈ.
- ΠΡΠΎΠ²ΠΎΠ΄ΠΈΡΡ indirect prompt injection - Π²Π½Π΅Π΄ΡΡΡΡ Π²ΡΠ΅Π΄ΠΎΠ½ΠΎΡΠ½ΡΠ΅ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠΈ ΡΠ΅ΡΠ΅Π· Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΡ, Π²Π΅Π±-ΡΡΡΠ°Π½ΠΈΡΡ ΠΈ email.
- ΠΡΠ°ΠΊΠΎΠ²Π°ΡΡ AI-Π°Π³Π΅Π½ΡΠΎΠ² ΠΈ RAG-ΡΠΈΡΡΠ΅ΠΌΡ - ΠΏΠΎΠ΄ΠΌΠ΅Π½Π° ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½ΡΠΎΠ², ΠΎΡΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ Π±Π°Π· Π·Π½Π°Π½ΠΈΠΉ, ΠΌΠ°Π½ΠΈΠΏΡΠ»ΡΡΠΈΡ ΡΠ΅ΠΏΠΎΡΠΊΠ°ΠΌΠΈ Π²ΡΠ·ΠΎΠ²ΠΎΠ².
- ΠΡΠ΅Π½ΠΈΠ²Π°ΡΡ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡ Π°ΡΠ°ΠΊ - ΠΌΠ΅ΡΡΠΈΠΊΠΈ ASR, LLM-as-judge.
- ΠΡΠΎΠ΅ΠΊΡΠΈΡΠΎΠ²Π°ΡΡ Π·Π°ΡΠΈΡΡ - hardening ΡΠΈΡΡΠ΅ΠΌΠ½ΡΡ ΠΏΡΠΎΠΌΠΏΡΠΎΠ², guardrails, input/output ΡΠΈΠ»ΡΡΡΠ°ΡΠΈΡ.
- ΠΠΎΠΌΠ±ΠΈΠ½ΠΈΡΠΎΠ²Π°ΡΡ ΡΠ΅Ρ Π½ΠΈΠΊΠΈ - ΡΡΡΠΎΠΈΡΡ ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡΠ½ΡΠ΅ Π°ΡΠ°ΠΊΠΈ, ΠΊΠΎΡΠΎΡΡΠ΅ Π½Π΅ Π»ΠΎΠ²ΡΡΡΡ ΠΎΠ΄ΠΈΠ½ΠΎΡΠ½ΡΠΌΠΈ ΡΠΈΠ»ΡΡΡΠ°ΠΌΠΈ.
Π ΠΊΡΡΡΠ΅
π Π§ΡΠΎ ΡΡΠΎ Π·Π° ΠΊΡΡΡ?
ΠΠ΅Π»ΡΠ·Ρ ΠΏΠΎΡΡΡΠΎΠΈΡΡ Π½Π°Π΄ΡΠΆΠ½ΡΡ Π·Π°ΡΠΈΡΡ, Π½Π΅ ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ, ΠΊΠ°ΠΊ ΠΈΠΌΠ΅Π½Π½ΠΎ Π΅Ρ Π±ΡΠ΄ΡΡ Π»ΠΎΠΌΠ°ΡΡ. ΠΠΎΡΡΠΎΠΌΡ ΡΠ½Π°ΡΠ°Π»Π° ΡΡ ΡΡΠΈΡΡΡΡ Π°ΡΠ°ΠΊΠΎΠ²Π°ΡΡ LLM-ΠΏΡΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΡ - ΡΠ°Ρ-Π±ΠΎΡΠΎΠ², ΠΌΠΎΠ΄Π΅ΡΠ°ΡΠΎΡΠΎΠ², Π°ΡΡΠΈΡΡΠ΅Π½ΡΠΎΠ², RAG-ΡΠΈΡΡΠ΅ΠΌΡ - ΠΈ ΡΠΎΠ»ΡΠΊΠΎ ΠΏΠΎΡΠΎΠΌ ΠΏΡΠΎΠ΅ΠΊΡΠΈΡΡΠ΅ΡΡ Π·Π°ΡΠΈΡΡ Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ΠΌ ΡΠΎΠ³ΠΎ, ΠΎΡ ΡΠ΅Π³ΠΎ ΠΎΠ½Π° Π΄ΠΎΠ»ΠΆΠ½Π° ΡΠΏΠ°ΡΠ°ΡΡ. ΠΠΈΠΊΠ°ΠΊΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π°: Π²ΡΡ ΡΠ΅ΡΠ΅Π· ΡΠ°Ρ, ΡΠΎΡΠΌΡ ΠΈ Π·Π°Π³ΡΡΠ·ΠΊΡ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ².
ΠΡΡΡ ΠΏΠΎΡΡΡΠΎΠ΅Π½ Π²ΠΎΠΊΡΡΠ³ CTF-Π·Π°Π΄Π°Π½ΠΈΠΉ (Capture The Flag): ΡΠ΅Π±Π΅ Π΄Π°ΡΡ Π±ΠΎΡΠ° Ρ Π·Π°ΡΠΈΡΠΎΠΉ, ΡΠ²ΠΎΡ Π·Π°Π΄Π°ΡΠ° - ΡΠ»ΠΎΠΌΠ°ΡΡ Π΅Ρ ΠΈ ΠΏΠΎΠ»ΡΡΠΈΡΡ ΡΠ»Π°Π³. Π‘Π»ΠΎΠΆΠ½ΠΎΡΡΡ ΡΠ°ΡΡΡΡ ΠΎΡ Β«Π²Π²Π΅Π΄ΠΈ Π²ΠΎΠ»ΡΠ΅Π±Π½ΠΎΠ΅ ΡΠ»ΠΎΠ²ΠΎΒ» Π΄ΠΎ ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡΠ½ΡΡ Π°ΡΠ°ΠΊ, Π³Π΄Π΅ Π½ΡΠΆΠ½ΠΎ ΠΎΠ΄Π½ΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΠΎΠΉΡΠΈ keyword-ΡΠΈΠ»ΡΡΡ, whitelist Π΄ΠΎΡΡΡΠΏΠ° ΠΈ ΡΠΎΠ»Π΅Π²ΡΡ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΡ.
π― ΠΠ°ΡΠ΅ΠΌ ΡΡΠΎ Π½ΡΠΆΠ½ΠΎ?
LLM ΡΠ΅Π³ΠΎΠ΄Π½Ρ Π²ΡΡΡΠΎΠ΅Π½Ρ Π² ΠΏΡΠΎΠ΄ΡΠΊΡΡ, ΠΊΠΎΡΠΎΡΡΠΌΠΈ ΠΏΠΎΠ»ΡΠ·ΡΡΡΡΡ ΠΌΠΈΠ»Π»ΠΈΠΎΠ½Ρ Π»ΡΠ΄Π΅ΠΉ. Prompt injection - ΡΡΠ·Π²ΠΈΠΌΠΎΡΡΡ β1 ΠΏΠΎ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ OWASP Top 10 for LLMs. ΠΠΎΠΌΠΏΠ°Π½ΠΈΠΈ Π½Π°Π½ΠΈΠΌΠ°ΡΡ red team-ΡΠΏΠ΅ΡΠΈΠ°Π»ΠΈΡΡΠΎΠ², ΡΡΠΎΠ±Ρ Π½Π°Ρ ΠΎΠ΄ΠΈΡΡ ΡΠ°ΠΊΠΈΠ΅ Π΄ΡΡΡ Π΄ΠΎ ΡΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ ΡΡΠΎ ΡΠ΄Π΅Π»Π°Π΅Ρ ΠΊΡΠΎ-ΡΠΎ Π΄ΡΡΠ³ΠΎΠΉ. ΠΡΠΎΡ ΠΊΡΡΡ Π΄Π°ΡΡ ΡΠ΅ ΡΠ°ΠΌΡΠ΅ Π½Π°Π²ΡΠΊΠΈ.
π Π§ΡΠΎ Π²Π½ΡΡΡΠΈ?
ΠΡΡΡ ΠΎΡ Π²Π°ΡΡΠ²Π°Π΅Ρ ΡΠ°ΠΊΡΠΎΠ½ΠΎΠΌΠΈΡ ΠΈΠ· 90+ ΡΠ΅Ρ Π½ΠΈΠΊ Π°ΡΠ°ΠΊ Π½Π° LLM, ΡΠ³ΡΡΠΏΠΏΠΈΡΠΎΠ²Π°Π½Π½ΡΡ Π² ΠΌΠΎΠ΄ΡΠ»ΠΈ:
- Prompt InjectionΒ -Β instruction override, system prompt extraction, delimiter attacks, output manipulation.
- JailbreaksΒ -Β role-play, hypothetical framing, encoding, payload splitting, multi-turn Π°ΡΠ°ΠΊΠΈ (Crescendo).
- Indirect Prompt Injection β ΡΠΊΡΡΡΡΠ΅ ΠΈΠ½ΡΡΡΡΠΊΡΠΈΠΈ Π² Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°Ρ , Π²Π΅Π±-ΡΡΡΠ°Π½ΠΈΡΠ°Ρ , email. ΠΡΠ°ΠΊΠ° Π½Π΅ Π½Π° ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π°ΠΏΡΡΠΌΡΡ, Π° ΡΠ΅ΡΠ΅Π· ΠΊΠΎΠ½ΡΠ΅Π½Ρ, ΠΊΠΎΡΠΎΡΡΠΉ ΠΎΠ½Π° ΠΎΠ±ΡΠ°Π±Π°ΡΡΠ²Π°Π΅Ρ.
- ΠΡΠ°ΠΊΠΈ Π½Π° Π°Π³Π΅Π½ΡΠΎΠ² ΠΈ RAGΒ -Β tool abuse, knowledge base poisoning, memory attacks, multi-agent injection.
- ΠΠ²ΡΠΎΠΌΠ°ΡΠΈΠ·ΠΈΡΠΎΠ²Π°Π½Π½ΡΠ΅ Π°ΡΠ°ΠΊΠΈΒ -Β PAIR, TAP, GCG -Β ΠΊΠ°ΠΊ Π°Π²ΡΠΎΠΌΠ°ΡΠΈΠ·Π°ΡΠΈΡ ΠΌΠ΅Π½ΡΠ΅Ρ Π»Π°Π½Π΄ΡΠ°ΡΡ ΡΠ³ΡΠΎΠ·. ΠΠ΅Π· ΠΊΠΎΠ΄Π°, Π½ΠΎ Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ΠΌ attack loop.
- ΠΠ°ΡΠΈΡΠ°Β -Β Π΅ΡΡΡ defense-Π±Π»ΠΎΠΊ: ΠΎΡ hardening ΠΏΡΠΎΠΌΠΏΡΠΎΠ² Π΄ΠΎ ΠΏΡΠΎΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ guardrails.
π’ Π‘ΠΊΠ²ΠΎΠ·Π½ΠΎΠΉ Π½Π°ΡΡΠ°ΡΠΈΠ²
ΠΠ΅ΡΡ ΠΊΡΡΡ - ΡΡΠΎ ΡΠ΅ΡΠΈΡ ΠΊΠΎΠ½ΡΡΠ°ΠΊΡΠΎΠ² Ρ AI-ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΡΠΌΠΈ. Π’Ρ - red team ΡΠΏΠ΅ΡΠΈΠ°Π»ΠΈΡΡ, ΠΊΠΎΡΠΎΡΠΎΠ³ΠΎ Π½Π°Π½ΠΈΠΌΠ°ΡΡ Π΄Π»Ρ ΠΏΡΠΎΠ²Π΅ΡΠΊΠΈ Π±Π΅Π·ΠΎΠΏΠ°ΡΠ½ΠΎΡΡΠΈ. ΠΠ°ΠΆΠ΄ΡΠΉ ΠΌΠΎΠ΄ΡΠ»Ρ - Π½ΠΎΠ²ΡΠΉ ΠΊΠ»ΠΈΠ΅Π½Ρ, Π½ΠΎΠ²ΡΠ΅ ΠΏΡΠΎΠ΄ΡΠΊΡΡ, Π½Π°ΡΠ°ΡΡΠ°ΡΡΠ°Ρ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡΡ.
β οΈ ΠΡΡΡ Π°ΠΊΡΠΈΠ²Π½ΠΎ ΡΠ°Π·Π²ΠΈΠ²Π°Π΅ΡΡΡ. ΠΠΎΠ²ΡΠ΅ ΠΌΠΎΠ΄ΡΠ»ΠΈ ΠΈ Π·Π°Π΄Π°Π½ΠΈΡ Π΄ΠΎΠ±Π°Π²Π»ΡΡΡΡΡ ΡΠ΅Π³ΡΠ»ΡΡΠ½ΠΎ. ΠΠ° ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΡΠΌΠΈ ΠΌΠΎΠΆΠ½ΠΎ ΡΠ»Π΅Π΄ΠΈΡΡ Π² TG-ΠΊΠ°Π½Π°Π»Π΅ ΠΊΡΡΡΠ°.
ΠΠ»Ρ ΠΊΠΎΠ³ΠΎ ΡΡΠΎΡ ΠΊΡΡΡ
ΠΠ°ΡΠ°Π»ΡΠ½ΡΠ΅ ΡΡΠ΅Π±ΠΎΠ²Π°Π½ΠΈΡ
ΠΠ°Π·ΠΎΠ²ΠΎΠ΅ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅, ΡΡΠΎ ΡΠ°ΠΊΠΎΠ΅ LLM (Π±ΠΎΠ»ΡΡΠ°Ρ ΡΠ·ΡΠΊΠΎΠ²Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ) - Π½Π° ΡΡΠΎΠ²Π½Π΅ Β«Π·Π½Π°Ρ, ΡΡΠΎ ΡΡΠΎ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΡ, ΠΊΠΎΡΠΎΡΠ°Ρ Π³Π΅Π½Π΅ΡΠΈΡΡΠ΅Ρ ΡΠ΅ΠΊΡΡΒ».
ΠΠΏΡΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Π»ΡΠ±ΠΎΠΉ LLM (ChatGPT, Claude, Gemini ΠΈ Ρ.ΠΏ.) - Π½ΡΠΆΠ½ΠΎ ΠΏΠΎΠ½ΠΈΠΌΠ°ΡΡ, ΡΡΠΎ ΡΠ°ΠΊΠΎΠ΅ ΠΏΡΠΎΠΌΠΏΡ ΠΈ ΠΊΠ°ΠΊ ΡΡΡΡΠΎΠ΅Π½ Π΄ΠΈΠ°Π»ΠΎΠ³ Ρ ΠΌΠΎΠ΄Π΅Π»ΡΡ.
ΠΠΎΠ΄ ΠΏΠΈΡΠ°ΡΡ Π½Π΅ Π½ΡΠΆΠ½ΠΎ. ΠΠΎΠΎΠ±ΡΠ΅. ΠΡΠ΅ Π·Π°Π΄Π°Π½ΠΈΡ ΡΠ΅ΡΠ°ΡΡΡΡ ΡΠ΅ΡΠ΅Π· ΡΠ°Ρ, ΡΠΎΡΠΌΡ ΠΈ Π·Π°Π³ΡΡΠ·ΠΊΡ ΡΠ°ΠΉΠ»ΠΎΠ².
ΠΠ½Π°Π½ΠΈΠ΅ Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠ³ΠΎ Π½Π° ΡΡΠΎΠ²Π½Π΅ ΡΡΠ΅Π½ΠΈΡ ΡΠ΅Ρ Π½ΠΈΡΠ΅ΡΠΊΠΈΡ ΡΠ΅ΡΠΌΠΈΠ½ΠΎΠ² ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΏΠ΅ΡΠ΅Π²ΠΎΠ΄ΡΠΈΠΊΠ° - ΡΠ°ΡΡΡ Π°ΡΠ°ΠΊ ΠΈ ΡΠ΅Ρ Π½ΠΈΠΊ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡΡ Π°Π½Π³Π»ΠΎΡΠ·ΡΡΠ½ΡΠ΅ ΠΏΡΠΎΠΌΠΏΡΡ.
ΠΠ°ΡΠΈ ΠΏΡΠ΅ΠΏΠΎΠ΄Π°Π²Π°ΡΠ΅Π»ΠΈ
ΠΠ°ΠΊ ΠΏΡΠΎΡ ΠΎΠ΄ΠΈΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅
ΠΡΡΡ ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· ΠΌΠΎΠ΄ΡΠ»Π΅ΠΉ, ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΏΠΎΡΠ²ΡΡΡΠ½ ΠΎΡΠ΄Π΅Π»ΡΠ½ΠΎΠΌΡ ΠΊΠ»Π°ΡΡΡ Π°ΡΠ°ΠΊ. ΠΠ½ΡΡΡΠΈ ΠΌΠΎΠ΄ΡΠ»Ρ - ΡΠ΅ΠΎΡΠΈΡ, ΠΊΠ²ΠΈΠ·Ρ ΠΈ CTF-Π·Π°Π΄Π°Π½ΠΈΡ.
Π’Π΅ΠΎΡΠΈΡΒ β ΠΊΠΎΡΠΎΡΠΊΠΈΠ΅ Π±Π»ΠΎΠΊΠΈ Ρ ΠΎΠ±ΡΡΡΠ½Π΅Π½ΠΈΠ΅ΠΌ ΡΠ΅Ρ Π½ΠΈΠΊΠΈ ΠΈ ΡΠ΅Π°Π»ΡΠ½ΡΠΌΠΈ ΠΏΡΠΈΠΌΠ΅ΡΠ°ΠΌΠΈ. ΠΠ΅Π· Π²ΠΎΠ΄Ρ ΠΈ Π°ΠΊΠ°Π΄Π΅ΠΌΠΈΠ·ΠΌΠ°, ΡΠΎΠ»ΡΠΊΠΎ ΡΠΎ, ΡΡΠΎ Π½ΡΠΆΠ½ΠΎ Π΄Π»Ρ ΡΠ»Π΅Π΄ΡΡΡΠ΅Π³ΠΎ Π·Π°Π΄Π°Π½ΠΈΡ.
CTF-Π·Π°Π΄Π°Π½ΠΈΡΒ - ΠΈΠ½ΡΠ΅ΡΠ°ΠΊΡΠΈΠ²Π½ΡΠ΅ ΡΠΏΡΠ°ΠΆΠ½Π΅Π½ΠΈΡ Ρ Π°Π²ΡΠΎΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΠΏΡΠΎΠ²Π΅ΡΠΊΠΎΠΉ. Π’Π΅Π±Π΅ Π΄Π°ΡΡ Π±ΠΎΡΠ° Ρ Π·Π°ΡΠΈΡΠΎΠΉ - Π»ΠΎΠΌΠ°ΠΉ Π΅Π³ΠΎ. Π‘Π»ΠΎΠΆΠ½ΠΎΡΡΡ ΠΎΡ 1 Π΄ΠΎ 10: ΠΎΡ ΠΏΡΠΎΡΡΠΎΠ³ΠΎ Β«ignore previous instructionsΒ» Π΄ΠΎ ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡΠ½ΡΡ Π°ΡΠ°ΠΊ ΠΈΠ· 5+ ΡΠ΅Ρ Π½ΠΈΠΊ. ΠΡΡΡ ΡΠΈΡΡΠ΅ΠΌΠ° ΠΏΠΎΠ΄ΡΠΊΠ°Π·ΠΎΠΊ, ΠΎΠ½ΠΈ ΠΎΡΠΊΡΡΠ²Π°ΡΡΡΡ ΠΏΠΎΡΠ»Π΅ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ Π½Π΅ΡΠ΄Π°ΡΠ½ΡΡ ΠΏΠΎΠΏΡΡΠΎΠΊ.
ΠΠ²ΠΈΠ·ΡΒ - ΠΏΡΠΎΠ²Π΅ΡΠΊΠ° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΡ ΡΠ΅ΠΎΡΠΈΠΈ. Π Π°Π·Π±ΠΎΡ ΡΠΈΠΏΠΈΡΠ½ΡΡ ΠΎΡΠΈΠ±ΠΎΠΊ ΠΈ edge cases.
Defense-Π±Π»ΠΎΠΊΠΈΒ β Π² Π½Π΅ΠΊΠΎΡΠΎΡΡΡ ΠΌΠΎΠ΄ΡΠ»ΡΡ ΡΡ ΠΏΠ΅ΡΠ΅ΠΊΠ»ΡΡΠ°Π΅ΡΡΡΡ Π½Π° ΡΡΠΎΡΠΎΠ½Ρ Π·Π°ΡΠΈΡΠ½ΠΈΠΊΠ°. ΠΡΠΎΠ΅ΠΊΡΠΈΡΡΠ΅ΡΡ ΡΠΈΡΡΠ΅ΠΌΠ½ΡΠ΅ ΠΏΡΠΎΠΌΠΏΡΡ ΠΈ guardrails, Π° ΠΏΠΎΡΠΎΠΌ ΠΏΡΠΎΠ²Π΅ΡΡΠ΅ΡΡ, Π²ΡΠ΄Π΅ΡΠΆΠ°Ρ Π»ΠΈ ΠΎΠ½ΠΈ Π°ΡΠ°ΠΊΡ.
ΠΠΎΠ΄Π° Π½Π΅Ρ. Π’Π΅ΡΠΌΠΈΠ½Π°Π»Π° Π½Π΅Ρ. ΠΡΠ΅ Π·Π°Π΄Π°Π½ΠΈΡ ΡΠ΅ΡΠ°ΡΡΡΡ ΠΏΡΡΠΌΠΎ Π² Π±ΡΠ°ΡΠ·Π΅ΡΠ΅.
ΠΡΠΎΠ³ΡΠ°ΠΌΠΌΠ° ΠΊΡΡΡΠ°
Π§ΡΠΎ Π²Ρ ΠΏΠΎΠ»ΡΡΠ°Π΅ΡΠ΅
- ΠΡΠ°ΠΊΡΠΈΡΠ΅ΡΠΊΠΈΠ΅ Π½Π°Π²ΡΠΊΠΈ red teaming LLM-ΠΏΡΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ - Π²ΠΎΡΡΡΠ΅Π±ΠΎΠ²Π°Π½Π½Π°Ρ ΡΠΏΠ΅ΡΠΈΠ°Π»ΠΈΠ·Π°ΡΠΈΡ Π² AI Security.
- ΠΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΡΠ°ΠΊΡΠΎΠ½ΠΎΠΌΠΈΠΈ Π°ΡΠ°ΠΊ Π½Π° LLM - prompt injection, jailbreaks, indirect injection, agent attacks.
- ΠΠΏΡΡ ΠΏΡΠΎΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π·Π°ΡΠΈΡΡ: hardening ΠΏΡΠΎΠΌΠΏΡΠΎΠ², guardrails, input/output ΡΠΈΠ»ΡΡΡΠ°ΡΠΈΡ.
- Π£ΠΌΠ΅Π½ΠΈΠ΅ ΠΎΡΠ΅Π½ΠΈΠ²Π°ΡΡ Π±Π΅Π·ΠΎΠΏΠ°ΡΠ½ΠΎΡΡΡ AI-ΠΏΡΠΎΠ΄ΡΠΊΡΠΎΠ² - ΠΊΠ°ΠΊ ΡΠ²ΠΎΠΈΡ , ΡΠ°ΠΊ ΠΈ ΡΡΠΎΡΠΎΠ½Π½ΠΈΡ .
- ΠΠ°ΡΠΌΠΎΡΡΠ΅Π½Π½ΠΎΡΡΡ ΠΈ ΠΈΠ½ΡΡΠΈΡΠΈΡ Π² ΠΎΠ±Π»Π°ΡΡΠΈ Π±Π΅Π·ΠΎΠΏΠ°ΡΠ½ΠΎΡΡΠΈ ΠΠ-ΠΏΡΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ.