Warning: mkdir(): No space left on device in /var/www/hottg/post.php on line 59

Warning: file_put_contents(aCache/aDaily/2025-07-22/post/data_math/-557-558-559-560-557-): Failed to open stream: No such file or directory in /var/www/hottg/post.php on line 72
🌟 OLMo 2: НовоС ΠΏΠΎΠΊΠΎΠ»Π΅Π½ΠΈΠ΅ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. @ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ° Π”Π°Ρ‚Π° саСнтиста
TG Telegram Group & Channel
ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ° Π”Π°Ρ‚Π° саСнтиста | United States America (US)
Create: Update:

🌟 OLMo 2: НовоС ΠΏΠΎΠΊΠΎΠ»Π΅Π½ΠΈΠ΅ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

OLMo 2 - сСрия ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, созданная для развития Π½Π°ΡƒΠΊΠΈ ΠΎ языковых модСлях .

МодСли OLMo 2 доступны Π² Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π°Ρ… 7B ΠΈ 13B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½Ρ‹ Π½Π° массивС Π΄Π°Π½Π½Ρ‹Ρ… объСмом 5 Ρ‚Ρ€Π»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Они Π΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‚ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ, ΡΠΎΠΏΠΎΡΡ‚Π°Π²ΠΈΠΌΡƒΡŽ ΠΈΠ»ΠΈ ΠΏΡ€Π΅Π²ΠΎΡΡ…ΠΎΠ΄ΡΡ‰ΡƒΡŽ Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½Ρ‹Π΅ ΠΏΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ€Ρƒ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° английских акадСмичСских тСстах.

Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ OLMo 2 ΡƒΠ΄Π΅Π»ΠΈΠ»ΠΈ особоС Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ обучСния, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ RMSNorm, QK-Norm, Z-loss рСгуляризация ΠΈ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½Π½Π°Ρ инициализация.

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ Π² 2 этапа. На ΠΏΠ΅Ρ€Π²ΠΎΠΌ этапС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈΡΡŒ Π½Π° датасСтС OLMo-Mix-1124 (3,9 Ρ‚Ρ€Π»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²). На Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС использовался ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ ΠΏΠΎΠ΄ΠΎΠ±Ρ€Π°Π½Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… Dolmino-Mix-1124 (843 ΠΌΠ»Ρ€Π΄. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²), состоящий ΠΈΠ· Π²Π΅Π±-Π΄Π°Π½Π½Ρ‹Ρ…, ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π»ΠΎΠ² ΠΈΠ· акадСмичСских источников, Ρ„ΠΎΡ€ΡƒΠΌΠΎΠ² вопросов ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ², инструкций ΠΈ матСматичСских Π·Π°Π΄Π°Ρ‡Π½ΠΈΠΊΠΎΠ². Для объСдинСния ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… подмноТСствах Π΄Π°Π½Π½Ρ‹Ρ…, примСнялся ΠΌΠ΅Ρ‚ΠΎΠ΄ "model souping".

Для ΠΎΡ†Π΅Π½ΠΊΠΈ OLMo 2 Π±Ρ‹Π»Π° Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° систСма OLMES (Open Language Modeling Evaluation System) ΠΈΠ· 20 тСстов для измСрСния способностСй ΠΌΠΎΠ΄Π΅Π»ΠΈ. OLMo 2 ΠΏΡ€Π΅Π²Π·ΠΎΡˆΠ΅Π» ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΡƒΡŽ Π²Π΅Ρ€ΡΠΈΡŽ OLMo 0424 ΠΏΠΎ всСм Π·Π°Π΄Π°Ρ‡Π°ΠΌ ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π» Π²Ρ‹ΡΠΎΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌΠΈ модСлями.

▢️Набор ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ OLMo 2:

πŸŸ’Π‘Π°Π·ΠΎΠ²Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ: OLMo-2-1124-7B ΠΈ OLMo-2-1124-13B

🟠GGUF-вСрсии: OLMo-2-1124-7B-GGUF ΠΈ OLMo-2-1124-13B-GGUF

πŸŸ’Π˜Π½ΡΡ‚Ρ€ΡƒΠΊΡ‚ΠΈΠ²Π½Ρ‹Π΅ вСрсии: OLMo-2-1124-7B-Instruct ΠΈ OLMo-2-1124-13B-Instruct

🟠DPO-вСрсии: OLMo-2-1124-7B-DPO ΠΈ OLMo-2-1124-13B-DPO

🟠SFT-вСрсии: OLMo-2-1124-7B-SFT ΠΈ OLMo-2-1124-13B-SFT

🟠Reward Model - вСрсия OLMo-2-1124-7B-RM


β–ΆοΈΠŸΡ€ΠΈΠΌΠ΅Ρ€ инфСрСнса OLMo-2-7B c HF Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-1124-7B")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-1124-7B")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
# optional verifying cuda
# inputs = {k: v.to('cuda') for k,v in inputs.items()}
# olmo = olmo.to('cuda')
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #OLMo2

Forwarded from Machinelearning
🌟 OLMo 2: НовоС ΠΏΠΎΠΊΠΎΠ»Π΅Π½ΠΈΠ΅ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

OLMo 2 - сСрия ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, созданная для развития Π½Π°ΡƒΠΊΠΈ ΠΎ языковых модСлях .

МодСли OLMo 2 доступны Π² Π²Π°Ρ€ΠΈΠ°Π½Ρ‚Π°Ρ… 7B ΠΈ 13B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΠΈ ΠΎΠ±ΡƒΡ‡Π΅Π½Ρ‹ Π½Π° массивС Π΄Π°Π½Π½Ρ‹Ρ… объСмом 5 Ρ‚Ρ€Π»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ². Они Π΄Π΅ΠΌΠΎΠ½ΡΡ‚Ρ€ΠΈΡ€ΡƒΡŽΡ‚ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ, ΡΠΎΠΏΠΎΡΡ‚Π°Π²ΠΈΠΌΡƒΡŽ ΠΈΠ»ΠΈ ΠΏΡ€Π΅Π²ΠΎΡΡ…ΠΎΠ΄ΡΡ‰ΡƒΡŽ Π°Π½Π°Π»ΠΎΠ³ΠΈΡ‡Π½Ρ‹Π΅ ΠΏΠΎ Ρ€Π°Π·ΠΌΠ΅Ρ€Ρƒ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° английских акадСмичСских тСстах.

Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ OLMo 2 ΡƒΠ΄Π΅Π»ΠΈΠ»ΠΈ особоС Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ обучСния, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ RMSNorm, QK-Norm, Z-loss рСгуляризация ΠΈ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½Π½Π°Ρ инициализация.

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ Π² 2 этапа. На ΠΏΠ΅Ρ€Π²ΠΎΠΌ этапС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈΡΡŒ Π½Π° датасСтС OLMo-Mix-1124 (3,9 Ρ‚Ρ€Π»Π½. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²). На Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС использовался ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ ΠΏΠΎΠ΄ΠΎΠ±Ρ€Π°Π½Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ Π΄Π°Π½Π½Ρ‹Ρ… Dolmino-Mix-1124 (843 ΠΌΠ»Ρ€Π΄. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²), состоящий ΠΈΠ· Π²Π΅Π±-Π΄Π°Π½Π½Ρ‹Ρ…, ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π»ΠΎΠ² ΠΈΠ· акадСмичСских источников, Ρ„ΠΎΡ€ΡƒΠΌΠΎΠ² вопросов ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ², инструкций ΠΈ матСматичСских Π·Π°Π΄Π°Ρ‡Π½ΠΈΠΊΠΎΠ². Для объСдинСния ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΎΠ±ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… Π½Π° Ρ€Π°Π·Π½Ρ‹Ρ… подмноТСствах Π΄Π°Π½Π½Ρ‹Ρ…, примСнялся ΠΌΠ΅Ρ‚ΠΎΠ΄ "model souping".

Для ΠΎΡ†Π΅Π½ΠΊΠΈ OLMo 2 Π±Ρ‹Π»Π° Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° систСма OLMES (Open Language Modeling Evaluation System) ΠΈΠ· 20 тСстов для измСрСния способностСй ΠΌΠΎΠ΄Π΅Π»ΠΈ. OLMo 2 ΠΏΡ€Π΅Π²Π·ΠΎΡˆΠ΅Π» ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΡƒΡŽ Π²Π΅Ρ€ΡΠΈΡŽ OLMo 0424 ΠΏΠΎ всСм Π·Π°Π΄Π°Ρ‡Π°ΠΌ ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π» Π²Ρ‹ΡΠΎΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌΠΈ модСлями.

▢️Набор ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ OLMo 2:

πŸŸ’Π‘Π°Π·ΠΎΠ²Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ: OLMo-2-1124-7B ΠΈ OLMo-2-1124-13B

🟠GGUF-вСрсии: OLMo-2-1124-7B-GGUF ΠΈ OLMo-2-1124-13B-GGUF

πŸŸ’Π˜Π½ΡΡ‚Ρ€ΡƒΠΊΡ‚ΠΈΠ²Π½Ρ‹Π΅ вСрсии: OLMo-2-1124-7B-Instruct ΠΈ OLMo-2-1124-13B-Instruct

🟠DPO-вСрсии: OLMo-2-1124-7B-DPO ΠΈ OLMo-2-1124-13B-DPO

🟠SFT-вСрсии: OLMo-2-1124-7B-SFT ΠΈ OLMo-2-1124-13B-SFT

🟠Reward Model - вСрсия OLMo-2-1124-7B-RM


β–ΆοΈΠŸΡ€ΠΈΠΌΠ΅Ρ€ инфСрСнса OLMo-2-7B c HF Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-1124-7B")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-1124-7B")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
# optional verifying cuda
# inputs = {k: v.to('cuda') for k,v in inputs.items()}
# olmo = olmo.to('cuda')
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #OLMo2
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘6❀3πŸ”₯3πŸ’©1


>>Click here to continue<<

ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ° Π”Π°Ρ‚Π° саСнтиста









Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)


Warning: Undefined array key 3 in /var/www/hottg/function.php on line 115

Fatal error: Uncaught mysqli_sql_exception: Too many connections in /var/www/db.php:16 Stack trace: #0 /var/www/db.php(16): mysqli_connect() #1 /var/www/hottg/function.php(212): db() #2 /var/www/hottg/function.php(115): select() #3 /var/www/hottg/post.php(351): daCache() #4 /var/www/hottg/route.php(63): include_once('...') #5 {main} thrown in /var/www/db.php on line 16