Big data world Webview 1274.html Telegram

Состояние инженерии данных в 2024 году

https://lakefs.io/blog/the-state-of-data-engineering-2024

The State of Data Engineering 2024

In the annual State of Data Engineering 2024, we explore three defining trends in this space. Find out the results in this year's report.

522 views08:50

Big data world

AutoCoder: улучшение модели большого языка кода с помощью \textsc{AIEV-Instruct}

Мы представили новую модель, предназначенную для задачи генерации кода. Точность его испытаний на базовом наборе данных HumanEval превосходит точность GPT-4 Turbo (апрель 2024 г.) и GPT-4o. https://github.com/bin123apple/autocoder

GitHub

GitHub - bin123apple/AutoCoder: We introduced a new model designed for the Code generation task. Its test accuracy on the HumanEval…

We introduced a new model designed for the Code generation task. Its test accuracy on the HumanEval base dataset surpasses that of GPT-4 Turbo (April 2024) and GPT-4o. - GitHub - bin123apple/AutoC...

501 views17:59

Big data world

Точная настройка моделей трансформаторов меньшего размера: текстовая классификация
Использование Microsoft Phi-3 для генерации синтетических данных

https://towardsdatascience.com/fine-tune-smaller-transformer-models-text-classification-77cbbd3bf02b

Towards Data Science

Fine-Tune Smaller Transformer Models: Text Classification | Towards Data Science

Using Microsoft's Phi-3 to generate synthetic data

567 views18:01

Big data world

Опасная зона в науке о данных

Почему посредственное машинное обучение так опасно для бизнеса
https://delphinaai.substack.com/p/the-danger-zone-in-data-science

Delphina

The Danger Zone in Data Science

Why mediocre ML is so dangerous to the business

596 views18:41

Big data world

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

Gaussian: Фотореалистичная 3D-реконструкция уличных сцен — важнейший метод разработки реальных симуляторов автономного вождения. Несмотря на эффективность Neural Radiance Fields (NeRF) для сцен вождения, 3D Gaussian Splatting (3DGS) становится многообещающим направлением из-за его более высокой скорости и более четкого представления.

https://github.com/nnanhuang/s3gaussian

559 views08:16

Big data world

Путешествие LLM: от POC к производству

https://medium.com/cyberark-engineering/an-llm-journey-from-poc-to-production-6c5ec6a172fb

Medium

An LLM Journey: From POC to Production

Journey from LLM Proof-of-Concept to Production: Tips, challenges, and best practices for turning your idea into a real-world product.

624 views10:50

Big data world

Создание универсальных агентов, способных выполнять разнообразные задачи и развиваться в различных средах, является долгосрочной целью сообщества ИИ. Большие языковые модели (LLM) считаются многообещающей основой для создания таких агентов из-за их обобщенных возможностей.

AgentGym — это новая платформа, включающая множество сред и задач для широкого, унифицированного и одновременного исследования агентов в режиме реального времени.

https://github.com/woooodyy/agentgym

GitHub

GitHub - WooooDyy/AgentGym: Code and implementations for the paper "AgentGym: Evolving Large Language Model-based Agents across…

Code and implementations for the paper "AgentGym: Evolving Large Language Model-based Agents across Diverse Environments" by Zhiheng Xi et al. - WooooDyy/AgentGym

478 views13:20

Big data world

Анализ главных компонентов стал проще: пошаговое руководство
Реализуйте алгоритм PCA с нуля с помощью Python

https://towardsdatascience.com/principal-component-analysis-made-easy-a-step-by-step-tutorial-184f295e97fe

Medium

Principal Component Analysis Made Easy: A Step-by-Step Tutorial

Implement the PCA algorithm from scratch with Python

543 views14:19

Big data world

Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU

Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP, который помогает существенно ускорить процесс обучения больших языковых моделей.

В этой статье мы расскажем о том, как можно организовать обучение больших языковых моделей на кластере и какие проблемы при этом возникают. Рассмотрим альтернативные методы ZeRo и FSDP, которые помогают организовать этот процесс. И объясним, чем YaFSDP отличается от них. https://habr.com/ru/companies/yandex/articles/817509/

Хабр

Яндекс разработал и выложил в опенсорс YaFSDP — инструмент для ускорения обучения LLM и сокращения расходов на GPU

Сегодня мы выкладываем в опенсорс наш новый инструмент — алгоритм YaFSDP , который помогает существенно ускорить процесс обучения больших языковых моделей. В этой статье мы расскажем...

565 views06:12

Big data world

Бесплатная книга по байесовскому анализу данных

Одна из лучших книг по байесовскому анализу данных доступна бесплатно и охватывает такие ключевые основы, как вероятность и вывод, одно- и многопараметрические модели, а также иерархические модели. Это отличный ресурс, позволяющий перейти от основ к более сложным нюансам

https://stat.columbia.edu/~gelman/book/

595 views08:43

Big data world

Создание приложений LLM: четкое пошаговое руководство
Комплексные шаги по созданию собственных приложений LLM: от первоначальной идеи до экспериментов, оценки и производства

https://towardsdatascience.com/building-llm-apps-a-clear-step-by-step-guide-1fe1e6ef60fd

Medium

Building LLM Apps: A Clear Step-By-Step Guide

Comprehensive Steps for Building LLM-Native Apps: From Initial Idea to Experimentation, Evaluation, and Productization

572 views17:41

Big data world

Масштабируемое языковое моделирование без MatMul

Наши эксперименты показывают, что предлагаемые нами модели без MatMul достигают производительности на уровне современных трансформаторов, которым требуется гораздо больше памяти во время вывода в масштабе как минимум до 2,7B параметров.

https://github.com/ridgerchu/matmulfreellm

GitHub

GitHub - ridgerchu/matmulfreellm: Implementation for MatMul-free LM.

Implementation for MatMul-free LM. Contribute to ridgerchu/matmulfreellm development by creating an account on GitHub.

534 views05:26

Big data world

Практическое руководство по масштабированию обучения модели машинного обучения

https://blog.dailydoseofds.com/p/a-practical-guide-to-scaling-ml-model

Dailydoseofds

A Practical Guide to Scaling ML Model Training

GPUs - GPU Clusters - Distributed Training.

545 views17:01

Big data world

Warp — это среда Python для написания высокопроизводительного кода моделирования и графики.

https://github.com/NVIDIA/warp

GitHub

GitHub - NVIDIA/warp: A Python framework for accelerated simulation, data generation and spatial computing.

A Python framework for accelerated simulation, data generation and spatial computing. - NVIDIA/warp

555 views17:02

Big data world

Модель авторегрессии превосходит диффузию: лама для создания масштабируемых изображений

Мы представляем LlamaGen, новое семейство моделей генерации изображений, которые применяют оригинальную парадигму «предсказания следующего токена» больших языковых моделей к области визуальной генерации.

https://github.com/foundationvision/llamagen

477 views16:19

Big data world

🧵 Блокнот Jupyter на базе искусственного интеллекта, созданный с использованием React. 🧵
Блокнот Python на базе искусственного интеллекта, встроенный в React: создавайте и редактируйте ячейки кода, автоматически исправляйте ошибки и общайтесь с вашим кодом. Самое приятное то, что Thread работает локально и его можно бесплатно использовать с вашим собственным ключом API…

https://github.com/squaredtechnologies/thread

GitHub

GitHub - alishobeiri/thread: AI-powered Jupyter Notebook — use local AI to generate and edit code cells, automatically fix errors…

AI-powered Jupyter Notebook — use local AI to generate and edit code cells, automatically fix errors, and chat with your data - alishobeiri/thread

576 views16:35

Big data world

Воспроизводим GPT-2 (124М) с нуля. В этом видео показан весь процесс

https://www.youtube.com/watch?v=l8pRSuU81PU

YouTube

Let's reproduce GPT-2 (124M)

We reproduce the GPT-2 (124M) from scratch. This video covers the whole process: First we build the GPT-2 network, then we optimize its training to be really fast, then we set up the training run following the GPT-2 and GPT-3 paper and their hyperparameters…

508 views05:52

Big data world

Написание быстрых строковых функций для NumPy 2.0

https://labs.quansight.org/blog/numpy-string-ufuncs

labs.quansight.org

Writing fast string ufuncs for NumPy 2.0

The journey of writing string ufuncs and creating the np.strings namespace for NumPy 2.0

914 views06:59

Big data world

Эмпирическое исследование использования энергии и производительности библиотек Python для анализа данных Pandas и Polars [PDF]
Мы стремимся оценить энергопотребление Pandas, широко используемой библиотеки манипулирования данными Python, и Polars, библиотеки на основе Rust, известной своей производительность. Целью исследования является предоставление аналитикам данных информации путем определения сценариев, в которых одна библиотека превосходит другую с точки зрения энергопотребления, а также изучения возможных корреляций между показателями энергопотребления и производительности… https://www.ivanomalavolta.com/files/papers/EASE_2024.pdf

Справочник по генеративному искусственному интеллекту: план учебных ресурсов

https://genai-handbook.github.io/

517 views09:54

Big data world

Уроки, извлеченные из масштабирования до многотерабайтных наборов данных.
Этот пост предназначен для того, чтобы познакомить вас с некоторыми уроками, которые я усвоил при работе с многотерабайтными наборами данных…

https://v2thegreat.com/2024/06/19/lessons-learned-from-scaling-to-multi-terabyte-datasets/

Build Great Things

Lessons Learned from Scaling to Multi-Terabyte Datasets

This post is meant to guide you through some of the lessons I’ve learned while working with multi-terabyte datasets. The lessons shared are focused on what someone may face as the size of the…

445 views06:50

HTML Embed Code:

<iframe width="100%" src="https://www.hottg.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>

2025/07/06 06:49:56
Back to Top