Channel: Big data world
Машинное обучение с нуля готово к работе!
Книга о нейронных сетях с открытым исходным кодом, которую вы все ждали https://thepalindrome.org/p/machine-learning-from-zero-is-ready
Книга о нейронных сетях с открытым исходным кодом, которую вы все ждали https://thepalindrome.org/p/machine-learning-from-zero-is-ready
thepalindrome.org
Machine Learning From Zero is ready to go!
The open source neural-networks-from-scratch book you were all waiting for
12 фундаментальных математических теорий, необходимых для понимания ИИ
https://medium.com/teach-me-in-plain-language/12-fundamental-math-theories-needed-to-understand-ai-5383b49a04c8
https://medium.com/teach-me-in-plain-language/12-fundamental-math-theories-needed-to-understand-ai-5383b49a04c8
Medium
12 Fundamental Math Theories Needed to Understand AI
Zero fluff, just theories I learned in my Bachelors, Masters and professional work specialized in AI and Data
17 проектов для команд по созданию функций ИИ в 100 раз быстрее
https://dev.to/latitude/17-projects-for-teams-to-build-ai-features-100x-faster-nbn
https://dev.to/latitude/17-projects-for-teams-to-build-ai-features-100x-faster-nbn
DEV Community
17 Projects for Developers to Build AI Features 100x Faster 👩💻🔥
Prompt engineering and AI are booming, with almost every startup team integrating AI to make things...
Понимание LLM с нуля, используя математику средней школы
https://rohit-patel.medium.com/understanding-llms-from-scratch-using-middle-school-math-e602d27ec876
https://rohit-patel.medium.com/understanding-llms-from-scratch-using-middle-school-math-e602d27ec876
Medium
Understanding LLMs from Scratch Using Middle School Math
In this article, we talk about how LLMs work, from scratch — assuming only that you know how to add and multiply two numbers. The article…
pg_parquet: расширение для соединения Postgres и Parquet
Сегодня мы рады представить pg_parquet — расширение Postgres с открытым исходным кодом для работы с файлами Parquet. Расширение считывает и записывает файлы parquet на локальный диск или в S3 напрямую из Postgres. С pg_parquet вы можете:
Экспорт таблиц или запросов из Postgres в файлы Parquet
Загрузка данных из файлов Parquet в Postgres
Проверьте схему и метаданные существующих файлов Parquet.
https://www.crunchydata.com/blog/pg_parquet-an-extension-to-connect-postgres-and-parquet
Сегодня мы рады представить pg_parquet — расширение Postgres с открытым исходным кодом для работы с файлами Parquet. Расширение считывает и записывает файлы parquet на локальный диск или в S3 напрямую из Postgres. С pg_parquet вы можете:
Экспорт таблиц или запросов из Postgres в файлы Parquet
Загрузка данных из файлов Parquet в Postgres
Проверьте схему и метаданные существующих файлов Parquet.
https://www.crunchydata.com/blog/pg_parquet-an-extension-to-connect-postgres-and-parquet
Crunchy Data
pg_parquet: An Extension to Connect Postgres and Parquet | Crunchy Data Blog
Crunchy Data is excited to release a new extension so you can write Postgres data to Parquet and or pull data from Parquet to Postgres. Craig has the details and sample code.
Нейронные сети (инференс MNIST) на «3-центовом» микроконтроллере
Вдохновившись на удивление высокой производительностью нейронных сетей и обучением с учётом квантования на микроконтроллере CH32V003, я захотел выяснить, как далеко эту идею можно развить. Насколько можно сжать нейронную сеть с сохранением высокой точности тестов на датасете MNIST? Когда речь идёт о крайне дешёвых микроконтроллерах, сложно предположить что-то более подходящее, чем 8-битные Padauk.
Эти устройства оптимизированы под простейшие и самые дешёвые приложения из доступных. Самая мелкая модель серии, PMS150C, оснащена однократно программируемой памятью в 1024 13-битных слова и 64 байтами RAM — на порядок меньше, чем в CH32V003. Кроме того, эта модель в противоположность намного более мощному набору инструкций RISC-V содержит коммерческий регистр-аккумулятор на основе 8-битной архитектуры.
Возможно ли реализовать механизм инференса MNIST, способный классифицировать рукописные числа, также и на PMS150C?
https://habr.com/ru/companies/ruvds/articles/853050/
Вдохновившись на удивление высокой производительностью нейронных сетей и обучением с учётом квантования на микроконтроллере CH32V003, я захотел выяснить, как далеко эту идею можно развить. Насколько можно сжать нейронную сеть с сохранением высокой точности тестов на датасете MNIST? Когда речь идёт о крайне дешёвых микроконтроллерах, сложно предположить что-то более подходящее, чем 8-битные Padauk.
Эти устройства оптимизированы под простейшие и самые дешёвые приложения из доступных. Самая мелкая модель серии, PMS150C, оснащена однократно программируемой памятью в 1024 13-битных слова и 64 байтами RAM — на порядок меньше, чем в CH32V003. Кроме того, эта модель в противоположность намного более мощному набору инструкций RISC-V содержит коммерческий регистр-аккумулятор на основе 8-битной архитектуры.
Возможно ли реализовать механизм инференса MNIST, способный классифицировать рукописные числа, также и на PMS150C?
https://habr.com/ru/companies/ruvds/articles/853050/
Хабр
Нейронные сети (инференс MNIST) на «3-центовом» микроконтроллере
Вдохновившись на удивление высокой производительностью нейронных сетей и обучением с учётом квантования на микроконтроллере CH32V003 , я захотел выяснить, как далеко эту идею можно развить. Насколько...
This media is not supported in your browser
VIEW IN TELEGRAM
Вложения недооценены
Машинное обучение (ML) имеет потенциал для продвижения современного уровня технического письма. Нет, я не говорю о моделях генерации текста, таких как Claude, Gemini, LLaMa, GPT и т. д. Технология ML, которая может в конечном итоге оказать наибольшее влияние на техническое письмо, — это встраивание .
Вложения не являются чем-то новым, но они стали гораздо более широкодоступными за последние пару лет. То, что вложения предлагают техническим писателям, — это возможность обнаруживать связи между текстами в ранее невозможных масштабах .https://technicalwriting.dev/data/embeddings.html
Машинное обучение (ML) имеет потенциал для продвижения современного уровня технического письма. Нет, я не говорю о моделях генерации текста, таких как Claude, Gemini, LLaMa, GPT и т. д. Технология ML, которая может в конечном итоге оказать наибольшее влияние на техническое письмо, — это встраивание .
Вложения не являются чем-то новым, но они стали гораздо более широкодоступными за последние пару лет. То, что вложения предлагают техническим писателям, — это возможность обнаруживать связи между текстами в ранее невозможных масштабах .https://technicalwriting.dev/data/embeddings.html
Python больше не король науки о данных
5 причин, по которым Python теряет свою корону
https://blog.stackademic.com/is-python-still-the-king-of-data-science-476f1e3191b3
5 причин, по которым Python теряет свою корону
https://blog.stackademic.com/is-python-still-the-king-of-data-science-476f1e3191b3
Medium
Python is No More The King of Data Science
5 Reasons Why Python is Losing Its Crown
Как Instacart использует машинное обучение, чтобы предлагать замены для отсутствующих на складе товаров
https://tech.instacart.com/how-instacart-uses-machine-learning-to-suggest-replacements-for-out-of-stock-products-8f80d03bb5af
https://tech.instacart.com/how-instacart-uses-machine-learning-to-suggest-replacements-for-out-of-stock-products-8f80d03bb5af
Medium
How Instacart Uses Machine Learning to Suggest Replacements for Out-of-Stock Products
Authors: Ahsaas Bajaj, Shishir Kumar Prasad
Введение в трансформаторы в машинном обучении (часть 1)
https://medium.com/h7w/an-introduction-to-transformers-in-machine-learning-50c8a53af576
https://medium.com/h7w/an-introduction-to-transformers-in-machine-learning-50c8a53af576
Medium
An Introduction to Transformers in Machine Learning (Part 1)
When you read about Machine Learning in Natural Language Processing these days, all you hear is one thing — Transformers. Models based on…
Изучите генеративный ИИ для разработчиков
https://www.freecodecamp.org/news/learn-generative-ai-for-developers
https://www.freecodecamp.org/news/learn-generative-ai-for-developers
freeCodeCamp.org
Learn Generative AI for Developers
Generative AI is reshaping the landscape of artificial intelligence, allowing machines to create text, images, audio, and even answer questions in natural language. But understanding the entire end-to-end process can be complex without structured gui...
Мой путь в машинном обучении: идеальная дорожная карта для новичков
https://medium.com/@ashujha44/my-machine-learning-journey-perfect-roadmap-for-beginners-78208c47fb92
https://medium.com/@ashujha44/my-machine-learning-journey-perfect-roadmap-for-beginners-78208c47fb92
Medium
My Machine Learning Journey: Perfect Roadmap for Beginners
Learning Approach: Code First, Theory Later
Шпаргалка по структурам данных
В этой статье мы дадим введение в структуры данных, предложив примеры каждой структуры и проиллюстрировав, как они могут быть представлены в Memgraph. https://memgraph.com/blog/data-structures-cheat-sheet
В этой статье мы дадим введение в структуры данных, предложив примеры каждой структуры и проиллюстрировав, как они могут быть представлены в Memgraph. https://memgraph.com/blog/data-structures-cheat-sheet
Memgraph
Data Structures Cheat Sheet
Introduction to data structures, offering examples of each structure and illustrating how they could be represented in Memgraph
Auto-RAG: Автономная генерация с расширенным поиском для больших языковых моделей https://github.com/ictnlp/auto-rag
GitHub
GitHub - ictnlp/Auto-RAG: This is the official repository for Auto-RAG.
This is the official repository for Auto-RAG. Contribute to ictnlp/Auto-RAG development by creating an account on GitHub.
Масштабирующие трансформаторы для высококачественного кодирования речи с низким битрейтом https://github.com/Stability-AI/stable-codec
GitHub
GitHub - Stability-AI/stable-codec: A family of state-of-the-art Transformer-based audio codecs for low-bitrate high-quality audio…
A family of state-of-the-art Transformer-based audio codecs for low-bitrate high-quality audio coding. - Stability-AI/stable-codec
Необходимые условия управления данными
Существует множество методов управления данными, которые могут помочь вам лучше организовать ваш проект, однако способность команды «сделать все» на самом деле ограничена такими факторами, как финансирование, сроки, размер команды и опыт. Поэтому для команд важно рассмотреть, какие методы осуществимы, а также какие из них дадут им наибольшую отдачу от инвестиций... Я думаю, что есть список основных методов, которые следует внедрить на ранней стадии, до начала сбора данных, чтобы ваш проект был успешным. В этой записи блога будут рассмотрены эти методы..
https://cghlewis.com/blog/project_beginning
Существует множество методов управления данными, которые могут помочь вам лучше организовать ваш проект, однако способность команды «сделать все» на самом деле ограничена такими факторами, как финансирование, сроки, размер команды и опыт. Поэтому для команд важно рассмотреть, какие методы осуществимы, а также какие из них дадут им наибольшую отдачу от инвестиций... Я думаю, что есть список основных методов, которые следует внедрить на ранней стадии, до начала сбора данных, чтобы ваш проект был успешным. В этой записи блога будут рассмотрены эти методы..
https://cghlewis.com/blog/project_beginning
Crystal Lewis
Bare Necessities of Data Management | Crystal Lewis
An overview of data management priorities in the early phases of an education research project.
13 бесплатных курсов по ИИ-агентам в 2025 году
https://www.marktechpost.com/2025/01/01/13-free-ai-courses-on-ai-agents-in-2025
https://www.marktechpost.com/2025/01/01/13-free-ai-courses-on-ai-agents-in-2025
MarkTechPost
13 Free AI Courses on AI Agents in 2025
In the ever-evolving landscape of artificial intelligence, the year 2025 has brought forth a treasure trove of educational resources for aspiring AI enthusiasts and professionals. AI agents, with their ability to perform complex tasks autonomously, are at…
7 методов оперативной инженерии следующего поколения
С продуктами большой языковой модели (LLM), такими как ChatGPT и Gemini, захватывающими мир, нам нужно скорректировать наши навыки, чтобы следовать тренду. Один из навыков, который нам нужен в современную эпоху, — это быстрая инженерия.
Prompt engineering — это стратегия разработки эффективных подсказок, которые оптимизируют производительность и выход LLM. Структурируя входные данные, prompt engineering стремится обеспечить релевантные и высококачественные результаты. https://machinelearningmastery.com/7-next-generation-prompt-engineering-techniques
С продуктами большой языковой модели (LLM), такими как ChatGPT и Gemini, захватывающими мир, нам нужно скорректировать наши навыки, чтобы следовать тренду. Один из навыков, который нам нужен в современную эпоху, — это быстрая инженерия.
Prompt engineering — это стратегия разработки эффективных подсказок, которые оптимизируют производительность и выход LLM. Структурируя входные данные, prompt engineering стремится обеспечить релевантные и высококачественные результаты. https://machinelearningmastery.com/7-next-generation-prompt-engineering-techniques
Мы создали мини-приложение ChatGPT, которое работает локально на вашем компьютере.
В основе лежит модель Llama3.2-vision с открытым исходным кодом.
https://blog.dailydoseofds.com/p/building-a-100-local-mini-chatgpt
В основе лежит модель Llama3.2-vision с открытым исходным кодом.
https://blog.dailydoseofds.com/p/building-a-100-local-mini-chatgpt
Dailydoseofds
Building a 100% Local mini-ChatGPT
...using Llama-3.2 Vision and Chainlit.
HTML Embed Code: