Channel: Big data world
Как ускорить Python Pandas более чем в 300 раз
https://www.kdnuggets.com/how-to-speed-up-python-pandas-by-over-300x
https://www.kdnuggets.com/how-to-speed-up-python-pandas-by-over-300x
KDnuggets
How to Speed Up Python Pandas by Over 300x
In this blog, we will define Pandas and provide an example of how you can vectorize your Python code to optimize dataset analysis using Pandas to speed up your code over 300x times faster.
Учебное пособие: анализ трафика с помощью видео (21 минута чтения) В этом учебном пособии рассказывается о том, как создать систему, которая сообщает о плотности автомобильного трафика. Для подсчета автомобилей с течением времени используется современное компьютерное зрение. подробнее→ https://blog.roboflow.com/video-stream-analysis/
Roboflow Blog
Realtime Video Stream Analysis with Computer Vision
In this guide, we use computer vision to process multiple live video streams to perform analysis and gain insights.
Большие языковые модели (LLM) обладают огромным потенциалом, но разработка надежных приложений промышленного уровня остается сложной задачей. После создания десятков систем LLM я свел формулу успеха к четырем фундаментальным принципам, которые может применять любая команда.
https://towardsdatascience.com/the-llm-triangle-principles-to-architect-reliable-ai-apps-d3753dd8542e
https://towardsdatascience.com/the-llm-triangle-principles-to-architect-reliable-ai-apps-d3753dd8542e
Medium
The LLM Triangle Principles to Architect Reliable AI Apps
Software design principles for thoughtfully designing reliable, high-performing LLM applications
Советы по эффективному обучению моделей машинного обучения
https://machinelearningmastery.com/tips-for-effectively-training-your-machine-learning-models
https://machinelearningmastery.com/tips-for-effectively-training-your-machine-learning-models
MachineLearningMastery.com
Tips for Effectively Training Your Machine Learning Models - MachineLearningMastery.com
In machine learning projects, achieving optimal model performance requires paying attention to various steps in the training process. But before focusing on the technical aspects of model training, it is important to define the problem, understand the context…
Справочник специалиста по данным 2024 г.
Подборка ресурсов (бесплатных и платных), которые помогут специалистам по данным учиться, расти и выходить на новый уровень в области науки о данных…
https://github.com/andresvourakis/data-scientist-handbook
Что такое градиентный спуск?
https://leakybrain.ericekholm.com/stats/gradient_descent
Machine Learning Engineering Open Book
Это открытая коллекция методологий, инструментов и пошаговых инструкций, которые помогут успешно тренировать большие языковые модели и многомодальные модели. Это технический материал, подходящий для инженеров и операторов обучения LLM/VLM.
https://github.com/stas00/ml-engineering
Подборка ресурсов (бесплатных и платных), которые помогут специалистам по данным учиться, расти и выходить на новый уровень в области науки о данных…
https://github.com/andresvourakis/data-scientist-handbook
Что такое градиентный спуск?
https://leakybrain.ericekholm.com/stats/gradient_descent
Machine Learning Engineering Open Book
Это открытая коллекция методологий, инструментов и пошаговых инструкций, которые помогут успешно тренировать большие языковые модели и многомодальные модели. Это технический материал, подходящий для инженеров и операторов обучения LLM/VLM.
https://github.com/stas00/ml-engineering
GitHub
GitHub - andresvourakis/data-scientist-handbook: Curated Data Science resources (Free & Paid) to help aspiring and experienced…
Curated Data Science resources (Free & Paid) to help aspiring and experienced data scientists learn, grow, and advance their careers. - andresvourakis/data-scientist-handbook
Агентный ИИ: создание агента ИИ, способного ориентироваться в Интернете
https://cobusgreyling.medium.com/agentic-ai-creating-an-ai-agent-which-can-navigate-the-internet-655fe5596a0c
https://cobusgreyling.medium.com/agentic-ai-creating-an-ai-agent-which-can-navigate-the-internet-655fe5596a0c
Medium
Agentic AI: Creating An AI Agent Which Can Navigate The Internet
WebVoyager is a vision-enabled web-browsing agent capable of navigating the web. It interprets annotated browser screenshots for each…
Как создать интерпретируемую модель искусственного интеллекта — простой пример кода Python
https://www.freecodecamp.org/news/how-to-build-an-interpretable-ai-deep-learning-model
https://www.freecodecamp.org/news/how-to-build-an-interpretable-ai-deep-learning-model
freeCodeCamp.org
How to Build an Interpretable Artificial Intelligence Model – Simple Python Code Example
Artificial Intelligence is being used everywhere these days. And many of the groundbreaking applications come from Machine Learning, a subfield of AI. Within Machine Learning, a field called Deep Learning represents one of the main areas of research....
IMAGDressing-v1: настраиваемая виртуальная одежда
Последние достижения позволили добиться реалистичной виртуальной примерки (VTON) посредством локализованной прорисовки одежды с использованием моделей скрытой диффузии, что значительно улучшило опыт онлайн-покупок для потребителей. https://github.com/muzishen/imagdressing
Последние достижения позволили добиться реалистичной виртуальной примерки (VTON) посредством локализованной прорисовки одежды с использованием моделей скрытой диффузии, что значительно улучшило опыт онлайн-покупок для потребителей. https://github.com/muzishen/imagdressing
GitHub
GitHub - muzishen/IMAGDressing: [AAAI 2025]👔IMAGDressing👔: Interactive Modular Apparel Generation for Virtual Dressing. It enables…
[AAAI 2025]👔IMAGDressing👔: Interactive Modular Apparel Generation for Virtual Dressing. It enables customizable human image generation with flexible garment, pose, and scene control, ensuring high ...
Forwarded from Добро пожаловать в мир Python
Как построить модель квантового искусственного интеллекта — с примерами кода Python
https://www.freecodecamp.org/news/how-to-build-a-quantum-ai-model
https://www.freecodecamp.org/news/how-to-build-a-quantum-ai-model
freeCodeCamp.org
How to Build a Quantum Artificial Intelligence Model – With Python Code Examples
Machine learning (ML) is one of the most important subareas of AI used in building great AI systems. In ML, deep learning is a narrow area focused solely on neural networks. Through the field of deep learning, systems like ChatGPT and many other AI m...
DataComp-LM (DCLM) — это комплексная структура, разработанная для создания и обучения больших языковых моделей (LLM) с разнообразными наборами данных.
https://github.com/mlfoundations/dclm
https://github.com/mlfoundations/dclm
GitHub
GitHub - mlfoundations/dclm: DataComp for Language Models
DataComp for Language Models. Contribute to mlfoundations/dclm development by creating an account on GitHub.
Викторина «Трансформеры с обнимашками»
В этом тесте вы проверите свое понимание Hugging Face Transformers . Эта библиотека является популярным выбором для работы с моделями трансформаторов в задачах обработки естественного языка, компьютерного зрения и других приложениях машинного обучения.
https://realpython.com/quizzes/hugging-face-transformers
В этом тесте вы проверите свое понимание Hugging Face Transformers . Эта библиотека является популярным выбором для работы с моделями трансформаторов в задачах обработки естественного языка, компьютерного зрения и других приложениях машинного обучения.
https://realpython.com/quizzes/hugging-face-transformers
Realpython
Hugging Face Transformers Quiz – Real Python
In this quiz, you'll test your understanding of the Hugging Face Transformers library. This library is a popular choice for working with transformer models in natural language processing tasks, computer vision, and other machine learning applications.
Модели ИИ терпят крах при обучении на рекурсивно сгенерированных данных
https://www.nature.com/articles/s41586-024-07566-y
https://www.nature.com/articles/s41586-024-07566-y
Nature
AI models collapse when trained on recursively generated data
Nature - Analysis shows that indiscriminately training generative artificial intelligence on real and generated content, usually done by scraping data from the Internet, can lead to a collapse in...
Прикладное машинное обучение для табличных данных
Мы хотим создать практическое руководство по разработке качественных предиктивных моделей из табличных данных… Книга дает целостный взгляд на процесс предиктивного моделирования и фокусируется на нескольких областях, которые обычно остаются вне подобных работ. Например, эффективность модели может зависеть от того, как представлены предикторы. Из-за этого мы тесно связываем методы проектирования признаков с моделями машинного обучения. Кроме того, довольно много работы происходит после того, как мы определили нашу лучшую модель и создали окончательную подгонку. Эти действия после моделирования являются важной частью процесса разработки модели и будут подробно описаны…
https://aml4td.org/
Мы хотим создать практическое руководство по разработке качественных предиктивных моделей из табличных данных… Книга дает целостный взгляд на процесс предиктивного моделирования и фокусируется на нескольких областях, которые обычно остаются вне подобных работ. Например, эффективность модели может зависеть от того, как представлены предикторы. Из-за этого мы тесно связываем методы проектирования признаков с моделями машинного обучения. Кроме того, довольно много работы происходит после того, как мы определили нашу лучшую модель и создали окончательную подгонку. Эти действия после моделирования являются важной частью процесса разработки модели и будут подробно описаны…
https://aml4td.org/
aml4td.org
Applied Machine Learning for Tabular Data
MINT-1T: мультимодальный чередующийся набор данных объемом один триллион токенов.
Мультимодальные чередующиеся наборы данных, включающие чередующиеся последовательности изображений и текста свободной формы, имеют решающее значение для обучения передовых больших мультимодальных моделей (LMM). Несмотря на быстрое развитие LMM с открытым исходным кодом, по-прежнему наблюдается выраженный дефицит крупномасштабных разнообразных мультимодальных чередующихся наборов данных с открытым исходным кодом. В ответ на это мы представляем MINT-1T, самый обширный и разнообразный набор данных Multimodal INTerleaved с открытым исходным кодом на сегодняшний день.
https://github.com/mlfoundations/mint-1t
Мультимодальные чередующиеся наборы данных, включающие чередующиеся последовательности изображений и текста свободной формы, имеют решающее значение для обучения передовых больших мультимодальных моделей (LMM). Несмотря на быстрое развитие LMM с открытым исходным кодом, по-прежнему наблюдается выраженный дефицит крупномасштабных разнообразных мультимодальных чередующихся наборов данных с открытым исходным кодом. В ответ на это мы представляем MINT-1T, самый обширный и разнообразный набор данных Multimodal INTerleaved с открытым исходным кодом на сегодняшний день.
https://github.com/mlfoundations/mint-1t
Изучите основы RAG и продвинутые методы
Понимание того, как улучшить возможности систем ИИ и машинного обучения, является ценным навыком. Одним из методов является Retrieval-Augmented Generation (RAG), мощная техника, которая сочетает методы, основанные на поиске, с генеративными моделями для создания более точных и контекстно-релевантных ответов.
https://www.freecodecamp.org/news/learn-rag-fundamentals-and-advanced-techniques
Понимание того, как улучшить возможности систем ИИ и машинного обучения, является ценным навыком. Одним из методов является Retrieval-Augmented Generation (RAG), мощная техника, которая сочетает методы, основанные на поиске, с генеративными моделями для создания более точных и контекстно-релевантных ответов.
https://www.freecodecamp.org/news/learn-rag-fundamentals-and-advanced-techniques
freeCodeCamp.org
Learn RAG Fundamentals and Advanced Techniques
Understanding how to enhance the capabilities of AI and machine learning systems is a valuable skill. One method is Retrieval-Augmented Generation (RAG), a powerful technique that combines retrieval-based methods with generative models to create more...
Потенциальное применение LLM, которое привлекло внимание и инвестиции, связано с их способностью генерировать SQL-запросы. Запросы к большим базам данных с использованием естественного языка открывают несколько привлекательных вариантов использования: от повышения прозрачности данных до улучшения доступности для нетехнических пользователей.
Однако, как и в случае с любым контентом, сгенерированным ИИ, вопрос оценки важен. Как мы можем определить, является ли SQL-запрос, сгенерированный LLM, правильным и дает ли он предполагаемые результаты? Наше недавнее исследование углубляется в этот вопрос и изучает эффективность использования LLM в качестве судьи для оценки генерации SQL.
https://towardsdatascience.com/evaluating-sql-generation-with-llm-as-a-judge-1ff69a70e7cf
Однако, как и в случае с любым контентом, сгенерированным ИИ, вопрос оценки важен. Как мы можем определить, является ли SQL-запрос, сгенерированный LLM, правильным и дает ли он предполагаемые результаты? Наше недавнее исследование углубляется в этот вопрос и изучает эффективность использования LLM в качестве судьи для оценки генерации SQL.
https://towardsdatascience.com/evaluating-sql-generation-with-llm-as-a-judge-1ff69a70e7cf
Medium
Evaluating SQL Generation with LLM as a Judge
Results point to a promising approach
Наглядное руководство по квантованию — демистификация сжатия LLM
Большие языковые модели (LLM) часто слишком велики для запуска на потребительском оборудовании. Эти модели могут содержать миллиарды параметров и, как правило, требуют графических процессоров с большим объемом видеопамяти для ускорения вывода. Таким образом, все больше исследований было сосредоточено на том, чтобы сделать эти модели меньше за счет улучшения обучения, адаптеров и т. д. Одна из основных методик в этой области называется квантованием. В этой статье я представлю область квантования в контексте моделирования языка и рассмотрю концепции одну за другой, чтобы развить интуицию об этой области. Мы рассмотрим различные методологии, варианты использования и принципы, лежащие в основе квантования… https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Интерпретируемое машинное обучение
Руководство по созданию объяснимых моделей черного ящика
https://christophm.github.io/interpretable-ml-book
Большие языковые модели (LLM) часто слишком велики для запуска на потребительском оборудовании. Эти модели могут содержать миллиарды параметров и, как правило, требуют графических процессоров с большим объемом видеопамяти для ускорения вывода. Таким образом, все больше исследований было сосредоточено на том, чтобы сделать эти модели меньше за счет улучшения обучения, адаптеров и т. д. Одна из основных методик в этой области называется квантованием. В этой статье я представлю область квантования в контексте моделирования языка и рассмотрю концепции одну за другой, чтобы развить интуицию об этой области. Мы рассмотрим различные методологии, варианты использования и принципы, лежащие в основе квантования… https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Интерпретируемое машинное обучение
Руководство по созданию объяснимых моделей черного ящика
https://christophm.github.io/interpretable-ml-book
Maartengrootendorst
A Visual Guide to Quantization
Exploring memory-efficient techniques for LLMs
HTML Embed Code: