Channel: Big data world
Многоагентная структура веб-поисковой системы на основе LLM (например, Perplexity.ai Pro и SearchGPT)
MindSearch — это фреймворк поисковой системы ИИ с открытым исходным кодом и производительностью Perplexity.ai Pro. Вы можете просто развернуть его с собственной поисковой системой в стиле perplexity.ai с закрытыми исходными кодами LLM (GPT, Claude) или с открытыми исходными кодами LLM (InternLM2.5-7b-chat). https://github.com/internlm/mindsearch
MindSearch — это фреймворк поисковой системы ИИ с открытым исходным кодом и производительностью Perplexity.ai Pro. Вы можете просто развернуть его с собственной поисковой системой в стиле perplexity.ai с закрытыми исходными кодами LLM (GPT, Claude) или с открытыми исходными кодами LLM (InternLM2.5-7b-chat). https://github.com/internlm/mindsearch
GitHub
GitHub - InternLM/MindSearch: 🔍 An LLM-based Multi-agent Framework of Web Search Engine (like Perplexity.ai Pro and SearchGPT)
🔍 An LLM-based Multi-agent Framework of Web Search Engine (like Perplexity.ai Pro and SearchGPT) - InternLM/MindSearch
Исследователи Google DeepMind представляют Diffusion Augmented Agents: фреймворк машинного обучения для эффективного исследования и передачи обучения
https://www.marktechpost.com/2024/08/02/google-deepmind-researchers-introduce-diffusion-augmented-agents-a-machine-learning-framework-for-efficient-exploration-and-transfer-learning
https://www.marktechpost.com/2024/08/02/google-deepmind-researchers-introduce-diffusion-augmented-agents-a-machine-learning-framework-for-efficient-exploration-and-transfer-learning
MarkTechPost
Google DeepMind Researchers Introduce Diffusion Augmented Agents: A Machine Learning Framework for Efficient Exploration and Transfer…
Reinforcement learning (RL) focuses on how agents can learn to make decisions by interacting with their environment. These agents aim to maximize cumulative rewards over time by using trial and error. This field is particularly challenging due to the need…
Lagent: легкий фреймворк Python с открытым исходным кодом, позволяющий пользователям эффективно создавать агенты на основе больших языковых моделей (LLM)
https://www.marktechpost.com/2024/08/07/lagent-a-lightweight-open-source-python-framework-that-allows-users-to-efficiently-build-large-language-model-llm-based-agents
https://www.marktechpost.com/2024/08/07/lagent-a-lightweight-open-source-python-framework-that-allows-users-to-efficiently-build-large-language-model-llm-based-agents
MarkTechPost
Lagent: A Lightweight Open-Source Python Framework that Allows Users to Efficiently Build Large Language Model (LLM)-Based Agents
Developing efficient language model-based agents is crucial for various applications, from virtual assistants to automated customer service. However, creating these agents can be complex and resource-intensive. One can face challenges in integrating different…
CatVTON: конкатенация — это все, что вам нужно для виртуальной примерки с диффузионными моделями
https://github.com/zheng-chong/catvton
https://github.com/zheng-chong/catvton
GitHub
GitHub - Zheng-Chong/CatVTON: [ICLR 2025] CatVTON is a simple and efficient virtual try-on diffusion model with 1) Lightweight…
[ICLR 2025] CatVTON is a simple and efficient virtual try-on diffusion model with 1) Lightweight Network (899.06M parameters totally), 2) Parameter-Efficient Training (49.57M parameters trainable) ...
Создавайте более надежные деревья решений с помощью самонастройки и генетических алгоритмов
Метод, позволяющий лучше использовать деревья решений в качестве интерпретируемых моделей. https://towardsdatascience.com/create-stronger-decision-trees-with-bootstrapping-and-genetic-algorithms-1ae633a993c9
Метод, позволяющий лучше использовать деревья решений в качестве интерпретируемых моделей. https://towardsdatascience.com/create-stronger-decision-trees-with-bootstrapping-and-genetic-algorithms-1ae633a993c9
Medium
Create Stronger Decision Trees with bootstrapping and genetic algorithms
A technique to better allow decision trees to be used as interpretable models
Spark!= Pandas + Поддержка больших данных
Будьте осторожны, перенося свои знания с Pandas на Spark.
Pandas и Spark оперируют одним и тем же типом данных — таблицами. Однако способ их взаимодействия с ними существенно отличается.
Тем не менее, многие программисты часто переносят свои знания из Pandas в Spark, предполагая схожесть архитектуры, что приводит к узким местам в производительности.
https://blog.dailydoseofds.com/p/spark-pandas-big-data-support
Будьте осторожны, перенося свои знания с Pandas на Spark.
Pandas и Spark оперируют одним и тем же типом данных — таблицами. Однако способ их взаимодействия с ними существенно отличается.
Тем не менее, многие программисты часто переносят свои знания из Pandas в Spark, предполагая схожесть архитектуры, что приводит к узким местам в производительности.
https://blog.dailydoseofds.com/p/spark-pandas-big-data-support
Dailydoseofds
Spark != Pandas + Big Data Support
Extend your learnings from Pandas to Spark with caution.
Как справиться с отсутствующими данными с помощью методов интерполяции в Pandas
Предотвратите потерю данных — научитесь профессионально обрабатывать отсутствующие данные, используя методы интерполяции в Pandas. https://www.kdnuggets.com/how-to-deal-with-missing-data-using-interpolation-techniques-in-pandas
Предотвратите потерю данных — научитесь профессионально обрабатывать отсутствующие данные, используя методы интерполяции в Pandas. https://www.kdnuggets.com/how-to-deal-with-missing-data-using-interpolation-techniques-in-pandas
KDnuggets
How to Deal with Missing Data Using Interpolation Techniques in Pandas - KDnuggets
Stop data from dropping out - learn how to handle missing data like a pro using interpolation techniques in Pandas.
Одной из главных задач искусственного интеллекта является разработка агентов, способных проводить научные исследования и открывать новые знания. Хотя пограничные модели уже использовались для помощи ученым-людям, например, для мозгового штурма идей или написания кода, они по-прежнему требуют обширного ручного надзора или сильно ограничены конкретной задачей.
Мы рады представить The AI Scientist — первую комплексную систему для полностью автоматизированных научных открытий, позволяющую базовым моделям, таким как крупные языковые модели (LLM), проводить исследования независимо.
https://github.com/SakanaAI/AI-Scientist
Запись в блоге: https://sakana.ai/ai-scientist/
Статья: https://arxiv.org/abs/2408.06292
Мы рады представить The AI Scientist — первую комплексную систему для полностью автоматизированных научных открытий, позволяющую базовым моделям, таким как крупные языковые модели (LLM), проводить исследования независимо.
https://github.com/SakanaAI/AI-Scientist
Запись в блоге: https://sakana.ai/ai-scientist/
Статья: https://arxiv.org/abs/2408.06292
GitHub
GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬 - SakanaAI/AI-Scientist
7 проектов машинного обучения, которые могут повысить ценность любого резюме
https://machinelearningmastery.com/7-machine-learning-projects-that-can-add-value-to-any-resume
https://machinelearningmastery.com/7-machine-learning-projects-that-can-add-value-to-any-resume
MachineLearningMastery.com
7 Machine Learning Projects That Can Add Value to Any Resume - MachineLearningMastery.com
Learning by doing is the best way to master essential skills for becoming a machine learning engineer. Instead of just focusing on simple classification and regression models. In this blog, we will focus on advanced machine learning projects that will impact…
Как подружить PyTorch и видеокарты AMD с помощью pytorch_dlprim
Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно мощных старых карт AMD (типа AMD Fury), на которых легко идут довольно тяжёлые игры типа Cyberpunk 2077 или Atomic Heart, сталкиваются с тем, что эти GPU бесполезны для PyTorch и других фреймворков машинного обучения. Да и самые современные карты AMD 7900-й серии работают с PyTorch только из под Linux. Также есть редкие карты других брендов, типа Intel Arc или китайские, которые хотелось бы использовать для машинного обучения. https://habr.com/ru/companies/ruvds/articles/835782/
Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно мощных старых карт AMD (типа AMD Fury), на которых легко идут довольно тяжёлые игры типа Cyberpunk 2077 или Atomic Heart, сталкиваются с тем, что эти GPU бесполезны для PyTorch и других фреймворков машинного обучения. Да и самые современные карты AMD 7900-й серии работают с PyTorch только из под Linux. Также есть редкие карты других брендов, типа Intel Arc или китайские, которые хотелось бы использовать для машинного обучения. https://habr.com/ru/companies/ruvds/articles/835782/
Хабр
Как подружить PyTorch и видеокарты AMD с помощью pytorch_dlprim
Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно...
В новой статье представлены JPEG-LM и AVC-LM, большие языковые модели, обученные генерировать изображения и видео соответственно путем прямого вывода сжатых байтов файлов в форматах JPEG и AVC/H.264. https://notes.aimodels.fyi/llms-can-speak-in-jpeg
AIModels.fyi
LLMs can speak in JPEG
By studying “secret” messages (JPEGs), LLMs can eventually learn to write them.
10 библиотек Python для машинного обучения, которые нужно знать в 2024 году
https://machinelearningmastery.com/10-must-know-python-libraries-for-machine-learning-in-2024
https://machinelearningmastery.com/10-must-know-python-libraries-for-machine-learning-in-2024
MachineLearningMastery.com
10 Must-Know Python Libraries for Machine Learning in 2024 - MachineLearningMastery.com
[caption align=
Узнайте, как точно настроить модель Audio Spectrogram Transformer для аудиоклассификации ваших собственных данных.
https://towardsdatascience.com/fine-tune-the-audio-spectrogram-transformer-with-transformers-73333c9ef717
https://towardsdatascience.com/fine-tune-the-audio-spectrogram-transformer-with-transformers-73333c9ef717
Medium
Fine-Tune the Audio Spectrogram Transformer with Hugging Face Transformers
Learn how to fine-tune the Audio Spectrogram Transformer model for audio classification of your own data using the Hugging Face Ecosystem.
Show-o объединяет авторегрессионное и (дискретное) диффузионное моделирование для адаптивной обработки входов и выходов различных и смешанных модальностей. Унифицированная модель гибко поддерживает широкий спектр зрительно-языковых задач, включая визуальные вопросы-ответы, генерацию текста в изображение, инкрустацию/экстраполяцию текста и генерацию смешанных модальностей. В различных бенчмарках она демонстрирует производительность, сравнимую или превосходящую существующие индивидуальные модели с эквивалентным или большим числом параметров, настроенных на понимание или генерацию. Это значительно подчеркивает его потенциал в качестве базовой модели нового поколения. Код и модели опубликованы по адресу
https://github.com/showlab/show-o
https://github.com/showlab/show-o
GitHub
GitHub - showlab/Show-o: Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation.
Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation. - showlab/Show-o
Введение в механистическую интерпретируемость
Механистическая интерпретируемость — это новая область, которая стремится понять внутренние процессы рассуждений обученных нейронных сетей и получить представление о том, как и почему они производят те или иные результаты. Исследователи ИИ в настоящее время очень мало понимают, что происходит внутри современных моделей.[1] Современные передовые модели чрезвычайно велики — и чрезвычайно сложны. Они могут содержать миллиарды или даже триллионы параметров, распределенных по более чем 100 слоям. Хотя мы контролируем данные, которые вводятся в сеть, и можем наблюдать ее выходные данные, то, что происходит в промежуточных слоях, остается в значительной степени неизвестным. Это «черный ящик», который механистическая интерпретируемость стремится увидеть внутри… https://aisafetyfundamentals.com/blog/introduction-to-mechanistic-interpretability
Механистическая интерпретируемость — это новая область, которая стремится понять внутренние процессы рассуждений обученных нейронных сетей и получить представление о том, как и почему они производят те или иные результаты. Исследователи ИИ в настоящее время очень мало понимают, что происходит внутри современных моделей.[1] Современные передовые модели чрезвычайно велики — и чрезвычайно сложны. Они могут содержать миллиарды или даже триллионы параметров, распределенных по более чем 100 слоям. Хотя мы контролируем данные, которые вводятся в сеть, и можем наблюдать ее выходные данные, то, что происходит в промежуточных слоях, остается в значительной степени неизвестным. Это «черный ящик», который механистическая интерпретируемость стремится увидеть внутри… https://aisafetyfundamentals.com/blog/introduction-to-mechanistic-interpretability
BlueDot Impact
Introduction to Mechanistic Interpretability – BlueDot Impact
Mechanistic Interpretability is an emerging field that seeks to understand the internal reasoning processes of trained neural networks and gain insight into how and why they produce the outputs that they do. AI researchers currently have very little understanding…
Этот курс обучения Python предназначен для бизнес-аналитиков и трейдеров JPMorgan, а также для избранных клиентов.
https://github.com/jpmorganchase/python-training
https://github.com/jpmorganchase/python-training
GitHub
GitHub - jpmorganchase/python-training: Python training for business analysts and traders
Python training for business analysts and traders. Contribute to jpmorganchase/python-training development by creating an account on GitHub.
Sapiens предлагает комплексный набор для задач, ориентированных на человека (например, 2D-поза, сегментация частей, глубина, нормаль и т. д.). Семейство моделей предварительно обучено на 300 миллионах изображений человека в дикой природе и демонстрирует превосходное обобщение в условиях без ограничений.
https://github.com/facebookresearch/sapiens
https://github.com/facebookresearch/sapiens
GitHub
GitHub - facebookresearch/sapiens: High-resolution models for human tasks.
High-resolution models for human tasks. Contribute to facebookresearch/sapiens development by creating an account on GitHub.
10 встроенных модулей Python, которые должен знать каждый инженер по работе с данными
Интересуетесь инжинирингом данных? Ознакомьтесь с этим обзором встроенных модулей Python, которые пригодятся вам для задач инжиниринга данных. https://www.kdnuggets.com/10-built-in-python-modules-every-data-engineer-should-know
Интересуетесь инжинирингом данных? Ознакомьтесь с этим обзором встроенных модулей Python, которые пригодятся вам для задач инжиниринга данных. https://www.kdnuggets.com/10-built-in-python-modules-every-data-engineer-should-know
KDnuggets
10 Built-In Python Modules Every Data Engineer Should Know - KDnuggets
Interested in data engineering? Check out this round-up of built-in Python modules that'll come in handy for data engineering tasks.
HTML Embed Code: