TG Telegram Group Link
Channel: Big data world
Back to Bottom
Многоагентная структура веб-поисковой системы на основе LLM (например, Perplexity.ai Pro и SearchGPT)

MindSearch — это фреймворк поисковой системы ИИ с открытым исходным кодом и производительностью Perplexity.ai Pro. Вы можете просто развернуть его с собственной поисковой системой в стиле perplexity.ai с закрытыми исходными кодами LLM (GPT, Claude) или с открытыми исходными кодами LLM (InternLM2.5-7b-chat). https://github.com/internlm/mindsearch
Создавайте более надежные деревья решений с помощью самонастройки и генетических алгоритмов

Метод, позволяющий лучше использовать деревья решений в качестве интерпретируемых моделей. https://towardsdatascience.com/create-stronger-decision-trees-with-bootstrapping-and-genetic-algorithms-1ae633a993c9
Spark!= Pandas + Поддержка больших данных
Будьте осторожны, перенося свои знания с Pandas на Spark.

Pandas и Spark оперируют одним и тем же типом данных — таблицами. Однако способ их взаимодействия с ними существенно отличается.

Тем не менее, многие программисты часто переносят свои знания из Pandas в Spark, предполагая схожесть архитектуры, что приводит к узким местам в производительности.
https://blog.dailydoseofds.com/p/spark-pandas-big-data-support
Как справиться с отсутствующими данными с помощью методов интерполяции в Pandas

Предотвратите потерю данных — научитесь профессионально обрабатывать отсутствующие данные, используя методы интерполяции в Pandas. https://www.kdnuggets.com/how-to-deal-with-missing-data-using-interpolation-techniques-in-pandas
Одной из главных задач искусственного интеллекта является разработка агентов, способных проводить научные исследования и открывать новые знания. Хотя пограничные модели уже использовались для помощи ученым-людям, например, для мозгового штурма идей или написания кода, они по-прежнему требуют обширного ручного надзора или сильно ограничены конкретной задачей.

Мы рады представить The AI ​​Scientist — первую комплексную систему для полностью автоматизированных научных открытий, позволяющую базовым моделям, таким как крупные языковые модели (LLM), проводить исследования независимо.

https://github.com/SakanaAI/AI-Scientist

Запись в блоге: https://sakana.ai/ai-scientist/

Статья: https://arxiv.org/abs/2408.06292
Как подружить PyTorch и видеокарты AMD с помощью pytorch_dlprim

Когда начинаешь изучать или использовать машинное обучение, то думаешь, как приспособить те устройства, которые есть в наличии, чтобы снизить свои траты на вход. И, в частности, обладатели довольно мощных старых карт AMD (типа AMD Fury), на которых легко идут довольно тяжёлые игры типа Cyberpunk 2077 или Atomic Heart, сталкиваются с тем, что эти GPU бесполезны для PyTorch и других фреймворков машинного обучения. Да и самые современные карты AMD 7900-й серии работают с PyTorch только из под Linux. Также есть редкие карты других брендов, типа Intel Arc или китайские, которые хотелось бы использовать для машинного обучения. https://habr.com/ru/companies/ruvds/articles/835782/
В новой статье представлены JPEG-LM и AVC-LM, большие языковые модели, обученные генерировать изображения и видео соответственно путем прямого вывода сжатых байтов файлов в форматах JPEG и AVC/H.264. https://notes.aimodels.fyi/llms-can-speak-in-jpeg
Show-o объединяет авторегрессионное и (дискретное) диффузионное моделирование для адаптивной обработки входов и выходов различных и смешанных модальностей. Унифицированная модель гибко поддерживает широкий спектр зрительно-языковых задач, включая визуальные вопросы-ответы, генерацию текста в изображение, инкрустацию/экстраполяцию текста и генерацию смешанных модальностей. В различных бенчмарках она демонстрирует производительность, сравнимую или превосходящую существующие индивидуальные модели с эквивалентным или большим числом параметров, настроенных на понимание или генерацию. Это значительно подчеркивает его потенциал в качестве базовой модели нового поколения. Код и модели опубликованы по адресу
https://github.com/showlab/show-o
Введение в механистическую интерпретируемость

Механистическая интерпретируемость — это новая область, которая стремится понять внутренние процессы рассуждений обученных нейронных сетей и получить представление о том, как и почему они производят те или иные результаты. Исследователи ИИ в настоящее время очень мало понимают, что происходит внутри современных моделей.[1] Современные передовые модели чрезвычайно велики — и чрезвычайно сложны. Они могут содержать миллиарды или даже триллионы параметров, распределенных по более чем 100 слоям. Хотя мы контролируем данные, которые вводятся в сеть, и можем наблюдать ее выходные данные, то, что происходит в промежуточных слоях, остается в значительной степени неизвестным. Это «черный ящик», который механистическая интерпретируемость стремится увидеть внутри… https://aisafetyfundamentals.com/blog/introduction-to-mechanistic-interpretability
Этот курс обучения Python предназначен для бизнес-аналитиков и трейдеров JPMorgan, а также для избранных клиентов.

https://github.com/jpmorganchase/python-training
Sapiens предлагает комплексный набор для задач, ориентированных на человека (например, 2D-поза, сегментация частей, глубина, нормаль и т. д.). Семейство моделей предварительно обучено на 300 миллионах изображений человека в дикой природе и демонстрирует превосходное обобщение в условиях без ограничений.

https://github.com/facebookresearch/sapiens
10 встроенных модулей Python, которые должен знать каждый инженер по работе с данными

Интересуетесь инжинирингом данных? Ознакомьтесь с этим обзором встроенных модулей Python, которые пригодятся вам для задач инжиниринга данных. https://www.kdnuggets.com/10-built-in-python-modules-every-data-engineer-should-know
HTML Embed Code:
2025/07/01 20:08:08
Back to Top