bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

Салют от команды GigaChat! Приглашаем на конференцию по технологиям ИИ

📆 17 декабря, 12:30 (МСК, GMT+3)
📍 Офлайн в Москве. Для посещения в офлайне нужно дождаться приглашения от организаторов.
🌐 Онлайн-трансляция на сайте SberDevices

В программе — 9 докладов о том, как ИИ учится говорить, слышать, фильтровать данные и помогать людям. Спикеры расскажут про создание ИИ-агентов и персонажей, эмбеддинги и навыки моделей. Поделятся способами фильтровать данные и быстро обучать мощные модели.

Вас ждут новости разработки GigaChat и ассистента Салют, а также расскажут про open-source модели.

Участвуйте в дискуссиях с другими участниками и задавайте вопросы спикерам во время докладов. А офлайн-участников ждут афтерпати и стенды с технологиями: можно будет протестировать GigaChain и технологии GigaChat Audio, а также поработать с гипотезами в GigaPlayground.

Для участия нужно зарегистрироваться на сайте.

Больше подробностей — в Telegram-канале конференции.

Реклама. ПАО Сбербанк. ИНН 7707083893

Читать полностью…

Big Data AI

📌 Пятидневный интенсивный курс по GenAI от Google и Kaggle.

Google совместно с Kaggle представили пятидневный интенсивный курс по генеративному искусственному интеллекту, который доступен в формате самостоятельного обучения.

Курс, который проходил в прямом эфире с 11 по 15 ноября 2024 года, охватывает базовые технологии и методы генеративного ИИ. Программа включает изучение базовых моделей, инженерии промптов, векторных баз данных и эмбедингов, ИИ-агентов, специализированных моделей для конкретных областей и MLOps для GenAi.

Каждый день курса посвящен определенной теме и включает теоретические материалы, практические задания и возможность взаимодействия с экспертами Google.

Участники изучат развитие LLM, начиная с трансформеров и заканчивая техниками тонкой настройки и ускорения инференса. Познакомятся с методами инженерии промптов для оптимизации взаимодействия с LLM.

В рамках курса будут рассмотрены концепции эмбедингов и векторных баз данных, алгоритмы векторного поиска и научатся создавать ИИ-агентов, понимая их основные компоненты и итеративный процесс разработки.

Курс включает создание и применение специализированных LLM: SecLM и Med-PaLM, с комментариями разработчиков. Участники узнают, как адаптировать практики MLOps для генеративного ИИ и использовать инструменты Vertex AI для базовых моделей и приложений генеративного ИИ.

В рамках практических занятий на платформе Kaggle участники смогут применить полученные знания, создавая системы вопросов и ответов на основе извлечения информации, нейронные сети классификации и агентные системы заказа.

Курс разработан экспертами Google: Анантой Навалгарией, Марком Макдональдом, Пейдж Бейли и другими.

⚠️ Для доступа к коду курса необходимы аккаунты на Kaggle (c верификацией номера телефона), Google Ai Studio (для создания API KEY).


🟡Страница курса
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #GenAI #Course

Читать полностью…

Big Data AI

🔥 OuteTTS-0.2-500M — модель, которая предназначена для задач синтеза речи (Text-to-Speech)!

🌟 Она имеет 500 миллионов параметров и обучена для создания естественного звучания голоса, поддерживая высокое качество аудиовыхода. Основное применение — преобразование текстового ввода в реалистичную речь, что может быть полезно для создания виртуальных ассистентов, озвучивания текста и других сценариев, связанных с генерацией речи.

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

📖 Эта статья рассматривает вопрос создания контрфактуальных данных с использованием языковых моделей!

💡 Контрфактуальные данные позволяют понять, как бы выглядело предложение, если бы оно было создано при определенных изменениях в модели. В статье авторы подчеркивают, что контрфактуальное рассуждение отличается от стандартных интервенционных подходов, таких как манипуляция представлениями моделей, поскольку основано на других концепциях причинности.

🌟 Авторы предлагают новый подход для генерации контрфактов, который основывается на формулировке языковых моделей как обобщенных структурных уравнений и использовании трюка Gumbel-max. Этот метод позволяет моделировать совместное распределение исходных строк и их контрфактуальных версий, что обеспечивает более точное понимание воздействия интервенций. Эксперименты показывают, что их алгоритм генерирует значимые контрфакты и демонстрирует, что традиционные методы интервенции имеют нежелательные побочные эффекты.

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

⚡️ PaliGemma 2: Новое семейство VLMs от Google.

PaliGemma 2 - обновление open-sorce VLM PaliGemma, основанное на семействе LLM Gemma 2. Семейство сочетает в себе кодировщик изображений SigLIP-So400m с спектром моделей Gemma 2, от 2B до 27B параметров. Модели PaliGemma 2 обучались в 3 этапа на трех разрешениях (224px², 448px² и 896px²).

PaliGemma 2 демонстрирует впечатляющие результаты в распознавании музыкальных нот, молекулярных структур и медицинских изображений. Модели справляются с распознаванием табличной структуры и созданием отчетов по рентгенограммам.

В задачах генерации длинных, детализированных аннотаций к изображениям PaliGemma 2 превосходит многие популярные VLM, несмотря на то, что она обучалась на значительно меньших наборах данных.

Для развертывания на устройствах без GPU могут использоваться квартованные версии PaliGemma 2. Тесты показали, что переход от 32-битной разрядности (f32) к 16-битной (bf16) или квантованным весам не приводит к заметному снижению качества.

В релиз вошли предварительно обученные модели 3B, 10B и 28B с разрешениями 224px, 448px, 896px, модели, настроенные на наборе данных DOCCI для создания аннотаций к изображениям и их версии для JAX/FLAX.

Процесс файнтюна PaliGemma 2 такой же, как и у предыдущей версии. Разработчики предоставляют скрипт и ipynb-блокнот для тонкой настройки модели или создания LoRA/QLoRA.

Создание LoRA модели PaliGemma 2 на половине валидационного сплита VQAv2 заняло полчаса на 3-х A100 с 80 ГБ VRAM. Результат можно найти здесь, а это ее демо.

▶️Пример инференса модели paligemma2-10b-ft-docci-448 на Transformers:

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests

model_id = "google/paligemma2-10b-ft-docci-448"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
model = model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)

prompt = "<image>caption en"
image_file = "% link_to_target_file%"
raw_image = Image.open(requests.get(image_file, stream=True).raw).convert("RGB")

inputs = processor(prompt, raw_image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=20)

print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])


📌Лицензирование: Gemma License.


🟡Статья
🟡Коллекция на HF
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #VLM #Google #PaliGemma

Читать полностью…

Big Data AI

🔥 nsfw_detector — инструмент для автоматического распознавания NSFW-контента (неподходящего или откровенного)!

💡 Он основан на модели Google ViT, обеспечивает точную классификацию файлов и поддерживает обработку изображений, видео, PDF-документов и файлов в архиве.

🔍 Основные особенности:

🌟 Поддержка работы на CPU, без необходимости использования GPU, что делает его универсальным для большинства серверов.

🌟 Локальная обработка данных для защиты конфиденциальности.

🌟 Легкая интеграция через API и возможность развертывания через Docker.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🔍 fast-graphrag — инструмент, предназначенный для оптимизации работы Retrieval-Augmented Generation (RAG) с использованием графовых структур знаний!

🌟 Он расширяет возможности GraphRAG, добавляя поддержку алгоритма PageRank для улучшения поиска и обработки данных. Этот подход позволяет быстрее находить ключевую информацию, улучшать точность на 20% и снижать затраты на обработку данных примерно в 6 раз по сравнению с традиционными методами RAG.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/golang_interview
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Big Data AI

🔥 Garak — инструмент от NVIDIA для автоматизированного тестирования безопасности и надежности крупных языковых моделей!

🌟 Он позволяет выявлять уязвимости, проблемы с устойчивостью и некорректные ответы моделей, применяя различные методики тестирования. Это помогает разработчикам и исследователям совершенствовать модели и повышать их качество.

🌟 Инструмент также поддерживает расширение функциональности: пользователи могут добавлять свои собственные тесты, создавая кастомные модули.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🔥Интересная дискуссия на reddit о 4-битном квантовании без потерь для Qwen2.5 от Intel AutoRound!

🎯Полный текст: https://reddit.com/r/LocalLLaMA/comments/1h0aev6/lossless_4bit_quantization_for_large_models_are/?rdt=60370

@bigdatai

Читать полностью…

Big Data AI

🌟 SmolTalk: синтетический англоязычный датасет для обучения LLM.

SmolTalk - это синтетический датасет, разработанный HuggingFace для обучения SmolTalk: новый синтетический набор данных для обучения больших языковых моделей LLM с учителем. Он состоит из 2 млн. строк и был использован для создания семейства моделей SmolLM2-Instruct. SmolTalk включает в себя как новые, так и существующие наборы данных.

Новые наборы данных:

🟢Smol-Magpie-Ultra (400 тыс. строк);
🟢Smol-constraints (36 тыс. строк);
🟢Smol-rewrite (50 тыс. строк);
🟢Smol-summarize (101 тыс. строк).

Существующие общедоступные наборы данных:

🟠OpenHermes2.5 (100 тыс. строк);
🟠MetaMathQA (50 тыс. строк);
🟠NuminaMath-CoT (1120 тыс. строк);
🟠Self-Oss-Starcoder2-Instruct (1120 тыс. строк);
🟠SystemChats2.0 (30 тыс. строк);
🟠LongAlign (примеры на английском языке с менее 16 тыс. токенов);
🟠Everyday-conversations (50 тыс. строк);
🟠APIGen-Function-Calling (80 тыс. строк);
🟠Explore-Instruct-Rewriting (30 тыс. строк).

SmolTalk сравнили недавно выпущенным набором данных Orca AgentInstruct 1M, обучив SmolLM2 на обоих наборах данных с использованием одинаковой конфигурации обучения.

Результаты показали, что SmolTalk показал значительные улучшения в производительности модели, особенно в задачах математики, программирования и следованию системным промптам. Наблюдались также значительные улучшения в масштабе 7B при обучении Mistral-7B на SmolTalk, особенно по показателям IFEval, BBH, GS8Mk и MATH.

▶️Загрузка датасета для трейна:

from datasets import load_dataset

ds = load_dataset("HuggingFaceTB/smoltalk", "all", split="train")
# to load the train split of a specific subset such as smol-magpie-ultra, you can do
ds = load_dataset("HuggingFaceTB/smoltalk", "smol-magpie-ultra", split="train")


📌Лицензирование: Apache 2.0 License.


🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #HuggingFace #Dataset

Читать полностью…

Big Data AI

🔥 LogoCreator — приложение с открытым исходным кодом, которое использует Flux 1.1 для генерации разнообразных логотипов по вашему запросу!

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

Новая открытая версия от Apple - AIMv2 - крупномасштабные визуальные кодеры 🔥

> >
Превосходит CLIP и SigLIP по основным показателям мультимодального понимания
> Превосходит DINOv2 по обнаружению объектов
> Высокая эффективность распознавания с помощью AIMv2-3B, достигающая 89,5% на ImageNet
> Интегрированные трансформаторы (пользовательский код)

HF: https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c
Paper: https://huggingface.co/papers/2411.14402

@bigdatai

Читать полностью…

Big Data AI

📖 Эта статья описывает новую методику повышения безопасности крупных языковых моделей (LLM) для быстрой адаптации к новым типам атак!

🌟 Вместо стремления к полной устойчивости к всем возможным атакам, предлагается метод "быстрого ответа" на новые попытки обхода защиты. Система адаптируется после изучения нескольких примеров атак, а затем блокирует аналогичные обходы. Представленный инструмент RapidResponseBench помогает оценить эффективность подхода, уменьшая успех атак в сотни раз даже после одного примера обхода.

🔗 Arxiv
🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🔥 firecrawl-simple — урезанная и оптимизированная версия библиотеки firecrawl! Она позволяет вам быстро конвертировать веб-сайты в готовый для чтения LLM текст.

🔐 Лицензия: AGPL-3.0

🖥 GitHub

@bigdatai

Читать полностью…

Big Data AI

🔥 LaVague — это фреймворк для разработки AI-агентов, способных автоматизировать веб-процессы!

🌟 Агенты анализируют данную веб-страницу, определяют шаги для выполнения задач и реализуют их с помощью встроенных инструментов, таких как Selenium или Playwright. Подходит для разных задач автоматизации, от навигации по сайтам до тестирования!

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

📹 OpenAI представила Sora: новую модель для создания видеороликов по текстовому описанию.

Компания OpenAI на онлайн-стриме анонсировала запуск Sora – инструмента для создания видео по текстовому запросу. Sora доступна подписчикам ChatGPT Plus и Pro, с ограничениями по региону (недоступна на территории ЕС и Великобритании), количеству генераций и качеству видео. Plus-пользователи смогут создавать до 5 видео в месяц длиной до 5 секунд в разрешении до 720p.

Pro-подписка позволяет сгенерировать до 500 коротких видео длиной до 20 секунд в разрешении до 1080p. Sora предлагает различные инструменты для редактирования и управления процессом создания видео: Storyboard для покадровой режиссуры и функции для добавления начала, концовки и объединения нескольких видео.
openai.com

Читать полностью…

Big Data AI

📎 ML в медицине: дайджест за 1 - 7 декабря 2024 г.


▶️Модели, бенчмарки и датасеты

🔘SOAR: бенчмарк для оценки LLM в задачах аннотации типов клеток.
Тест, который проверяет, насколько хорошо модели могут понимать и анализировать сложные данные о клетках.

🔘Повышение точности диагностики рентгенограмм грудной клетки с помощью анализа направления взгляда врачей.
Система 2-х нейросетей, которая помогает диагностировать заболевания по рентгенограммам грудной клетки и предсказывает, на какие области изображения врачи обращают внимание.

🔘EchoONE: унифицированная модель для сегментации множества плоскостей эхокардиографии.
Модель, которая помогает врачам более точно анализировать снимки сердца, сделанные с помощью ультразвука, даже если снимки сделаны под разными углами.


▶️Фреймворки и методологии

🔘RARE: RAG-ризонинг.
Метод для улучшения способности рассуждать и давать точные ответы, используя комбинацию генерации и поиска информации для обогащения своих знаний.

🔘STORM: cтратегия организации модальностей для классификации редких событий.
Алгоритм, который помогает выбрать лучшие источники информации для решения сложных медицинских задач.

🔘TransFair: прогноз прогрессирования глазных заболеваний.
Модель классификации, которая помогает сделать прогнозы о глазных заболеваниях более справедливыми и точными.

🔘PePR: оценка эффективности моделей с учетом потребления ресурсов.
Показатель, который помогает оценить, насколько эффективно модель использует ресурсы.

🔘Оценка качества рентгенологических заключений с помощью сопоставления клинических данных с изображением.
Метод оценки качества автоматически сгенерированных рентгенологических отчетов, который учитывает точность описания патологических изменений, их локализации и степени выраженности.


▶️Медицинские LLM-приложения

🔘MedChain: LLM-агент и бенчмарк для принятия клинических решений.
Набор данных и система для имитации реальной клинической практики, где каждый случай включает подробную информацию о пациенте и требует активного сбора информации и принятия решений на основе предыдущих шагов.

🔘QG-Summ: автореферирование медицинских записей с самоконтролем, управляемое запросами.
Метод, который помогает создавать краткие и точные отчеты о состоянии пациентов в электронных медкартах, используя запросы, связанные с пациентом, для руководства процессом.

🔘CLINICSUM: генерация медицинских заключений из диалогов врача и пациента.
Фреймворк, который может автоматически создавать медицинские заключения на основе разговоров между врачом и пациентом, используя специальную архитектуру.


▶️Исследования и обзоры

*️⃣Проблемы производительности LLM для здравоохранения с учетом демографической справедливости.
Исследование проблемы демографической предвзятости популярных современных LLM в различных медицинских задачах.

*️⃣Применение эмбединг-моделей для классификации медицинских текстов.
Статья о том, как использовать эмбединги для классификации медицинских текстов без необходимости обучения на медицинских данных.

*️⃣BlockMedCare: блокчейн, ИИ и IoT для здравоохранения будущего.
Концепция системы для безопасного и эффективного управления электронными медицинскими картами, позволяя пациентам, врачам и администраторам взаимодействовать с системой на различных устройствах.



🔜 Читать полный дайджест


@ai_machinelearning_big_data

Читать полностью…

Big Data AI

🖥 MagicQuill — исследовательский проект, разработанный для интерактивного редактирования изображений с использованием моделей машинного обучения!

🌟 Этот инструмент позволяет выполнять такие задачи, как модификация цвета и структуры изображения, использование масок для выборочного редактирования и обработка изображений на основе подсказок (prompts). В основе проекта лежат технологии PyTorch и интеграция с Gradio для удобного интерфейса взаимодействия.

🔐 Лицензия: CC BY-NC 4.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🪐 Multimodal Universe: Свежий датасет 100 ТБ научных астрономических данных

Мультимодальный набор данных Universe - это крупномасштабная коллекция мультимодальных астрономических данных, включая изображения, спектры и кривые блеска, предназначеный для проведения исследований в области астрономии и астрофизики.


python
from datasets import load_dataset

dset = load_dataset('MultimodalUniverse/plasticc',
split='train', streaming=True)

example = next(iter(dset))


Github: https://github.com/MultimodalUniverse/MultimodalUniverse
Colab: https://colab.research.google.com/github/MultimodalUniverse/MultimodalUniverse/blob/main/notebooks/getting_started.ipynb
HF: huggingface.co/MultimodalUniverse

@bigdatai

Читать полностью…

Big Data AI

🔥 Все инструменты Flux.1 теперь находятся на HuggingFace Spaces!

🖌 Fill
🖼 Redux
Canny
🩻 Depth

@bigdatai

Читать полностью…

Big Data AI

📖 Эта статья описывает подход для улучшения процесса отладки кода, сгенерированного LLM!

🌟 Исследователи представляют метод MGDebugger, который использует иерархическую стратегию отладки. Этот метод включает разбиение кода на древовидную структуру подфункций и их независимую проверку. Это позволяет находить ошибки на различных уровнях детализации: от синтаксических до алгоритмических.

🌟 MGDebugger использует симуляцию выполнения кода внутри LLM для выявления и исправления ошибок. Он генерирует тесты для подфункций на основе публичных тестов основной функции, а затем анализирует их выполнение. В процессе исправления исправленный код обновляет всю структуру. Такой подход упрощает отладку сложных функций и делает процесс более систематичным и эффективным.

🔗 Читать: *клик*

@bigdatai

Читать полностью…

Big Data AI

⚡️ ERPoT: Эффективное и надежное отслеживание движения мобильных роботов на основе легких и компактных полигональных карт

https://github.com/ghm0819/ERPoT

@bigdatai

Читать полностью…

Big Data AI

Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.

Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.

Где и когда?

👉 Нижний Новгород, 5 декабря
👉 Санкт-Петербург, 6 декабря

Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.

Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 😉

Читать полностью…

Big Data AI

📝 LLM Graph Builder — инструмент для создания графов знаний на базе базы данных Neo4j, преобразуя неструктурированные данные (например, текстовые файлы, PDF-документы, видео с YouTube, веб-страницы) в структурированные графы!

🌟 Он использует возможности ИИ-моделей, от OpenAI и LangChain, для извлечения сущностей, их связей и атрибутов из данных.

🔍 Основные функции:

🌟 Генерация графов знаний на основе предоставленных данных.

🌟 Возможность работы с собственными схемами данных или готовыми шаблонами.

🌟 Просмотр графов через Neo4j Bloom и взаимодействие с ними с помощью запросов.

🌟 Интеграция с локальными файлами, S3, YouTube и другими источниками данных.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🖥 SQLFluff — это инструмент для статического анализа SQL-кода (SQL-linter), который помогает проверять и форматировать SQL-запросы в соответствии с определёнными стилевыми правилами!

🌟 Этот проект поддерживает гибкость за счёт настройки под разные диалекты SQL, такие как ANSI SQL, PostgreSQL, MySQL, BigQuery, Snowflake и многие другие.

🌟 Он особенно полезен в проектах ETL и ELT, а также совместим с такими инструментами, как Jinja и dbt (Data Build Tool), поддерживая шаблонизированные SQL-запросы. SQLFluff может автоматически исправлять большинство ошибок форматирования, экономя время разработчиков и позволяя сосредоточиться на задачах высокой важности. Для удобства пользователей доступно расширение для Visual Studio Code и подробная документация.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🔥 Selective Context — полезный инструмент, который сжимает ваш запрос и контекст, позволяя LLM (например, ChatGPT) обрабатывать в 2 раза больше контента. Это особенно полезно при работе с длинными документами и поддержании длительных разговоров без ущерба для производительности при выполнении различных задач!

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🌟 LAION-DISCO-12M: большой датасет музыки с Youtube.

Набор данных LAION-DISCO-12M состоит из 12 млн ссылок на общедоступные треки YouTube с метаданными. Он собран для поддержки фундаментальных исследований в области машинного обучения, созданию базовых моделей обработки звука, извлечения музыкальной информации, анализа наборов данных аудио и обучение рекомендательных систем и приложений.

Метод создания LAION-DISCO-12M основан на рекурсивном поиске исполнителей на платформе YouTube Music. Начиная с начального списка исполнителей топ-чартов разных стран, новые артисты обнаруживались путем анализа раздела "Похожие исполнители".

Для каждого исполнителя извлекались метаданные: имя, количество подписчиков и список всех песен и музыкальных клипов. Каждая песня или музыкальный клип были связаны с URL-адресом YouTube.

Размер датасета составляет 250 516 исполнителей и 12 648 485 треков.

Поля метаданных:

🟢song_id - идентификатор трека;
🟢title - название;
🟢artist_names - имя исполнителя;
🟢artist_ids - идентификатор исполнителя;
🟢album_name - название альбома;
🟢album_id - идентификатор альбома;
🟢isExplicit - признак наличия ненормативной лексики;
🟢views - количество просмотров;
🟢duration - продолжительность трека.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Датасет


@ai_machinelearning_big_data

#AI #ML #LAION #Audio #Dataset

Читать полностью…

Big Data AI

Сегодня не можешь найти стажировку. Завтра — открываешь с ноги дверь в топовые компании и претендуешь на зп выше рынка. Как так? Очень просто со знанием SQL.

Как работать с данными на профессиональном уровне, рассказывают на курсе Нетологии «SQL и получение данных». За 2 месяца вы узнаете, как создавать собственные базы данных, станете асом в создании сложных запросов и сможете с первого раза находить нужную информацию в огромных таблицах.

Всё обучение построено с упором на практику: вы выполните 6 работ, а в конце самостоятельно развернёте и проанализируете базу данных. Как минимум — будет повод похвастаться друзьям, как максимум — добавить новый скилл в резюме и получить крутую работу.

Регистрируйтесь

Реклама. ООО "Нетология". Erid 2VSb5xVGZJp

Читать полностью…

Big Data AI

🖥 Activepieces — это ИИ платформа для автоматизации и построения рабочих процессов с поддержкой no-code и open-source, предназначенная для упрощения интеграций между различными сервисами и приложениями, такими как Google Sheets, OpenAI, Discord и другие!

🌟 Она предоставляет пользователям визуальный редактор для построения процессов с использованием условных ветвлений, циклов и перетаскивания элементов.

💡 Пользователи могут воспользоваться готовыми шаблонами для создания своих процессов, а также добавлять собственные «кусочки» кода в TypeScript, чтобы расширять функциональность. Activepieces также поддерживает развертывание как в облаке, так и на собственных серверах, предлагая гибкость в настройке и масштабировании автоматизаций, что особенно удобно для малых и средних компаний, а также разработчиков и технических команд, стремящихся к улучшению производительности и сокращению затрат на интеграцию внешних сервисов.

🖥 Github

@bigdatai

Читать полностью…
Subscribe to a channel