Самая актуальная информация из мира ML, Нейронных сетей,DI По всем вопросам- @haarrp @itchannels_telegram - 🔥 best it channels @pythonl - 🐍 @machinee_learning -chat @ArtificialIntelligencedl - AI @datascienceiot - ml 📚 @machinelearning_ru ml
Guideline following Large Language Model for Information Extraction
Новая модель для извлечения информации, обученная следовать рекомендациям по аннотированию. GoLLIE превосходит предыдущие подходы по извлечению информации без использования обучающих примеров .
🖥 Github: https://github.com/hitz-zentroa/gollie
⏩ Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb
⭐️ Project: https://hitz-zentroa.github.io/GoLLIE/
📕 Paper: https://arxiv.org/abs/2310.03668v1
⭐️ Dataset: https://paperswithcode.com/dataset/harveyner
ai_machinelearning_big_data
✅ Ключевой ML-специалист HuggingFace Ahsen Khaliq опубликовал статью о Kandinsky
Khaliq в своем Twitter (X) поделился статьей Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion, которая в разделе DailyPapers заняла первое место, обогнав статьи и Deepmind, и Carnegie Mellon.
В статье рассказывается о диффузионной модели Kandinsky для генерации изображений по тексту.
🕊 X: https://twitter.com/_akhaliq/status/1710106706569478573?s=52&t=hSNPltUk1ZT1M605JGLRnA
📕 Paper: https://huggingface.co/papers
@ai_machinelearning_big_data
🤖 GenSim: Generating Robotic Simulation Tasks via Large Language Models
Фреймворк для генерации и моделирования симуляций для роботов с помощью больших языковых моделей.
🖥 Github: https://github.com/liruiw/gensim
✔️ Project: https://liruiw.github.io/gensim
📕 Paper: https://arxiv.org/abs/2310.01361v1
✅ Dataset: https://huggingface.co/datasets/Gen-Sim/Gen-Sim
⭐️ Demos: https://huggingface.co/spaces/Gen-Sim/Gen-Sim
ai_machinelearning_big_data
🦅 Jury: A Comprehensive Evaluation Toolkit
Комплексный набор инструментов для оценки НЛП-экспериментов, предлагающий различные автоматизированные метрики. Jury предлагает удобный и простой в использовании интерфейс. pip install jury
🖥 Github: https://github.com/obss/jury
📕 Paper: https://arxiv.org/abs/2310.02040v1
🖥 Colab: https://colab.research.google.com/github/obss/jury/blob/main/examples/jury_evaluate.ipynb
⭐️ Demos: https://github.com/Parskatt/DeDoDe/blob/main/demo
ai_machinelearning_big_data
☑️ Efficient Streaming Language Models with Attention Sinks
StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence length without any fine-tuning.
Фреймворк для развертывания больших языковых моделей в потоковых приложениях, таких как многораундовые диалоги, где ожидается длительное взаимодействие, является настоятельной необходимостью, но сопряжено с двумя серьезными проблемами. StreamingLLM
позволяет Llama-2, MPT, Falcon и Pythia стабильно и эффективно выполнять моделирование общения с количеством лексем до 4 млн. и более.
🖥 Github: https://github.com/mit-han-lab/streaming-llm
📕 Paper: http://arxiv.org/abs/2309.17453
⭐️ Dataset: https://paperswithcode.com/dataset/pg-19
ai_machinelearning_big_data
Яндекс опубликовал плейлист с докладами конференции Practical ML.
Вот некоторые из них:
— Алексей Морозов, руководитель группы модернизации нейронных сетей Яндекса. Про то, как можно полностью инкапсулировать от ML’щика и исследователя заботу о fault tolerance, распределённой транзакционной записи в storage, асинхронности и минимизации простоев GPU
— Юлий Шамаев, Data Science Team Lead, Банк ВТБ. Про про геоэмбеддинги – векторное представление контекста в пространственной аналитике. Они помогают определить лучшее расположение для банкоматов и банковских отделений.
— Евгений Сидоров, Head of AI, Third Opinion. Про то, как компенсировать недостаток трёхмерной информации на основе множественных проекций при анализе медицинских снимков.
@ai_machinelearning_big_data
Стать сотрудником Яндекса быстрее и проще, чем кажется. Участвуйте в днях быстрого найма: решите тестовое, пройдите несколько секций собеседования и получите офер за несколько дней.
Ближайшее мероприятие:
• 7-8 октября — Fast Track для дата-аналитиков, офер за 2 дня в команду Фудтеха.
Зарегистрироваться
Реклама. ООО "Яндекс". erid:2VtzqwaYy5b
🔊 Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation
Модель генерации реалистичных видео из Аудио. Фреймворк способен распознать природу звука и сгенерировать визуальный образ.git clone git@github.com:guyyariv/TempoTokens.git
🖥 Github: https://github.com/guyyariv/TempoTokens
📕 Paper: https://arxiv.org/abs/2309.16429v1
⭐️ Dataset: https://paperswithcode.com/dataset/audioset
ai_machinelearning_big_data
✨ DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation
A novel 3D content generation framework that achieves both efficiency and quality simultaneously.
DreamGaussian - новый фреймворк для генерации 3D-контента, позволяющий достичь одновременно эффективности и высокого качества генераций.
Работает на безе алгоритма преобразования трехмерных гауссианов в текстурированные сетки с применения файнтюнинга для улучшения деталей. Обширные эксперименты демонстрируют высокую эффективность и конкурентоспособное качество генерации предложенного подхода.
🖥 Github: https://github.com/dreamgaussian/dreamgaussian
☑️ Image-to-3D: https://colab.research.google.com/drive/1sLpYmmLS209-e5eHgcuqdryFRRO6ZhFS?usp=sharing
☑️ Text-to-3d: https://colab.research.google.com/github/camenduru/dreamgaussian-colab/blob/main/dreamgaussian_colab.ipynb
📕 Paper: https://arxiv.org/abs/2309.16653v1
⭐️ Dataset: https://paperswithcode.com/dataset/nerf
ai_machinelearning_big_data
🔎 Text-to-3D using Gaussian Splatting
Новый подход к созданию высококачественных 3D-объектов
- генерация текста в трехмерном пространстве на основе гауссова расслоения (GSGEN
).
🎇 GSGEN: Text-to-3D using Gaussian Splatting
🖥 Github: https://github.com/gsgen3d/gsgen
☑️ Project: https://gsgen3d.github.io/
📕 Paper: https://arxiv.org/abs/2309.16585v1
⭐️ Dataset: https://paperswithcode.com/dataset/nerf
ai_machinelearning_big_data
✏️ Deep Geometrized Cartoon Line Inbetweening
Method can effectively capture the sparsity and unique structure of line drawings while preserving the details during inbetweening.
Создание промежуточных кадров между двумя рисунками - трудоемкий и дорогостоящий процесс, новый фреймворк AnimeInbet позволяет автоматизировать эту задачу.
AnimeInbet, геометризирует растровые линейные рисунки в графы конечных точек, решая задачу слияния графов с перестановкой вершин.
🖥 Github: https://github.com/lisiyao21/animeinbet
☑️ Demo: https://youtu.be/iUF-LsqFKpI?si=9FViAZUyFdSfZzS5
📕 Paper: https://arxiv.org/pdf/2309.16643v1.pdf
⭐️ Dataset: https://drive.google.com/file/d/1SNRGajIECxNwRp6ZJ0IlY7AEl2mRm2DR/view?usp=sharing
ai_machinelearning_big_data
📚 С помощью Telegram-бота GigaChat можно искать IT-курсы
Сервис Сбера в ответ на запрос о курсах предлагает не только названия ресурсов, где их можно найти, но и ссылки. К примеру, на запрос о поиске курсов по kubernetes нейросеть предложила пять популярных сайтов.
@gigachat_bot также умеет писать тексты и генерировать картинки, создавать инструкции и отвечать на вопросы. Кроме того, бота можно добавлять в групповые чаты и пользоваться совместно.
Попробовать GigaChat можно, перейдя по ссылке.
ai_machinelearning_big_data
➕ fastMONAI: A low-code deep learning library for medical image analysis
Simplifying deep learning for medical imaging.
fastMONAI упрощает использование современных методов глубокого обучения в анализе трехмерных медицинских изображений для решения задач классификации, регрессии и сегментации. fastMONAI предоставляет пользователям функциональные возможности для поэтапной загрузки данных, предварительной обработки, обучения и интерпретации результатов.git clone https://github.com/MMIV-ML/fastMONAI
🖥 Github: https://github.com/MMIV-ML/fastMONAI
Project: https://fastmonai.no
📕 Paper: https://www.sciencedirect.com/science/article/pii/S2665963823001203
🖥 Colab: https://colab.research.google.com/github/MMIV-ML/fastMONAI/blob/master/nbs/10a_tutorial_classification.ipynb
ai_machinelearning_big_data
⭐️Scenimefy: Learning to Craft Anime Scene via Semi-Supervised Image-to-Image Translation
Фреймворк для автоматической высококачественной генерации аниме-сцен из изображений реального мира.git clone https://github.com/Yuxinn-J/Scenimefy.git
🖥 Github: https://github.com/Yuxinn-J/Scenimefy/tree/main
☑️ Demo: https://huggingface.co/spaces/YuxinJ/Scenimefy
📕 Paper: https://arxiv.org/abs/2308.12968
⏩Project: https://yuxinn-j.github.io/projects/Scenimefy.html
⭐️ Dataset: https://github.com/Yuxinn-J/Scenimefy/tree/main#open_file_folder-anime-scene-dataset
ai_machinelearning_big_data
Сбер расширяет географию своих ивентов: 6 октября в Тбилиси состоится первый технологический митап, посвящённый разработке рекомендательных систем 👨💻
На RecSys MeetUp вы познакомитесь с экспертами Сбера, станете частью одного из крупнейших IT-комьюнити и узнаете о:
✔️ Технологических трендах в области искусственного интеллекта и машинного обучения.
✔️ Устройстве современных стримингов компаний-партнёров Сбера.
Гарантируем: будет интересно и безумно полезно каждому DS-специалисту. Регистрируйтесь по ссылке, встречаемся 6 октября в 18:30 по адресу: Тбилиси, Ресторан на 6 этаже отеля «Golden Palace», переулок Агмашенебели 62 💚
✅️ T3Bench: Benchmarking Current Progress in Text-to-3D Generation
T3Bench - это новый фреймворк преобразования текста в трехмерное изображение, содержащий разнообразные текстовые промпты трех уровней комплексности, специально разработанные для 3D-генерации. Для оценки качества и выравнивания текста содержит две автоматические метрики, основанные на многоракурсных изображениях, создаваемых 3D-контентом.
🖥 Github: https://github.com/THU-LYJ-Lab/T3Bench
📕 Paper: https://arxiv.org/abs/2310.02977v1
⭐️ Dataset: https://paperswithcode.com/dataset/nerf
ai_machinelearning_big_data
✅ DSPy: Programming—not prompting—Foundation Models
DSPy - это фреймворк от Stanfordnlp
для решения сложных задач с помощью языковых моделей и поисковых моделей. DSPy объединяет методы промпт-инжиниринга и тонкой настройки ЛМ, а также подходы к рассуждениям, самосовершенствованию и дополнению поисковых моделей и инструментов. Все это выстроено в модулях, которые компонуются и обучаются.
DSPy представляет автоматический компилятор, который учит LM, как выполнять декларативные шаги в вашей программе. В частности, компилятор DSPy осуществляет внутреннюю трассировку вашей программы и затем составляет высококачественные пропиты для больших ЛМ.pip install dspy-ai
🖥 Github: https://github.com/stanfordnlp/dspy
⏩ Tutorial: https://github.com/stanfordnlp/dspy/blob/main/intro.ipynb
🖥 Colab: https://colab.research.google.com/github/stanfordnlp/dspy/blob/main/intro.ipynb
📕 Paper: https://arxiv.org/abs/2308.05734
⭐️ Dataset: https://paperswithcode.com/dataset/hotpotqa
ai_machinelearning_big_data
👀 Как используются нейросети для планирования движения беспилотных автомобилей
Разработчик Яндекса рассказал, как беспилотный автомобиль предсказывает действия других участников движения и планирует свои действия с помощью нейросетей.
Тут и разбор логики свёрточных и трансформерных архитектур моделей для предсказания движения, и много формул для расчёта вероятных траекторий других машин и пешеходов.
Читайте о том, в чём проблемы Behavioral Cloning и как их решать, а ещё в чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.
Habr: https://habr.com/ru/companies/yandex/articles/763348/
ai_machinelearning_big_data
Emcee — это раннер для параллельного тестирования.
Разработчики из AvitoTech прокачали Emcee до облачного решения и нашли способ организовать сендбоксинг через виртуализацию на macOS, чтобы обезопасить трафик.
Подробности и ссылка на сам Emcee ищите здесь
Реклама ООО "Авито Тех", ИНН 9710089440
erid: LdtCK7JmP
⚡️ Memory Gym: Partially Observable Challenges to Memory-Based Agents in Endless Episodes
Среда для обучения, тестирования и запуска агентов основе памяти.
🖥 Github: https://github.com/marcometer/endless-memory-gym
🖥 Colab: https://colab.research.google.com/drive/1LjlUOEer8vjGrz0rLM8pP5UyeNCsURkY?usp=sharing
📕 Paper: https://openreview.net/forum?id=jHc8dCx6DDr
⭐️ Dataset: https://paperswithcode.com/dataset/arcade-learning-environment
ai_machinelearning_big_data
🤖 AutoAgents: A Framework for Automatic Agent Generation
Generate different roles for GPTs to form a collaborative entity for complex tasks.
AutoAgents, инновационный фреймворк, который адаптивно генерирует и координирует множество специализированных агентов для создания ИИ-команды в соответствии с различными задачами.
🖥 Github: https://github.com/LinkSoul-AI/AutoAgents
📕 Paper: https://arxiv.org/abs/2309.17288v1
⭐️ Demo: https://huggingface.co/spaces/LinkSoul/AutoAgents
ai_machinelearning_big_data
✅ Demystifying CLIP Data
MetaCLIP takes a raw data pool and metadata and yields a balanced subset over the metadata distribution.
Новый масштабируемый алгоритм MetaCLIP, работающий в конвейере обработки данных. MetaCLIP, примененная к CommonCrawl с 400 млн. пар данных "изображение-текст", превосходит данные CLIP по многим стандартным показателям. В классификации ImageNet точность MetaCLIP составляет 70,8%, что превосходит точность CLIP в 68,3% на моделях ViT-B.
🖥 Github: https://github.com/facebookresearch/metaclip
📕 Paper: https://arxiv.org/pdf/2309.16671v1.pdf
⭐️ Dataset: https://paperswithcode.com/dataset/laion-400m
ai_machinelearning_big_data
🖥 40+ IT-компаний ищут студентов на оплачиваемую стажировку
На форуме “Найти IT” Сбер, Росатом, Kaspersky и другие топовые компании завалят вас предложениями о работе!
“Найти IT” — это:
🔹 Мастер-классы и кейсы от крутых компаний
🔹 Предварительные собеседования и Q&A со спикерами
🔹 Мерч, призы и вкусная еда
И все это бесплатно 😲 Нужно только прийти!
Выбирате город и регистрируйтесь 👇
📍 Москва: 3 октября
📍 Санкт-Петербург: 7 октября
📍 Новосибирск: 26 октября
Реклама. ООО "ФТ". ИНН 7731611424. erid: LjN8KUcKb
🔎 Датасет для анализа русскоязычных отзывов на организации
Яндекс опубликовал крупнейший русскоязычный датасет, в котором содержится 500 тысяч отзывов, собранных с января по июнь 2023 года. Туда входят адреса и названия организаций, список рубрик, оценки пользователей и отзывы. Датасет позволяет, к примеру, производить сентимент-анализ и лингвистический анализ.
Github: https://github.com/yandex/geo-reviews-dataset-2023
Habr: https://habr.com/ru/companies/yandex/articles/763832/
@ai_machinelearning_big_data
Опрос для опытных ИТ-специалистов.
Поделитесь мнением об ИТ-работодателях. Напишите, что вам нравится, а что — нет. Так компании смогут исправить ошибки, улучшить условия и присылать офферы, на которые хочется соглашаться.
Посмотрите, это займет не больше 10 минут
🤖 Machine Learning Tutorials Repository
Добро пожаловать в репозиторий учебников по машинному обучению. Примеры кода и поянения по:
1.🖥 Python
2.👁🗨 Computer Vision: Techniques, algorithms
3.🖋 NLP
4.📊 Matplotlib
5.🔢 NumPy
6.🐼 Pandas
7.🎇 MLOps
8.🧠 LLMs
9.🔥 PyTorch/TensorFlowgit clone https://github.com/patchy631/machine-learning
• Github
ai_machinelearning_big_data
🔊 Listen, Think, and Understand
AI model that has both audio perception and a reasoning ability.
LTU-AS - модель универсального восприятия звука , которая способна к рассуждению. В частности, благодаря интеграции Whisper в качестве модуля восприятия и LLaMA в качестве модуля рассуждений, LTU-AS может одновременно распознавать и совместно понимать устный текст, паралингвистику, практически все, что можно воспринять из аудиосигналов.
🖥 Github: https://github.com/YuanGongND/ltu
☑️ Demo: https://18c618fc8f07ec494e.gradio.live/
📕 Paper: https://arxiv.org/abs/2309.14405v1
🤗 HH: https://huggingface.co/spaces/yuangongfdu/ltu-2
⭐️ Dataset: https://paperswithcode.com/dataset/iemocap
ai_machinelearning_big_data
VK Data Meetup — митап об инструментах и людях, которые умеют работать с данными
⏰ Когда: 12 октября, 14:00 по Москве
📍 Регистрация
VK Data Meetup — это серия событий о практиках работы с данными на разных уровнях.
Митап 12 октября посвящен работе с большими данными и ML. Обсудим:
• Тренды работы с данными;
• Процессы взаимодействия со смежными подразделениями и внутри дата-команд;
• Новые инструменты, такие как Spark on Kubernetes и No Code AutoML-платформы;
• Кейсы решения практических бизнес-задач от ведущих российских компаний.
Митап будет интересен дата- и ML-инженерам, тимлидам и разработчикам платформ данных, архитекторам и специалистам по Data Science.
Присоединяйтесь к сообществу VK Data Meetup, чтобы узнать про работающие практики и поделиться своим опытом.
Зарегистрироваться
⭐️ Advanced NLP
Advanced NLP from Carnegie Mellon University.
Advanced NLP from MIT.
The course covers current state-of-the-art NLP techniques & algorithms.
Курс: Продвинутый NLP от Университета Карнеги-Меллон.
Курс: Advanced Natural Language Processing от MIT.
Курсы охватывают современные техники и алгоритмы NLP.
Одни из лучших курсов по НЛП в Интернете!
• CMU:📌Лекции | Курс
• MIT: 📌Лекции | Курс
ai_machinelearning_big_data
🎓 BayesDLL: Bayesian Deep Learning Library
New Bayesian neural network library for PyTorch for large-scale deep network
Новая библиотека байесовских нейронных сетей для PyTorch, предназначенную для работы с крупномасштабными глубокими сетями.
В библиотеке реализованы основные алгоритмы приближенного байесовского вывода: вариационный вывод, MC-dropout, стохастически-градиентный MCMC и аппроксимация Лапласа.
Основные отличия от других существующих библиотек байесовских нейронных сетей заключаются в следующем:
1) библиотека может работать с очень крупными моделями, в том числе с Vision Transformers
2) Практически не требует от пользователей модификации кода .
3)Позволяет использовать предварительно обученные веса модели в качестве средних значений, что полезно для проведения байесовских вычислений в крупномасштабных моделях типа ViTs, которые трудно оптимизировать с нуля на основе одних только исходных данных.
🖥 Github: https://github.com/samsunglabs/bayesdll
📕 Paper: https://arxiv.org/abs/2309.12928v1
⭐️ Dataset: https://paperswithcode.com/dataset/oxford-102-flower
ai_machinelearning_big_data