@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🔥 NVIDIA’s Tech Looked at 250,000 Photos!
https://www.youtube.com/watch?v=HdT8G5S3IAc
@bigdatai
⚡️Лучший способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
C++ t.me/cpluspluc
Devops: t.me/devOPSitsec
Машинное обучение: t.me/ai_machinelearning_big_data
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C#: t.me/csharp_ci
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
C++ папка: /channel/addlist/CdBs5DLepLJmZjY6
C# папка: /channel/addlist/u15AMycxRMowZmRi
Java папка: /channel/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: /channel/addlist/mzMMG3RPZhY2M2Iy
Linux папка: /channel/addlist/w4Doot-XBG4xNzYy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
⚡️ Яндекс рассказал о принципах работы одного из крупнейших рекомендательных сервисов
«Баннерная крутилка» умеет переживать 700 тысяч RPS, а иногда и больше. При каждом запросе сервис просматривает базу из миллиарда документов и выбирает наиболее релевантные. Обработка запроса занимает менее 200 миллисекунд. Тем. кто строит рекомендательные системы, будет любопытно узнать, какими принципами руководствуется Яндекс при построении подобных высоконагруженных систем, как устроены стадии отбора документов и какое участие в ранжировании принимает ML.
https://habr.com/ru/companies/yandex/articles/816205/
ChatGPT Just Learned To Fix Itself!
https://www.youtube.com/watch?v=cw9jcjpufBI
@bigdatai
💻YugabyteDB — высокопроизводительная распределенная БД, которая поддерживает все возможности PostgreSQL
YugabyteDB отлично подходит для облачных OLTP-приложений (т. е. работающих в реальном времени и критически важных для бизнеса), которым необходима абсолютная корректность данных и требуется масштабируемость или высокая устойчивость к сбоям.
Быстрое создание локального кластера YugabyteDB с Docker:
docker run -d --name yugabyte -p7000:7000 -p9000:9000 -p15433:15433 -p5433:5433 -p9042:9042 \
yugabytedb/yugabyte:2.21.1.0-b271 bin/yugabyted start \
--background=false
СКУЧНО. ТАК БОЛЬШЕ НЕЛЬЗЯ!
— подумала наша команда летом и создала новое реалити-шоу о Data-инженерах 🤯
«Где Data, Коль?» — это:
▶️5 разных участников из мира Big Data, прошедшие отбор;
▶️ментор — Николай Марков, Data Platform Lead в компании Altenar;
▶️участники строят пайплайны, осваивают Hadoop, Spark, Airflow и другие инструменты;
▶️реальный проект на собственных данных;
▶️секретное испытание в финале.
❗️Кто станет фаворитом зрителей? Кто дойдет до финала и получит заветный оффер?!
🔈Ссылка на первую серию уже в Telegram-канале «Где Data, Коль?»
Вторая серия выйдет 5 июля. Подписывайся, чтобы не пропустить!
Реклама ООО «Слёрм» ИНН 3652901451 erid: 2Vtzqx8PuYU
💻 memgraph — графовая БД с открытым исходным кодом, предназначенная для динамических аналитических сред
— curl https://install.memgraph.com | sh
Memgraph — это open-source БД, созданная для потоковой передачи данных в реальном времени и совместимая с Neo4j.
Memgraph особенно актуальна для тех, кто изучает взаимосвязанные данные, которые можно представить в виде графа
Memgraph может напрямую подключиться к потоковой инфраструктуре и может получать данные из таких источников, как Kafka, SQL или обычные CSV-файлы.
Memgraph реализована на C/C++ и использует архитектуру in-memory first, чтобы гарантировать постоянную максимальную производительность и отсутствие сюрпризов.
Соответствует требованиям ACID и обладает высокой доступностью.
🖥 GitHub
🟡 Доки
@bigdatai
⚡️ Перевод экрана приложения на русский по двойному тапу
На Хабре появилась статья с простым способом настроить перевод экрана приложений на русский язык. Он работает на айфоне и поможет переводить экраны любых приложений с незнакомых языков на русский всего лишь по одному двойному тапу.
▪️ https://habr.com/ru/companies/yandex/posts/824706
@bigdatai
NVIDIA’s AI: Virtual Worlds, Now 10,000x Faster!
https://www.youtube.com/watch?v=g5Vo2EiEFnA
@bigdatai
💻 MatrixOne — гиперконвергентная облачная open-source БД
wget https://raw.githubusercontent.com/matrixorigin/mo_ctl_standalone/main/install.sh && sudo -u $(whoami) bash +x ./install.sh
mo_ctl set_conf MO_PATH="yourpath" # Set custom MatrixOne download path
mo_ctl set_conf MO_DEPLOY_MODE=git # Set MatrixOne deployment method
Яндекс поддерживает исследователей, которые занимаются искусственным интеллектом 👾
Компания проводит международную научную премию Yandex ML Prize уже в шестой раз. Её вручают за достижения в области компьютерного зрения, машинного перевода, распознавания и синтеза речи, анализа данных, генеративных моделей.
В экспертном совете премии — ведущие российские исследователи в сфере ИИ, в том числе эксперты Yandex Research, Яндекс Погоды, Школы анализа данных. Многие сервисы компании основаны на технологиях машинного обучения, поэтому Яндекс готов поделиться своей экспертизой, поддержать молодых учёных и помочь им остаться в науке.
Лауреаты-исследователи получат по 500 тысяч рублей, научные руководители и преподаватели — по 1 миллиону. А ещё — гранты от Yandex Cloud для облачных вычислений на платформе, обработки экспериментов и обучения ML-моделей. Заявки принимаются до 21 июня, а победители будут объявлены осенью.
Давайте поможем Даше найти... что угодно
27 июня в 19:00 Data Science Meetup: Поиск от команды СберМаркета!
Соберёмся в нашем офисе, чтобы рассказать о секретах алгоритмов поиска: как разрабатывали и улучшали модель по исправлению опечаток, что такое межретейлерный поиск, и как он работает у нас.
В программе доклады и QA-сессия:
🔎 Как устроен Поиск в СберМаркете. Владимир Бугаевский, ML Team Lead в СберМаркете, поделится тем, как поисковые технологии улучшают пользовательский опыт в СберМаркете.
🔎 Нейросетевая модель для исправления опечаток в поисковых запросах. Анна Власова, ML-инженер в СберМаркете, расскажет о новой нейросетевой модели для исправления опечаток.
🔎 Ранжирование магазинов в межретейлерном поиске. Анна Южанина, ML-инженер в СберМаркете, расскажет о модели для ранжирования магазинов в зависимости от намерения и предпочтения пользователя.
Регистрируйтесь, количество мест в офлайне ограничено!
Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: LjN8KWB86
MIT 6.S191: (Google) Generative AI for Media
https://www.youtube.com/watch?v=P7Hkh2zOGQ0
@bigdatai
🔥 CinePile - это набор данных для понимания видео, основанный на вопросах и ответах. Он был создан с использованием передовых моделей большого языка (LLM). Он состоит примерно из 300 000 точек данных для обучения и 5000 точек данных для тестирования. 300 тысяч обучающих и 5 тысяч тестовых фрагментов. A
📃 : https://arxiv.org/abs/2405.08813
🤗 : https://huggingface.co/datasets/tomg-group-umd/cinepile
Устроиться аналитиком в Яндекс за выходные
6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.
В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.
Нанимаем в офисы России и Республики Беларусь.
Узнать подробности и зарегистрироваться можно здесь.
Реклама. ООО "Яндекс". ИНН 7736207543
💻 WrenAI — open-source инструмент, который делает имеющуюся БД готовой к работе с RAG
— curl -L https://github.com/Canner/WrenAI/releases/latest/download/wren-launcher-darwin.tar.gz | tar -xz && ./wren-launcher-darwin
WrenAI позволяет преобразовывать текст в SQL, изучать данные из БД без написания SQL, и делать многое другое
🖥 GitHub
🟡 Доки
@bigdatai
🌟 MInference 1.0 — метод ускорения обработки промпта для LLM с большим контекстом
git clone https://huggingface.co/spaces/microsoft/MInference
cd MInference
pip install -r requirments.txt
pip install flash_attn pycuda==2023.1
python app.py
💻Вышла СУБД MySQL 9.0.0
На днях Oracle выпустила СУБД MySQL 9.0.0. Разработчики проекта подготовили и выложили в открытый доступ сборки MySQL Community Server 9.0.0 для основных дистрибутивов Linux, FreeBSD, macOS и Windows.
В 2023 году Oracle объявила об изменении модели формирования релизов СУБД MySQL. Разработчики начали выпускать два вида веток MySQL: Innovation (новые функции, частое обновление, три месяца поддержки) и LTS (с расширенным временем поддержки и сохранением неизменного поведения).
Проект MySQL 9.0 отнесён к ветке Innovation, к которым также будут отнесены следующие значительные релизы MySQL 9.1 и 9.2.
Дистрибутивы на базе Innovation-веток рекомендованы для тех пользователей, кто хочет раньше получать доступ к новой функциональности. Они публикуются каждые 3 месяца и поддерживаются только до публикации следующего значительного релиза (например, после появления ветки 9.1 будет прекращена поддержка ветки 9.0).
@bigdatai
Куда пойти, чтобы подготовиться к вступительным испытаниям в магистратуру?
Факультет компьютерных наук и Нетология организуют совместный марафон по подготовке к вступительным экзаменам в онлайн-магистратуру по инженерии данных.
Марафон включает:
⏺️3 вебинара по основам математики, алгоритмов и программировании на Python
⏺️консультацию по поступлению в онлайн-магистратуру «Инженерия данных»
⏺️экспертную поддержку
💻 Формат: онлайн
📆 Когда: 2-10 июля
🐭Для участия необходимо зарегистрироваться по ссылке.
Реклама ЗАО ГК Аккорд
2SDnjcJts1L
⚡️ Scaling Synthetic Data Creation with 1,000,000,000 Persons
- Представлена коллекция из 1 миллиарда различных персонажей, автоматически отобранных на основе веб-данных
- Значительный прирост на MATH: 49,6 ->64,9
репозиторий: https://github.com/tencent-ailab/persona-hub
abs: https://arxiv.org/abs/2406.20094
@bigdatai
⚡️ Microsoft запустила новый курс по генеративному ИИ!
Бесплатный курс из 18 уроков доступен на Github и научит вас всему, что вам нужно знать, чтобы начать создавать приложения с генеративным ИИ
▪ Github
@bigdatai
🔧 Проявите свои навыки ML-инженера на EKF AI Challenge. Решите задачу по автоматизации формирования коммерческого проекта и разделите призовой фонд в 500 000 рублей! Старт – 5 июля.
Не упустите шанс проявить себя – регистрация открыта до 3 июля
Приглашаем экспертов в области Data Science, ML-специалистов и разработчиков на онлайн-соревнование. EKF AI Challenge – первый инженерный хакатон на Codenrock, где мощь ИИ помогает в разработке решений для электротехнической отрасли.
Задача участников – разработать сервис, который сможет автоматически создавать смету на основе электрических схем. Проект должен уметь распознавать на чертежах проводники, переключатели, защитные устройства, датчики и другие элементы из предоставленной номенклатурной базы и собирать их в смету проекта. Организаторы предоставляют размеченный датасет.
➡️ Не пропустите уникальный хакатон на стыке инженерных технологий и машинного обучения EKF AI Challenge – регистрируйтесь сейчас
⚡️ BigCodeBench: Большой бенчмарк для тестирование сгенерированного кода с использованием различных функций и сложных инструкций.
BigCodeBench бенчмарк, который содежит 139 библиотек и 7 доменов для решения 1140 сложных задач программирования".
▪abs: https://arxiv.org/abs/2406.15877
▪страница: https://bigcode-bench.github.io
@bigdatai
⚡️Лучший способ получать свежие обновлении и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
C#: t.me/csharp_ci
Машинное обучение: t.me/ai_machinelearning_big_data
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C++ t.me/cpluspluc
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Devops: t.me/devOPSitsec
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
C++ папка: /channel/addlist/CdBs5DLepLJmZjY6
C# папка: /channel/addlist/u15AMycxRMowZmRi
Java папка: /channel/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: /channel/addlist/mzMMG3RPZhY2M2Iy
Linux папка: /channel/addlist/w4Doot-XBG4xNzYy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
🔥 From Pixels to Prose: A Large Dataset of Dense Image Captions
Pixel Prose содержит более 16 миллионов разнообразных изображений, полученных из трех различных веб-баз данных (commonPool, CC12M, RedCaps), с подписями, созданными с помощью Google Gemini 1.0 Pro Vision.
▪abs: https://arxiv.org/abs/2406.10328
▪датасет: https://huggingface.co/datasets/tomg-group-umd/pixelprose
@bigdatai
⚡️ Microsoft только что выпустили модель Florence
Модель уровня с параметрами SOTA 200M и 800M ! 🔥
> Лицензия MIT! 🤯
> Модель, которая превосходит Flamingo 80B (модель в 400 раз больше) с огромным отрывом
> Ссоздание субтитров, распознавание объектов и сегментацию, распознавание текста, расшифровку фраз и многое другое
> Набор данных FLD-5B - 5,4 миллиарда аннотаций на 126 миллионах изображений
> Многозадачное обучение
> > Точно настроенные модели, которые превосходят такие, как PaLI, PaLI-X
https://huggingface.co/collections/microsoft/florence-6669f44df0d87d9c3bfb76de
@bigdatai
⚡️ gui-world: Набор данных ориентированных на работу с GUI интерфейс мультимодальных агентов на базе LLM
Набор данных из 12 тысяч высококачественных разнообразных GUI.
▪proj: https://gui-world.github.io
▪abs: https://arxiv.org/abs/2406.10819
@bigdatai
🍏 4M: Massively Multimodal Masked Modeling
Apple релизнули модель 4M-21.
Это довольно эффективная мультимодальная модель, которая решает десятки задач и работет для разных модальностей.
Применение многозадачного обучения в мультимодальных моделях действительно продвинулось на шаг вперед. Мы можем обучить одну модель множеству разнообразных задач с высокой точностью.
🌐 https://4m.epfl.ch
⌨️ https://github.com/apple/ml-4m/
@bigdatai
💻 SirixDB — это open-source гибридная система баз данных, ориентированная на работу с дисками и памятью
SirixDB имеет облегченный буфер-менеджер, способный хранить ссылки на страницы in-memory.
SirixDB представляет собой структурированное хранилище временных документов и хранит истории всех ресурсов в компактной форме.
Процессор запросов поддерживает сложные запросы, связанные с разными временными диапазонами.
🖥 GitHub
🟡 Доки
@bigdatai
⚡️ Open VLA: Vision-Language модель с открытым исходным кодом
статья: https://arxiv.org/abs/2406.09246
страница проекта: https://openvla.github.io
код: https://github.com/openvla/openvla
Open VIA, модель открытым исходным кодом с параметрами 7B, отлаженную в Llama-2 в сочетании с визуальным кодером, который объединяет предварительно подготовленные функции из DINOv2 и SigLIP.
Она обучена на 970 тысячах эпизодов с роботами из открытого набора данных X-Embodion.
Модель превосходит 55B-param RT-2-X с закрытым исходным кодом на 16,5% по абсолютному показателю успешности выполнения задач в 29 задачах и нескольких вариантах робота, при этом его параметры в 7 раз меньше.
@bigdatai