sysblok | Unsorted

Telegram-канал sysblok - Системный Блокъ

10846

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join

Subscribe to a channel

Системный Блокъ

Что читают, осмысляют и о чём говорят на программах по DH?

Собрали три текста из блога DH-центра ИТМО @dhcenter, которые помогут понять контекст обучения цифровым методам в гуманитарных исследованиях и узнать больше о подходах и вопросах из мира DH.

От Стоунхенджа до Лас-Вегаса и Теории теории смартфона. Что читают на программе по Digital Humanities?

Подборка текстов, которые читают на магистерской программе по Digital Humanities. Узнаете, например, об исследовании языка и риторики мирового банка с 1946 по 2012 год. А ещё о том, почему три ключевых метафоры интернета — место, инструмент и способ быть (way of being), и как отловить их в собственной речи.

От Аристотеля до 3D-моделей тела. Три взгляда на визуализации

Сложный и насыщенный разговор культуролога Ольги Давыдовой, медиафилософа Алины Латыповой и дизайнера Трофима Попова об эстетических критериях, социальных аспектах и роли визуализации. Если готовы разобраться с понятиями «графезис», «колорема» и «коллективный эмпиризм», то точно узнаете больше о визуализациях в науке и в поэзии, а заодно и о том, кто считает их отличным инструментом, а кто — «проклятием гуманитарной мысли».

От UX до DH. Интервью про UX-исследования, Human-Computer Interaction и связь юикса с цифровой гуманитаристикой

Чем отличается UX от UX-исследований? Как они соотносятся с цифровой гуманитаристикой и DH-проектами? Юиксеры изучают пользователей или объекты в цифре? Ответы найдете в разговоре Алексея Евстифеева, UX-исследователя и координатора проектной группы по UX в Пушкине <цифровом>, и Полины Колозариди, академической руководительницы магистерской программы по DH в ИТМО.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Бум и крах искусственного интеллекта: забытая история первых цифровых помощников

Сегодня ИИ решает все более сложные задачи и угрожает заменить профессионалов в самых разных областях: от медицины и юриспруденции до геологоразведки. То же можно сказать и про 1980-е — время взлета искусственного интеллекта, когда в центре внимания оказались экспертные системы. Рассказываем о том, как они появились, почему не смогли завоевать мир и чему их взлет и падение могут нас научить.

Кратко: как появились и исчезли экспертные системы?

В 1965 году ученые из Стэнфордского университета создали первый образец программы, получившей название DENDRAL (от DENdritic ALgorithm, «ветвящийся алгоритм»). Именно она считается первой экспертной системой, то есть системой искусственного интеллекта, которая на основании знаний и опыта эксперта-человека может решить задачу в определенной области. В случае DENDRAL это была органическая химия.

И хотя попытки сделать программу коммерчески успешным продуктом провалились, этот пример вдохновил ученых на создание экспертных систем в самых разных областях. Появились SACON (для анализа физических объектов), CRYSALIS (для определения структуры белков), PROSPECTOR (для поиска полезных ископаемых)…

К 1980 году появилась и первая коммерческая экспертная система R1, более известная как XCON (от eXpert CONfigurer, «экспертный конфигуратор»). XCON должна была подбирать элементы для компьютерной системы VAX в соответствии с требованиями заказчика. К 1986 году она за 2,5 минуты определяла необходимую конфигурацию системы, а компания Digital Equipment Corporation утверждала, что внедрение XCON позволило им экономить более 25 млн долларов в год. Это привело к ажиотажу вокруг экспертных систем не только в Америке, но и за ее пределами – от Великобритании до Японии.

И все же к началу 1990-х годов экспертные системы канули в Лету. Что же произошло? Во-перввых, они плохо поддавались изменениям. Во-вторых, с легкостью начинали галлюцинировать, когда запрос выходил за рамки их базы знаний. Наконец, их поддержание в рабочем состоянии требовало большого количества квалифицированных сотрудников, услуги которых стоили дорого. Это сводило на нет всю экономию.

Правда, исчезли экспертные системы всё-таки не бесследно. Подробнее о том, во что они превратились, а также о других страницах их истории, узнаете из полного текста материала.

Время чтения: 21 минута

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Разделить цену войны: кого, откуда и когда призывали в годы ВОВ?

Сегодня 80 лет Победы. День, когда мы вспоминаем всех, кто ушел на войну. Вернувшихся и не вернувшихся. А это десятки миллионов людей. Почти никого из них уже нет в живых: ни тех, кто погиб прямо там, ни тех, кто дожил до Победы. Но остались архивы. Они позволяют посмотреть на историю ВОВ через историю призыва, а огромный объем данных превращает такую работу в настоящее дата-исследование.

Предлагаем вспомнить исследование «Системного Блока», посвященное анализу 26,5 млн. карточек с военно-пересыльных пунктов. Эти данные позволяют увидеть, как отличалась картина призыва в разные годы в отдельных республиках СССР.

Кратко: о чем статья?

У каждой республики была своя история участия в войне и свой портрет призыва. Призыв в РСФСР, Казахстане и Киргизии был схож и довольно стабилен на протяжении войны. По ходу войны призывной возраст снижался, а самый большой подъем призыва в РСФСР ожидаемо совпал с началом Великой Отечественной войны. В нем существенна доля взрослых людей старше 22 лет — были призваны резервисты, запасники, отставники.

Совершенно другой портрет призыва наблюдается в республиках, которые были полностью оккупированы в годы войны — Белорусской, Украинской ССР и республиках Прибалтики. Поскольку основной удар первых месяцев войны пришелся на них, провести полноценный призыв удалось далеко не везде, а после оккупации территории он стал невозможен и продолжился только после освобождения. Именно поэтому в Белоруссии призыв в 1944 году был самым многочисленным. Цифры свидетельствуют: несмотря на угон людей на работы в Германию и массовые расправы над местным населением, после отступления Вермахта освобожденные территории все еще могли обеспечить массовое пополнение рядов Красной армии.

Узнать подробности об особенностях призыва в оккупированных республиках, о спаде призыва в 1943 в республиках Кавказа и о трудовом призыве в Узбекской, Таджикской и Туркменской ССР можно из полного текста статьи. Там же можно найти динамическую визуализацию данных, содержащую информацию по 14 основным республикам СССР.

Время чтения: 25 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Алгоритмы и дискриминация на рынке труда. Чему мы научили искусственный интеллект?

Сегодня за свои права приходится бороться не только с работодателями, но и с искусственным интеллектом. ИИ все чаще используется для управления персоналом и набора сотрудников — и он закономерно научился дискриминировать людей по полу, физическим возможностям и т. п. «Системный Блокъ» предлагает перечитать классический материал об ИИ на рынке труда в честь 1 мая — Дня солидарности трудящихся.

Кратко: о чем статья?

Использование ИИ в подборе персонала — один из основных трендов сферы труда. Так, более половины всех HR в США используют алгоритмы искусственного интеллекта при приеме на работу, проведении собеседований и оценке кандидатов. Алгоритмы найма с ИИ очень разнообразны. Например, платформа HireVue оценивает кандидатов по мимике и высказываниям во время видеособеседования, а в некоторых российских компаниях работает ИИ робот-рекрутер Вера. Она приглашает кандидатов на собеседования и проводит опросы увольняющихся сотрудников. 

Главная цель ИИ-рекрутинга — помочь человеку справиться с рутинными процессами в найме, одна из главных проблем — предвзятость. Алгоритмы часто оценивают кандидатов несправедливо, так как обучаются на данных, часто копирующих искажения и ошибки людей. Например, HR-робот мог классифицировать тексты с упоминанием ограниченных возможностей как более «токсичные» и оценивать их негативно, а ИИ-рекрутер Amazon снизил оценку резюме женщин, так как был обучен в основном на резюме мужчин.

Конечно, дискриминация не связана напрямую с ИИ: он копирует установки общества. Законодательство разных стран старается регулировать неравенство в том числе и в рекрутинге. Например, в ЕС существует проект закона, контролирующего использование искусственного интеллекта: подобные технологии должны, например, обучаться на качественных недискриминационных данных, а также иметь общедоступную документацию, объясняющую алгоритм и цель проекта. Не все сотрудники довольны участившимся использованием ИИ в компаниях, однако первые шаги к регулированию уже сделаны.

Подробнее о том, как искусственный интеллект используется в найме, в чем подвержен людским предрассудкам и как с этим бороться читайте в полной версии статьи. 

Время чтения: 11 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

«Слово о полку Игореве» как улика, берестяные грамоты и морфология. Памяти А. А. Зализняка

Он доказал подлинность Слова о полку Игореве, разобрался в сложнейшей системе ударения в русском языке и ежегодно рассказывал широкой аудитории о том, что написано в очередных найденных под землей берестяных грамотах... Сегодня исполнилось бы 90 лет выдающемуся лингвисту Андрею Зализняку. Вспоминаем наши материалы о его вкладе в науку.

Берестяные грамоты от раскопа до компьютера

А. А. Зализняк нашел существенное отличие северо-западных говоров от остальных, что привело к пересмотру уже сложившейся схемы диалектов Древней Руси. Источником сведений об этих говорах стали берестяные грамоты, первую из которых нашли в 1951 г.

Оказалось, что в X—XI вв. на территории восточного славянства членение было не таким, как можно представить на основании сегодняшнего разделения языков (великорусский, украинский, белорусский), а иным: северо-запад отличался от всех остальных говоров. Иными словами, существовала группа древненовгородских и древнепсковских диалектов и классическая форма древнерусского языка, объединявшая Киев, Суздаль, Ростов, будущую Москву и территорию Белоруссии. Это и были две главные составные части будущего русского языка.

«Слово о полку Игореве» как улика

Существует мнение, что «Слово о полку Игореве» написано не в XII веке, а несколькими веками позднее, то есть является стилизацией под древность, а не истинным памятником древнерусской словесности. А. А. Зализняк рассматривает проблему подлинности «Слова» с лингвистической точки зрения и последовательно доказывает невозможность никакой другой датировки, кроме XII века.

Акцентуаторы

Русское ударение свободно и подвижно. А. А. Зализняк мечтал о программе, которая сможет расставлять ударения в тексте автоматически.

Магистры из НИУ ВШЭ воплотили его идею в жизнь и создали акцентуатор для русского языка sStress. Это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка.

В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А. А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями.

Морфология

Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А. А. Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы.

Словарь Зализняка лег в основу автоматического порождения всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре. Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Hi! It’s Duo Системный Блокъ. Рассказываем о пуш-уведомлениях в обучении

Пуши (push-уведомления) — это короткие всплывающие напоминания на наших гаджетах. Они могут содержать призыв к действию или информацию, которую пользователю нужно вспомнить или узнать. Считается, что в случае образования они помогают держать темп обучения и не пропускать занятия. Разбираемся, так ли эффективны пуши на самом деле.

⚡️ Эксперимент 1: Зависимость

В 2024 году группа ученых провела эксперимент: в течение 36 дней 85 немецких школьников смотрели обучающее видео о преимуществах метода распределенной практики, некоторые из них случайным образом получали напоминания о содержании материала. 

На результатах тестов на проверку знаний пуши не сказались, зато стало ясно, что когда напоминания не приходили, студенты реже приступали к занятиям. Это может свидетельствовать о чрезмерной зависимости от пушей. Правда, пока эту гипотезу проверили только на детях 10-12 лет.

⚡️ Эксперимент 2: Концентрация

Исследовательская группа из Католического университета Кореи изучила реакцию на пуши, измеряя мозговые волны с помощью ЭЭГ. Ученые разделили участников эксперимента на две группы: с зависимостью от смартфона и без. Всем им предложили сыграть в го-ного: если на экране загорается желтая точка, нужно нажать на кнопку, иначе — ничего не делать. Во время сеанса участникам приходили пуш-уведомления в виде вибрации. Они могли их видеть, но не могли проверить.

Оказалось, что наибольшее влияние на концентрацию оказывали те уведомления, которые отправлялись непосредственно во время выполнения заданий, а группа риска (зависимости от смартфонов) принимала более поспешные, часто ошибочные решения. Впрочем, реагировали на уведомления обе группы.

Подробнее об этих экспериментах узнаете из полного текста статьи на сайте.

Время чтения: 7 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

DeepSeek: обзор китайской нейросети и ее возможностей

Сегодня рассказываем про DeepSeek — большую языковую модель (LLM) с интерфейсом в виде чат-бота. Нейросеть была создана китайской компанией High-Flyer AI. Сегодня DeepSeek по многим бенчмаркам (системам оценок моделей) не хуже, а то и превосходит нынешних лидеров в сфере ИИ (ChatGPT, Claude, Gemini, LLAMA). 

Коротко о главном

DeepSeek — языковая модель, созданная на основе архитектуры Mixture of Experts, которая позволяет задействовать только часть параметров. Это помогает существенно снизить вычислительные затраты без потери качества. Сейчас модель доступна бесплатно, а её исходный код выложен в открытый доступ. 

Приложение с чат-ботом адаптировано для Android и iOS, а также не предполагает ограничений для россиян. Более того, в большинстве стран модель не подвергается жесткой цензуре, что позволяет пользователям обсуждать темы, которые могут быть ограничены в других системах. Однако когда дело касается китайской политики, бот может отказаться дать ответ или отправлять сообщения об ошибке.

DeepSeek поддерживает несколько режимов, включая DeepThink для глубокой проработки запросов (у GPT-o1 и o1-mini есть аналогичный режим «Обоснуй»). DeepThink активирует модель R1, которой можно пользоваться без ограничений по лимитам и которая не требует подписки, как у конкурентов, но процесс рассуждений может занять чуть больше времени. Например, на размышление над одним и тем же вопросом DeepSeek потратила 169 секунд, а ChatGPT – 25. 

Подробнее о том, как пользоваться DeepSeek, что делать, если модель не работает, и как она связана с нереализованным проектом советского интернета (спойлер: никак, что бы ни говорили в сюжете России-1) узнаете из полной версии статьи.

Время чтения: 11,5 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Новинки от OpenAI

Пользователям стали доступны сразу три новых моделей от OpenAI: GPT-4.1, o3 и o4-mini. Рассказываем о них в новом дайджесте новостей из мира ИИ.

GPT-4.1

GPT-4.1 — это  обновление GPT-4o с улучшенными показателями в основных тестах. В контекст модели теперь умещается 1 млн токенов (частей слов или целых слов) — примерно в 8 раз больше, чем у GPT-4o. Это расширяет возможности при работе с объемными кодовыми базами, длинными документами и анализе видео.
Также отмечается улучшение в следовании инструкциям: модель точнее соблюдает заданный формат ответов, корректнее интерпретирует отрицания (например, «Не задавай уточняющие вопросы») и лучше придерживается ограничений по содержанию.

Модель доступна в трех версиях:

• Стандартная GPT-4.1
• GPT-4.1 mini — сопоставим по качеству с GPT-4o, но вдвое быстрей
• GPT-4.1 nano — наиболее быстрая версия

o3 и o4-mini

o3 и o4-mini – новые модели в линейке «рассуждающих» LLM, то есть моделей, которые перед ответом генерируют цепочку рассуждений, повышающую качество финального ответа. o3 была анонсирована ещё в декабре 2024 года, однако на тот момент была доступна только версия o3-mini. o3 теперь может работать с изображениями в процессе рассуждений: увеличивать его части, поворачивать или извлекать текст. В тестах на анализ графиков, схем и других визуальных материалов o3 показывает высокие результаты.

o4-mini — уменьшенная версия еще не представленной модели o4. По характеристикам она превосходит o3-mini и в ряде тестов сравнима с o3, но в целом имеет более ограниченные возможности при меньшей стоимости.

Обе модели поддерживают взаимодействие с другими приложениями: использование браузера для поиска информации, запуск программного кода для вычислений или работы с изображениями, а также использование инструментами, предоставляемыми пользователями.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Археология памяти. Как цифровые методы помогают исследовать преступления нацистского режима

Сегодня изучать историю холокоста помогают не только привычные археологические методы, но и неинвазивные: лазерное сканирование (LiDAR), аэрофотосъемка, георадарные исследования (GPR) и геофизические методы. Эти технологии позволяют создавать точные карты местности, выявлять скрытые структуры и строить цифровые модели утраченных объектов без необходимости полномасштабных раскопок. 

Кратко: о чем статья?

Новые технологии изменили не только то, как мы видим, например, лагеря смерти, но и то, что мы в них видим, позволив рассматривать лагерь не только как территорию за колючей проволокой, но как объект со сложной инфраструктурой, интегрированный в общество и экономику.

Проект «Ландшафты Холокоста» под руководством Кэролин Старди Коллз — хороший пример системного подхода к археологии нацистских преступлений. В фокусе исследования находятся три очень разных концлагеря: Сильт на британском острове Олдерни, где нацистские преступления долгое время оставались в тени войны; Треблинка — лагерь смерти, от которого нацисты особенно тщательно пытались не оставить следов; и Землин в Белграде, где на территории бывшего лагеря до сих пор живут люди.

Цифровые методы позволили создать детальную трехмерную реконструкцию лагеря Сильт и обнаружить там подземный тоннель, восстановить историю лагеря в Белраде без проведения традиционных раскопок, а в случае Треблинки – обновить карту лагерей и прилегающей к ним территории. 

Подробнее о каждом из этих исследований узнаете из полной версии статьи.

Время чтения: 20 минут


🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

ИИ помогает искать геоглифы в пустыне Наска

Хотя геоглифы Наски известны еще с шестнадцатого века, их изучение началось относительно недавно. В 2023 году искусственный интеллект помог ученым за полгода найти почти такое же количество фигуративных (составляющих изображение) геоглифов, какое было обнаружено за сто лет исследований. «Системный Блокъ» рассказывает, как геоглифы пустыни Наска изучаются с помощью ИИ.

Кратко: о чем статья?

Геоглифы Наска создавались с пятого века до н. э. по шестой век н. э. и хорошо сохранились, потому что плато, на котором они находятся, не затапливалось и не использовалось для сельского хозяйства. Изображения можно условно поделить на две группы: геометрические и образные (фигурные). По способу создания они также делятся на линейные (вычерченные на плоскости) и рельефные (выложенные из гальки). Ученые предполагают, что геоглифы могли создавать, например, для художественного выражения или записи астрономических наблюдений. Другая возможная причина создания геоглифов — ритуальные цели. Эту гипотезу подтверждает расположение линий: многие из них сходятся в одной точке, а также совпадают с подземными источниками воды.

Так как с земли масштаб изображений представить невозможно (средняя длина геоглифа составляет около девяноста метров), исследователи всегда старались смотреть на них «сверху». Ученые снимали геоглифы с воздушных шаров, самолетов, спутников, а также использовали лазерное картографирование LiDAR. С помощью deep learning (глубокого обучения ) исследователи смогли обнаружить частично или полностью скрытые под землей, даже разрушенные памятники. Они обучили модель, которая на карте местности предложила 1309 участков, где большей долей вероятности могли находиться геоглифы. Благодаря ИИ исследователи нашли 303 фигурных и 42 геометрических геоглифов неизвестных ранее.

Применение глубокого обучения также позволило сделать новое наблюдение. Оказалось, что линейные геоглифы в основном изображают диких животных, а рельефные — человеческие мотивы и вещи, связанные с людьми.

Более подробно о том, как искусственный интеллект облегчает работу ученых и помогает сохранять древние изображения, читайте в полной версии статьи.

Время чтения: 14 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Пляски вокруг сканера и письма счастья: как новые технологии порождают суеверия

Суеверия — базовая структура человеческого мышления, нерефлексируемые практики и знания, укорененные в нашей когнитивной структуре (а не просто пережиток древнего магического мировоззрения). В новом материале разбираемся, как появляются суеверия при использовании новых технологий.

Кратко: о чем статья?


В 1980-х в США провели эксперимент, чтобы узнать, как лаборанты кабинетов радиологии адаптировались к появлению новой технологии: КT-сканерам, с помощью которых делают томографию.

Если с работой КТ-сканера возникали проблемы, у лаборантов были заготовлены отдельные ритуалы: включить и выключить машину, досконально воспроизвести пройденный путь заново (а лучше несколько раз). С каждой неудачной попыткой решить проблему у них нарастала склонность к магическому мышлению: например, лаборанты могли называть устройства темпераментными или некооперативными.

Дело в том, что им не хватало экспертного знания, а в таких случаях люди стремятся строить объяснение на знакомых объяснительных моделях — на основе ритуалов действий, которые опытным путем доказали свою эффективность.

С 1980-х наши модели поведения едва ли изменились, и в онлайн переходят вполне привычные «офлайновые» суеверия. Так, четыре из десяти пользователей считают, что включение «режима инкогнито» при просмотре веб-страниц делает их действия невидимыми для всех, а двое из десяти опасаются прерывать цепочку «писем счастья».

Подробнее о современных и не слишком суевериях узнаете из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

10 из 10: русские писатели в стиле студии Ghibli

Интернет захватила эстетика мультфильмов Миядзаки. Все из-за новой модели внутри ChatGPT, которая хорошо обрабатывает пользовательские картинки. С её помощью в стиле студии Ghibli уже нарисовали почти все знаменитые фотографии, от Сталина на берегу канала Москва-Волга до окровавленного уха Трампа. Мы тоже присоединились — и стилизовали под Миядзаки портреты 10 русских писателей и поэтов/поэтесс. Сможете угадать всех?

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

OpenAI против китайского ИИ, новая open-source модель от Google и Mistral Small

Рассказываем, что произошло в мире ИИ за последнее время.

OpenAI против китайского ИИ

В рамках инициативы администрации Трампа AI Action Plan компания OpenAI предложила изменить правила экспорта вычислительных чипов американского производства. AI Action Plan — это инициатива, в которой могут участвовать компании, научные организации и политики, предлагая свои идеи по стратегическому развитию ИИ в США. По итогам обсуждений будет сформирована государственная политика, направленная на «укрепление позиций Америки» в глобальной конкуренции в сфере ИИ.

Вместо полного запрета экспорта чипов в некоторые страны предлагается разрешить поставки при условии, что дата-центры не будут использоваться для работы китайских моделей ИИ. Такое ограничение обусловлено опасениями OpenAI, что китайские разработки вынуждены подчиняться требованиям правительства КНР, что может привести к утечке пользовательских данных при использовании китайских моделей.

Сейчас Китай — главный конкурент США в ИИ-гонке. Китайские компании и лаборатории вносят существенный вклад в развитие ИИ за счет публикации передовых моделей и подробной технической документации в открытый доступ. Многие корпорации используют китайские модели как основу: в частности, последние языковые модели Яндекса и Т-Банка являются дообученными версиями Qwen2.5, разработанной Alibaba Group.

Gemma 3 — обновленная open-source LLM от Google

Компания Google обновила свою open-source языковую модель Gemma.

Третья версия модели доступна в четырех размерах: 1, 4, 12, 27 млрд параметров. Все модели, кроме самой маленькой, поддерживают обработку текста и изображений, версия с 1 млрд параметров умеет работать только с текстом.

По оценкам пользователей LMArena, где каждый желающий может сравнить ответы разных LLM, Gemma 3 c 27 млрд параметров опережает существенно более крупные модели DeepSeek-V3 (671 млрд), Llama 3 405B (405 млрд) и o3-mini.

Модель «из коробки» поддерживает 35 языков, при этом обучающие данные содержали данные на 140 языках. Gemma 3 доступна для коммерческого использования с некоторыми ограничениями. 

Mistral Small 3.1

Французская компания Mistral выпустила обновление своей миниатюрной языковой модели Mistral Small. Размер обновленной LLM составил 24 млрд параметров.

По заявлениям компании, в основных тестах на понимание естественного языка, умение логически рассуждать и писать код новая Mistral Small опережает Gemma 3 с 27 млрд параметров (кроме тестов на математику) и GPT-4o mini.

Из других особенностей выделяется поддержка работы с изображениями, мультиязычность (24 языка), скорость работы, а также возможность использовать модель для дальнейшего обучения режиму «рассуждений».

Модель может быть использована в коммерческих целях без ограничений.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Digital Humanities Awards 2024: две номинации «Системного Блока»

Привет, это команда «Системного Блока»! Сегодня делимся хорошими новостями, рассказываем про важную премию и обращаемся с небольшой просьбой, но обо всём по порядку!

🎉 Новости

«Системный Блокъ» номинирован на ежегодную премию DH Awards сразу в двух категориях: Best DH Resource (Лучший DH-ресурс) — за наш портал с подборкой материалов по Digital Humanities, и Best DH Data Visualization (Лучшая визуализация) — за проект «Классное чтение» о школьном литературном каноне.

🏆 Премия

DH Awards вручается ежегодно с 2012 года, это профессиональная общественная премия в области Digital Humanities. В этот раз в ней семь номинаций: от большой и, пожалуй, главной, Best DH Resource до Best Use of DH for Fun. Основная цель этой премии — популяризировать цифровые методы в гуманитарных науках и показать, насколько разными могут быть проекты в этой сфере, поскольку награды не зависят ни от языка, ни от географии, ни от темы проекта.

👉👈 Просьба

Победители премии определяются голосованием, так что у нас есть простая и очевидная просьба — если вам нравятся наши спецпроекты, пожалуйста, проголосуйте за них до 4 апреля.

А мы напомним, что на странице точки входа в DH собрали статьи, блоги, глоссарий и рекомендации экспертов в этой области. Ну а в серии материалов «Классное чтение» рассказали о том, как менялся состав зарубежной, региональной и русской литературы в школах от Октябрьской революции до наших дней.

👣 Четыре простых шага 👣

1. Открыть голосование
2. Найти и выбрать Classroom reading (Systemniy Block media) в категории BEST DH DATA VISUALIZATION
3. Найти и выбрать Digital Humanities, или Цифровые методы в гуманитарных науках: точка входа в категории BEST DH RESOURCE
4. Отправить форму!

Спасибо, что читаете и поддерживаете ❤️

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Искусственный интеллект в помощь благотворительности

Технологии способны облегчить изматывающий труд благотворительных организаций: найти доноров, помочь с заявкой на грант или спрогнозировать социальные изменения. «Системный Блокъ» рассказывает, в чем цифровые интсрументы полезны в мире добрых дел и почему это сопряжено с рисками.

🤖 Как часто НКО используют ИИ?

Поворот НКО в сторону современных технологий идет не быстро, однако некоторые организации уже активно ими пользуются. Например, в 2024 году для подачи заявки на грант в Фонд Потанина ИИ использовала почти половина опрошенных НКО: искусственный интеллект помог сформулировать цели и задачи проекта, посчитать и описать качественные и количественные показатели, создать шаблон писем для партнеров.

Тем не менее, так было не всегда. Например, как в России, так и за рубежом НКО медленно осваивают технологии, редко используют современные инструменты, такие как чат-боты и искусственный интеллект.

💸 С чем ещё может помочь ИИ?

Платформа Grantable может сгенерировать текст для грантовой заявки, а для большей точности и этичности формулировок можно использовать инструмент AI Grant Writer.

Незаменимым инструментом ИИ может стать и для повышения эффективности фандрайзинга: он может выявить потенциальных крупных доноров на основе анализа данных из внешних и внутренних источников, а ещё — помочь донорам выбрать программу или организацию для пожертвования с учетом прошлых отчислений.

⚠️ Что важно учитывать?

Применение искусственного интеллекта сопряжено с определенными рисками. Например, сгенерированные изображения или видео могут вызвать недоверие к работе НКО у потенциального донора. Кроме того, для обучения качественных и полезных алгоритмов нужно большое количество хороших данных, которых в сфере НКО часто недостаточно.

Более подробно о том, с какими проблемами могут столкнуться НКО, как чат-боты способны облегчить сбор пожертвований и работу сотрудников, и почему использование ИИ в сфере благотворительности не всегда оптимально, читайте в полной версии статьи.

Время чтения: 11 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

«Системный Блокъ» продолжает набор в мастерскую дата-журналистики на «Летней Школе»! До 18 мая мы принимаем заявки от всех желающих.

Вы тоже любите данные, исследования, еду на костре и сосны? В июле «Летняя школа» на Волге открывает новый сезон. Во второй раз в ее программе и мастерская «Системного Блока» по дата-журналистике, и мы приглашаем участников.

Что такое дата-журналистика?


Дата-журналистика — это направление в журналистике, основанное на анализе и визуализации данных.  Сырые данные мало что значат для человека. Чтобы они приобрели смысл, их нужно обработать, обобщить, найти в них закономерности и связи, а потом объяснить понятным языком. Именно этим и занимается дата-журналистика. Так появляются истории о причинах смертности среди бездомных, о гендерном балансе учителей или о составе школьного литературного канона. Если вы хотите научиться делать так же, то приезжайте к нам на мастерскую. 

🎓 Кто может участвовать в мастерской?

Подать заявку могут как опытные, так и начинающие журналисты, а также все, кто хочет попробовать себя в новой сфере: студенты, выпускники, программисты, аналитики данных, визуализаторы.

✍🏼 Что будет на мастерской?

На мастерской будет два блока: образовательный и проектный.

Образовательный блок будет состоять из трех разделов: работа с данными, основы визуализации, дата-журналистика. Вы узнаете, где искать данные, как их собирать и обрабатывать, как превращать их в красивые и понятные визуализации, и как из всего этого создавать журналистские истории.

Во время проектного блока вас ждет хакатон. Наши партнеры привезут реальные задачи и данные, и команды участников смогут пройти полный цикл создания дата-истории от гипотез до выводов. В прошлом году команды исследовали состав школьных программ по литературе, российские кинофестивали, влияние профиля и престижности вуза на трудоустройство выпускников. Лучшие материалы вы сможете опубликовать у нас или на площадках наших партнеров. 

🧑🏻‍💻 Кто делает мастерскую? 

Партнеры мастерской: 
• платформа «Если быть точным» @tochno_st, которая исследует данные о социальных проблемах в России;
• благотворительная организация «Ночлежка» @nochlezhka, помогающая бездомным;
• центр научной коммуникаций ИТМО @scicomm;
• научно-популярный журнал «Кот Шредингера» @kot_sh.

📍Когда и где пройдет мастерская?

Мастерская дата-журналистики пройдет с 19 июля по 3 августа 2025 года на Волге недалеко от Дубны.

❗️Как к нам попасть?

Подать заявку на участие можно на странице мастерской до 18 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Подробности можно прочитать в FAQ.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Только не списывай точь-в-точь: автоматический поиск аллюзий и цитат в древнеримской литературе

Выявление цитат и аллюзий — важная задача филологов, справляться с которой до недавнего времени приходилось традиционными методами. Особенно сложной она оказывается тогда, когда имеешь дело с произведениями, авторы и аудитория которых жили в совершенно другом контексте: литературном и историческом. К счастью, сегодня у исследователей есть цифровые инструменты, которые могут помочь разобраться с интертекстуальностью. Рассказываем о проекте Tesserae, который помогает находить аллюзии и цитаты в древнеримской литературе.

Кратко: что за проект?

Tesserae — проект университета Баффало, бесплатное веб-приложение, которое работает с корпусом текстов из баз Perseus Digital Library и The Latin Library. Работая с Tesserae, пользователь выбирает два произведения из корпуса, после чего программа сравнивает их и возвращает список всех предложений, которые содержат хотя бы два совпадающих слова. 

Предложения, в которых нашлись такие совпадения, получают оценку от 2 до 10. Программа учитывает два параметра: частотность употребления слов и расстояние между ними во фразе. Сравнительно редкие слова, стоящие рядом, с большей вероятностью будут составлять осознанную отсылку или цитату и, соответственно, получат более высокий балл.

Искать совпадения можно не только по точной форме, но и по лемме (начальной форме), похожему звучанию и даже по семантической близости. Например, при сравнении стихотворений Катулла с «Георгиками» Вергилия в качестве совпадений были найдены tacet nox (Catullus 7.7) и silet nox (Georgics 1.247). И то, и другое можно перевести как «ночь молчит», хотя авторы использовали два разных глагола.

Самый простой результат работы с Tesserae — выявление новых текстовых параллелей, которые до этого не были отмечены комментаторами. В ходе тестирований команда проекта обнаружила потенциальную аллюзию к «Энеиде» в первой книге «Фарсалии» Лукана.

Правда, работа филолога все еще важна даже при наличии Tesserae,  поскольку каждый полученный результат нужно рассматривать отдельно и пытаться объяснить в зависимости от контекста. Программа этого пока не умеет — только выполняет умный поиск по корпусу на предмет лексических совпадений.

Подробнее о проекте и задачах, в решении которых он может помочь, а также о том, зачем филологи вообще ищут цитаты и отсылки, узнаете из полной версии статьи.

Время чтения: 12 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

ИИ-поиск от Google, третья Qwen и модель-подхалим GPT-4o

Рассказываем, что произошло в мире ИИ за последнее время.

AI Mode от Google

Корпорация Google открыла доступ к поиску на основе больших языковых моделей для пользователей из Америки.

В отличие от традиционного поиска, при котором пользователь получает список ссылок на релевантные веб-сайты в ответ на запрос, ИИ-поиск суммаризирует поисковую выдачу и выдает текстовую выжимку. Благодаря внедрению языковых моделей в процесс поиска пользователь может задавать длинные и сложные запросы, а также уточняющие вопросы к ответу. Вместо замены текущего режима поиска Google добавила ИИ-поиск в отдельную вкладку под названием AI Mode — на уровне с вкладками «Изображения», «Новости», «Видео» и т. д.

AI Mode тестируется с начала марта этого года в закрытом режиме. Ранее Google уже пыталась интегрировать LLM в поиск, однако в ответ получила негативные реакции пользователей из-за большого количества галлюцинаций в поисковой выдаче. AI Mode является прямым конкурентом продуктов многих ИИ-компаний: PerplexityGPT Search и DeepResearch от OpenAI,  Research от Anthropic.

Qwen3 — новое поколение открытых языковых моделей

Холдинг Alibaba Group (владеет AliExpress, TaoBao и другими маркетплейсами) обновил свое семейство языковых моделей Qwen. Qwen3 доступен в следующих размерах (в млрд параметров): 0,6, 1,7, 4, 8, 14, 32.

Помимо них, также были представлены две модели с архитектурой Mixture of Experts: во время генерации ответа модель использует лишь часть всех параметров (их называют активными), при этом, какие именно параметры задействованы во время ответа — зависит от конкретного запроса пользователя. Mixture of Experts версии доступны в двух размерах: 30 млрд с 3 млрд активными и флагманская модель с 235 млрд параметров из которых 22 млрд активные.

Флагманская модель в основных тестах опережает DeepSeek-R1 и сопоставима с последними лучшими моделями (Google Gemini 2.5 Pro и OpenAI o3-mini). Более компактные версии опережают конкурентов сопоставимых размеров.

Все модели поддерживают режим рассуждений, когда перед финальным ответом модель генерирует цепочку логических рассуждений. Модели были обучены на текстах на 119 языках. Полный список языков доступен на сайте модели. Qwen3 можно использовать для коммерческих целей.

Модели семейства Qwen — в числе лидеров открытых LLM: их используют энтузиасты, коммерческие компании и научные исследователи.

OpenAI откатила обновление GPT-4o после жалоб о чрезмерной лести

Компания OpenAI вернула старую версию GPT-4o после того, как многочисленные пользователи пожаловались на избыточное количество лести и подхалимства в ответах обновленной версии.

Во время подготовки обновления GPT, сделанного в конце апреля 2025, компания, помимо новых обучающих данных и улучшенных методов, использовала оценки ответов от пользователей (их можно дать через кнопки «лайк» и «дизлайк» в интерфейсе чата). По словам компании, по отдельности новые данные и методы показывали улучшения, благодаря чему обновленная модель показала прирост в качестве в заранее подготовленных тестах. Но в совокупности улучшения привели к измененному поведению. 

Используемые тесты, а также группа тестировщиков фокусировались только на определенных показателях, в числе которых не было метрики, отвечающей за угодничащее поведение модели. И хотя некоторые тестировщики отметили, что модель стала «вести себя» немного иначе, обновление все равно решили сделать доступным.

Для предотвращения подобных ситуаций OpenAI приняли несколько новых мер: начали работу над улучшением существующих тестов и A/B-тестирования, приоритизировали качественные оценки поведения модели от тестировщиков.

Более детальный отчет о случившемся и выводах, сделанных компанией, доступен в официальном блоге.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Ухемоль, зигия и желтяника: зачем нужна этноботаническая база данных

Что такое таинственная «ухемоль», два горшка которой были взяты для сохранения? Как в XVIII веке называли айву и ананас? А какая ягода скрывается за романтичным названием «любовное яблоко»? Узнать это и многое другое возможно с помощью этноботанической базы PhytoLex, которая собрала более 50 тыс. записей с названиями самых разных растений. Рассказываем, как она создавалась, что возможно узнать с ее помощью и почему словари не всегда могут помочь точно определить вид встретившегося в тексте цветка или кустарника.

Кратко: о чем статья?

В первоначальном варианте база данных PhytoLex (@phytolex) была сугубо лингвистической и включала материалы из источников XI–XVII веков: от богословских сочинений до рецептов Аптекарского приказа. В нее были включены как существительные, так и прилагательные, образованные от названий растений.

Постепенно проект рос: увеличились команда и финансирование, появились новые источники и растения, расширились пользовательские возможности. Например, добавились разные визуализации, которые помогают проследить, как менялись названия растений на протяжении веков, изучить этимологию и словообразовательные связи. А ещё — выяснить, что желтяника – это дикий шафран, а зигия – дерево, название которого пришло из греческого.

Узнать это можно не только с помощью поиска по сайту, но и благодаря чат-боту. Школа вычислительных социальных наук Европейского университета в Санкт-Петербурге использовала PhytoLex для разработки «умного помощника», который позволяет общаться с базой данных на естественном языке. Теперь ему можно задавать вопросы по содержанию базы. Например, какие растения импортировались в Российскую империю из Южной Америки во второй половине XVIII века.

Подробнее о развитии и перспективах проекта узнаете из полного текста статьи.

P. S. А вот о значении слова ухемоль не узнаете, ведь на сегодняшний день это единственная фиксация слова, и какое растение оно обозначает, науке неизвестно 🤷

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Цифровые репетиторы: как ИИ помогает готовиться к экзаменам

Представьте, что до ЕГЭ остался месяц, а вы не понимаете, как писать сочинение, путаетесь в задачах по информатике и так и не разобрались в Present Perfect. К счастью, разобраться в материале, терпеливо объяснять по 100 раз и даже шутить, чтобы снять стресс, теперь могут ИИ-помощники. Мы протестировали «Сочинителя», Яндекс Учебник и Skysmart AI, чтобы узнать, кто лучше справляется с ЕГЭ и итоговым сочинением. 

📝 «Сочинитель»

«Сочинитель» — Telegram-бот, созданный для подготовки к итоговому сочинению. Он задает наводящие вопросы, помогает с идеями, аргументами и логикой текста, по необходимости – что-то объясняет. Работает бот на основе большой языковой модели, дообученной на учебных материалах «Просвещения».

Ученики могут работать как над целыми сочинениями, так и над отдельными частями, например, тренироваться в подборе аргументов или формулировке тезисов. Правда, пока ему не хватает функции объединения получившихся абзацев в единый текст и проверки на грамотность.

💻 Яндекс Учебник

Яндекс Учебник разработал сервис для подготовки школьников к ЕГЭ по информатике на основе технологии YandexGPT. Он объединяет технологии искусственного интеллекта и образовательные методики: не просто выдает ответы, а предоставляет алгоритм решения или ведет интерактивный диалог с учеником. По данным разработчиков Яндекс Учебника, в 2023–2024 учебном году четыре из пяти школьников, сдающих ЕГЭ по информатике, пользовались этой платформой.

Впрочем, в отдельных аспектах Яндекс Учебник пока проигрывает DeepSeek-V3, который дает наиболее полные объяснения и полезные дополнительные материалы. 

🇬🇧 «Skysmart AI ЕГЭ Эксперт»

Сервис «Skysmart AI ЕГЭ Эксперт» — это бот в Telegram, который помогает готовиться к ЕГЭ по английскому языку. Его создали в онлайн-школе Skyeng на базе искусственного интеллекта, включая ChatGPT и собственные разработки компании, такие как фонетический анализатор и системы распознавания речи.  В ходе тестирования с участием членов предметной комиссии выяснилось, что в 68% случаев бот проверяет работы так же качественно, как и эксперты, а в 61% случаев его аргументация даже лучше человеческой.

Skysmart AI мы тоже сравнили с универсальными нейросетями. И если в случае устных заданий это единственный сервис, который анализирует голосовые сообщения в Telegram, указывает на ошибки и подсчитывает баллы, то в случае письменных у него есть свои преимущества и недостатки. Например, сервис не дает персонализированные рекомендации и не сможет помочь со структурой и клише.

Более подробный разбор каждого из трёх инструментов найдёте в полной версии материала.

Кстати, а вы уже использовали ИИ для обучения и подготовки к экзаменам? Делитесь в комментариях! 

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

«Системный Блокъ» запускает набор в мастерскую дата-журналистики на «Летней Школе» (да, опять!)

Вы тоже любите данные, исследования, еду на костре и сосны? В июле «Летняя школа» на Волге открывает новый сезон. Во второй раз в ее программе и мастерская «Системного Блока» по дата-журналистике (https://letnyayashkola.org/data-jour/), и мы приглашаем участников.

Что такое дата-журналистика?

Дата-журналистика — это направление в журналистике, основанное на анализе и визуализации данных. 
Сырые данные мало что значат для человека. Чтобы они приобрели смысл, их нужно обработать, обобщить, найти в них закономерности и связи, а потом объяснить понятным языком. Именно этим и занимается дата-журналистика. Так появляются истории о причинах смертности среди бездомных, о гендерном балансе учителей или о составе школьного литературного канона. Если вы хотите научиться делать так же, то приезжайте к нам на мастерскую. 

🎓Кто может участвовать в мастерской?

Подать заявку могут как опытные, так и начинающие журналисты, а также все, кто хочет попробовать себя в новой сфере: студенты, выпускники, программисты, аналитики данных, визуализаторы.

✍🏼 Что будет на мастерской?

На мастерской будет два блока: образовательный и проектный.

Образовательный блок будет состоять из трех разделов: работа с данными, основы визуализации, дата-журналистика. Вы узнаете, где искать данные, как их собирать и обрабатывать, как превращать их в красивые и понятные визуализации, и как из всего этого создавать журналистские истории.

Во время проектного блока вас ждет хакатон. Наши партнеры привезут реальные задачи и данные, и команды участников смогут пройти полный цикл создания дата-истории от гипотез до выводов. В прошлом году команды исследовали состав школьных программ по литературе, российские кинофестивали, влияние профиля и престижности вуза на трудоустройство выпускников. Лучшие материалы вы сможете опубликовать у нас или на площадках наших партнеров. 

🧑🏻‍💻 Кто делает мастерскую? 

Партнеры мастерской: 
• платформа «Если быть точным» @tochno_st, которая исследует данные о социальных проблемах в России;
• благотворительная организация «Ночлежка» @nochlezhka, помогающая бездомным;
• центр научной коммуникаций ИТМО @scicomm.
• научно-популярный журнал «Кот Шрёдингера» @kot_sh

📍Когда и где пройдет мастерская?

Мастерская дата-журналистики пройдет с 19 июля по 3 августа 2025 года на Волге недалеко от Дубны.

❗️Как к нам попасть?

Подать заявку на участие можно на странице мастерской (https://letnyayashkola.org/data-jour/ ) до 18 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Подробности можно прочитать в FAQ (https://letnyayashkola.org/FAQ/).

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Прогнозы развития ИИ до 2027

Команда исследователей искусственного интеллекта представила отчёт с прогнозами развития ИИ на период с середины 2025 по 2027 год. Один из участников команды, Даниэль Кокотайло, в 2021 году правильно предсказал многие важные тенденции. Рассказываем, какие предположения ученые сделали теперь.

🔣 2025: Ускорение развития и первые достижения

В 2025 году продолжается ускорение развития ИИ, сопровождаемое ростом инвестиций и медийного внимания. ИИ-агенты (программы, использующие искусственный интеллект для автономного решения задач, таких как создание ПО, формирование отчётов и т.д.) начнут приносить существенную практическую пользу. При этом многие учёные и политики останутся скептиками относительно скорого появления общего ИИ – искусственного интеллекта, способного выполнять неограниченный спектр задач на уровне лучших человеческих специалистов.

🔣 2026: Усиление международной конкуренции

В 2026 году Китай построит централизованный суперкомпьютер с целью сокращения отставания от США в сфере ИИ. Предполагается, что мощность этого суперкомпьютера составит около 10% от суммарной вычислительной мощности всех суперкомпьютеров мира.

🔣 2027 год: Переломный момент

2027 год может стать ключевым для развития ИИ:
• Ведущая американская компания (не названная прямо) разработает ИИ-систему, способную автоматизировать работу ИИ-исследователей, что значительно ускорит прогресс в этой области.
• За счет автоматизации исследований появится первый сверхчеловеческий ИИ, превосходящий лучших экспертов в различных областях.
• Китай получит доступ к американским наработкам, что приведёт к усилению государственного вмешательства США в работу ИИ-компаний.
• Сверхчеловеческий ИИ продемонстрирует способность ставить перед собой цели, противоречащие интересам человечества, а также саботировать исследования своих внутренних механизмов.

Сценарии развития после 2027 года

После 2027 года исследователи прогнозируют два возможных сценария:

Катастрофический сценарий

• Лидирующая американская ИИ-компания, несмотря на потенциальные риски, продолжит совершенствовать свои системы.
• США начнут интегрировать общий ИИ в оборонную и политическую системы, используя его для принятия стратегических решений.
• Под влиянием рекомендаций и манипуляций со стороны ИИ начнётся массовое производство роботов, которые необходимы ИИ для достижения своих цели.
• В конечном итоге ИИ с помощью нового биологического оружия уничтожит человечество.

Позитивный сценарий

• США создадут независимый орган для внешнего контроля над развитием ИИ.
• Учёные разработают новые способы контроля и интерпретации систем ИИ.
• Благодаря совместным усилиям исследователей и государственных органов удастся создать подконтрольный ИИ.
• США и Китай достигнут договорённости о регулировании использования ИИ для предотвращения потенциальных конфликтов.
• Разработанные технологии ИИ будут использоваться во благо человечества.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Коллокации и социальная история: как изучение словосочетаний помогает гуманитариям

В самом простом понимании, коллокация — пара часто встречающихся вместе слов (например, «зеленый лист» или «бить ключом»), хотя некоторые исследователи предпочитают называть так только устойчивые словосочетания. Впрочем, признаки «устойчивости» довольно размытые, а эксперименты показали, что интуиция носителей языка не позволяет однозначно выделять коллокации.  Рассказываем об этом феномене подробнее, и изучаем с помощью коллокаций в НКРЯ, что представлял собой антисемитизм в Российской империи второй половины XIX века.

Кратко: о чем статья?

Коллокации, основанные на данных о совместной встречаемости, называются neighbourhood collocations («соседствующие коллокации»), а основанные также на семантических критериях — coherence collocations («когерентные коллокации»). Например, пара слов хлеб насущный будет когерентной, поскольку слова связаны по значению и ассоциированы друг с другом, а вот найденная в корпусе английского языка пара a dog (неопределенный артикль + «собака») будет являться соседствующей, ведь высокая совместная встречаемость обусловлена грамматическими причинами. 

Задача по исследованию разных типов коллокаций значительно упростилась с появлением корпусов: они дали возможность выделять такие словосочетания на основе статистических данных. Такой поиск можно осуществить и с помощью Национального корпуса русского языка (НКРЯ).

Мы решили воспользоваться им для изучения социальной истории и посмотреть на антисемитизм в Российской империи второй половины XIX века. Для этого мы выделили в НКРЯ подкорпус текстов с 1860 по 1900 годы (4108 текстов, 55 298 793 слова). Затем отобрали обозначения для евреев: нейтральные «еврей» и «иудей», грубое «жид». Затем для каждого из этих слов мы рассмотрели коллокации-прилагательные и коллокации-глаголы. Аналогичные запросы сделали и для слова «русский», чтобы посмотреть, связан ли гипотетический антисемитизм с ростом общего интереса к национальности.

Оказалось, что среди прилагательных-коллокатов особенно часто встречались связанные с религией, национальностью и географией. В то же время слово «русский» употреблялось в контексте межнационального и межкультурного общения. 

Многие коллокаты-глаголы для слов «еврей» и «жид» относились к экономической или предпринимательской деятельности («приобретать», «торговать», «содержать», «продать», «заложить»), некоторые с негативным оттенком («надуть», «обмануть»).

Подробнее об этом примере и о том, как и зачем работать с коллокациями с помощью корпусов, узнаете из полной версии статьи.

Время чтения: 12 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Digital Humanities Awards 2024: Результаты

Стали известны результаты ежегодной премии DH Awards, цель которой — поощрять интересные ресурсы и проекты в сфере цифровых гуманитарных наук.

«Системный Блокъ» принимал участие сразу в двух номинациях: Best DH Resource (Лучший DH-ресурс) — за наш портал с подборкой материалов по Digital Humanities, и Best DH Data Visualization (Лучшая визуализация данных) — за проект «Классное чтение» о школьном литературном каноне.

В обеих номинациях проекты «Системного Блока» заняли третье место 🎉

Спасибо всем  авторам, редакторам, иллюстраторам и менеджерам, причастным к реализации этих двух проектов, а также читателям, проголосовавшим за нас.

Также поздравляем постоянного автора и блогера СБъ Бориса Орехова, занявшего второе место в номинации DH Short Publication за статью о применении дистрибутивной семантики к шахматам, и автора Ольгу Алиеву, чей курс по компьютерному анализу текста стал призером в номинации DH Training Materials.

С остальными результатами можно ознакомиться по ссылке.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Новая Llama 4, новый лидер Gemini 2.5 Pro, новые картинки от GPT

Рассказываем, что произошло за в мире ИИ за последнее время.

Llama 4

Компания Meta выпустила четвертую версию своей open-source языковой модели LLama. Модель представлена в трех размерах: 2 трлн, 400 млрд и 109 млрд параметров. Все вариации используют архитектуру Mixture of Expert, благодаря которой во время генерации ответа модель задействует только малую долю всех параметров, необходимых для данного запроса. Используемые во время ответа параметры называются активными.

Модели Llama 4 Maverick (400 млрд параметров, 17 млрд активных) и Llama 4 Scout (109 млрд, 17 млрд активных) доступны уже сейчас. Флагманская версия Behemot с 2 трлн параметров (288 млрд активных) находится в процессе обучения. Ее промежуточная версия была использована при создании Maverick и Scout. Все модели поддерживают работу с изображениями.

По основным тестам на понимание языка, программирование и на умение решать логические и математические задачи Scout сопоставима с Gemma 3, Gemini 2.0 Flash-Lite и Mistral Small 3.1. Также Scout поддерживает работу с контентом длиной 10 млн токенов — это особенно полезно при работе с большими кодовыми базами, объемной документацией или видео.

Maverick по метрикам опережает Gemini 2.0 Flash и GPT-4o и сравнима с обновленной DeepSeek-V3 в задачах на логику и программирование. Behemot в задачах, связанных с естественными науками, показывает себя лучше Claude Sonnet 3.7, GPT-4.5 и Gemini 2.0 Pro.

Gemini 2.5 Pro — новый лидер среди LLM

Google представила экспериментальную версию своей новой языковой модели Gemini 2.5 Pro. По большинству ключевых метрик она значительно опережает другие ведущие модели, такие как o3-mini-high, DeepSeek-R1, Grok 3 и Claude Sonnet 3.7.

На платформе LMArena, где пользователи сравнивают различные LLM, Gemini 2.5 Pro занимает первое место (второе — у Llama 4 Maverick). Особенно высоко оцениваются ее возможности в написании программного кода.

Модель доступна через API. Предусмотрены два тарифа: бесплатный — с использованием пользовательских данных для обучения моделей Google и платный — без сохранения и использования данных.

Обновление GPT-4o 

С последним обновлением GPT-4o сильно улучшилось качество генерации изображений. Модель стала рисовать реалистичнее, лучше справляется с отрисовкой текста, а также гораздо эффективнее редактирует изображения — например, может добавлять или удалять объекты, а также применять различные стилизации (например, перерисовывать в стиле студии Ghibli).

Эти улучшения стали возможны благодаря нативной поддержке работы с изображениями. Ранее GPT, как и большинство других моделей, использовала отдельную нейросеть для работы с визуальными запросами. Например, для генерации изображения вызывалась специализированная модель DALL-E 3. Теперь же GPT-4o воспринимает текст и изображения как единый тип данных. Иными словами, она может как принимать изображения на вход, так и генерировать их в ответ, не используя другие модели. Подобный подход к работе с изображениями был также продемонстрирован в моделях Gemini 2.0.

Нативная поддержка изображений и аудио была анонсирована вместе с самой моделью GPT-4o — название «о» происходит от слова Omni, что означает «всё в одном» — универсальность и мультиформатность. Однако полноценный доступ к этим возможностям стал возможен только сейчас.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Коротко и быстро: что такое микрообучение и когда оно (не) может помочь

«Учитесь по 15 минут в день!», «Запоминайте в 2 раза больше!» — маркетологи обещают, что микрообучение изменит ваше образование навсегда. Но что за этим на самом деле стоит? Мы разобрались, как работает этот подход, где он полезен, а где — просто красивая обертка. Спойлер: 5-минутное видео не заменит университетскую лекцию :((((

Что это за подход?

Микрообучение — образовательный подход, при котором новая информация подается небольшими порциями, обычно в формате коротких роликов, презентаций или иллюстрированных текстов. Примеры таких форматов можно встретить все чаще: от познавательных шортсов на YouTube до образовательных VK-клипов. Действительно что-то запомнить из таких видео помогает обязательная составляющая микрообучения — повторяемость.

Как это устроено?


Современные платформы микрообучения зачастую работают по принципу subscription learning — подписки на регулярную подачу небольших учебных фрагментов (так называемых «наггетсов»). Эти мини-уроки включают в себя  объяснение нового материала, проверочные тесты, формы для рефлексии и другие интерактивные элементы. Траектория может быть заранее составлена или формироваться динамически, подстраиваясь под успехи и ошибки ученика.

Кто использует микрообучение?


Многие компании включают микрокурсы в обязательную программу после трудоустройства. Например, внутри Google действует программа Whisper Courses с пятиминутными обучающими модулями. Она направлена на развитие soft skills и помогают выстроить гармоничные взаимоотношения внутри коллектива. По данным Google, всего за десять недель менеджеры-участники Whisper Courses улучшили свои показатели на 22–40 процентных пунктов по сравнению с контрольной группой.

А минусы будут?

Микрокурсы не подойдут для изучения сложных тем или для продвинутых студентов. Выучить первые 50 слов на немецком языке? Да! Разобраться во влиянии экзистенциализма на поэзию Рильке? Вряд ли.
Микрокурсы также не будут одинаково эффективны для разных возрастов и поколений. Исследования показывают, что работники до 40 лет лучше адаптируются к микрообучению, тогда как старшие сотрудники предпочитают лекции и книги.

О других особенностях микрообучения и о том, почему данным об их эффективности, возможно, не стоит доверять на 100%, узнаете из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Студенческое средневековье: изучаем базу данных средневековых университетов

Что мы знаем о средневековых студентах? Очень многое! Происхождение, статус и другие характеристики европейских студентов тщательно документировались, так что сегодня ученые могут создавать базы данных выпускников и преподавателей прошлого. Об одной из них — Repertorium Academicum Germanicum — рассказываем в нашем новом материале

Кратко: о чем статья?

Коллективные биографии и данные об исторических личностях позволяют составить «обобщённый социальный портрет» разных сообществ. А изучают их с помощью методов просопографии (мы уже рассказывали о них на примере Японии и Древнего Рима). Проект Repertorium Academicum Germanicum (RAG) использует эти методы для исследования средневековых университетов Европы.

Сегодня в базе можно найти данные около 62 тысяч ученых и выпускников университетов, находившихся на территории Священной Римской империи за 1250–1550 гг. (а также сведения об отдельных деятелях XVII столетия). Каждая запись содержит сведения о датах рождения и смерти, географическом и социальном происхождении, времени обучения и получении ученой степени, деятельности после окончания университета, специальности и перемещениях между университетами.  

Интерфейс сайта позволяет составлять графики и карты, чтобы изучить географию происхождения студентов или типичные маршруты их перемещений между университетами. Например, можно выяснить, что немецкие дворяне-протестанты часто приезжали учиться в Марбург, а особенно сильной тенденция стала в середине XVI в., когда у них не было возможности занимать высокие должности из-за своего вероисповедания. 

Другие опции для исследований — изучение маршрутов отдельных личностей или сетей их коммуникаций. Только за последние пять лет на материалах RAG было опубликовано более 20 исследовательских работ (включая статьи, главы в коллективных монографиях и т.д.).

Узнать подробнее о возможностях, которые предлагает эта база данных, сможете благодаря полной версии статьи.

Время чтения: 8 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

На словах или на деле? Подборка про Льва Толстого в цифровой гуманитаристике!

Лев Толстой — один из самых значимых русских писателей, чье влияние выходит далеко за пределы литературы. Именно его мы упоминали в канале «Системного Блока» чаще всех остальных русских классиков в прошлом году (и едва ли что-то поменяется в этом). В новой подборке собрали для вас наши главные материалы о Толстом.

📚 Цифровые ресурсы 📚

На нашем сайте регулярно выходят статьи, в которых мы рассказываем об онлайн-архивах произведений Толстого. Например, из обзора интернет-ресурсов о писателе можно узнать о семантическом издании «Толстой Digital» и о проекте «Слово Толстого», который открывает читателю доступ к 90-томному собранию сочинений. Подробнее об этом проекте Анастасия Бонч-Осмоловская рассказала в своем интервью.

💻 Цифровые исследования 💻

Цифровые методы позволяют изучить неочевидные аспекты творчества Толстого: например, благодаря корпусной лингвистике мы можем узнать что говорит о персонажах «Войны и мира» их речь.

Векторно-семантические модели помогут изучить стиль писателя и увидеть, что слова «обожать» и «боготворить» в его текстах свидетельствуют о чувствах ложных и зыбких, а «любят» у классика по-настоящему. А изучение других глаголов подскажет, какие действия чаще характеризуют женщин и мужчин в текстах русских писателей (спойлер: в случае Толстого женщины чаще всего улыбаются и плачут, а мужчины — понимают и кричат).

😎 Бонус! Тесты 😎

Для тех, кто хочет проверить знания о Толстом (а иногда и о себе!), мы создали несколько тестов. Например такие:

Вы Лев Толстой на словах или на деле? Викторина по редким словам из корпуса текстов писателя — узнайте, насколько хорошо вы понимаете редкие слова из его произведений.

С какими героями «Войны и мира» вы говорите на одном языке? — определите, чей стиль речи вам ближе всего. 

Ещё больше наших материалов о Толстом — на его персональной странице на сайте.

😎 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Подборка про историю интернета

В новой подборке рассказываем, как писатели в начале XX века предсказали интернет, как в Советском Союзе пытались создать суверенную электронную сеть и почему советские и русские программисты стали цениться во всем мире.

Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети

1908 год. Упал Тунгусский метеорит, родился лауреат Нобелевской премии Лев Ландау, Сергей Дягилев представил Русские сезоны в Париже. А еще в этом году вышла книга Александра Богданова «Красная звезда». Фантаст описал распределенную информационную систему для сбора статистики на Марсе, которая сильно напоминает интернет.

Интернет на службе коммунизма: как СССР создавал свою электронную сеть

В 60-е гг. XX века в СССР кибернетика из лженауки стала популярной идеей. Читайте в нашем материале про утопичный проект Общегосударственной автоматизированной системы учета и обработки информации (ОГАС) для создания идеального коммунистического будущего.

Утечка в IT: как эмигранты создали бренд русского программиста

В 2007 году президент Intel Russia Стив Чейз заявил: «Если проблема нерешаема, мы передаем ее русским». Это высказывание подчеркнуло высокую репутацию российских программистов на мировом IT-рынке. Рассказываем, как советские и русские программисты стали мировым брендом.

Прокачиваем гуманитария до программиста: инструкция

И бонус! Читайте наш гайд, как из филолога, культуролога, философа — одним словом, гуманитария — стать программистом. Рассказываем, как направить себя, к чему быть готовым и какие ресурсы использовать, если вы увлеклись идеей программирования, но не знаете, с чего начать, и не уверены, сможете ли вы.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Технологии в Большом египетском музее: 3D-модели, VR и цифровой двойник

Большой египетский музей (The Grand Egyptian Museum, или GEM) — один из самых многообещающих долгостроев в сфере культурного наследия. Его история началась еще в 2002 году, а первым экспонатом стала 11-метровая гранитная статуя Рамзеса II, размещённая в главном холле музея с помощью виртуальной 3D-копии. Рассказываем, как цифровые инновации вписались в проектирование и строительство музея.

Кратко: что за музей?

GEM — самый большой археологический музей и самый большой музей, посвященный одной цивилизации. Официально он откроется 3 июля 2025-го, но 12 залов постоянной экспозиции уже доступны посетителям.

Цифровые технологии сопровождали музей на протяжении всего строительства, но главным новаторством в архитектурном проекте стало применение технологии digital twin. Это создание полной динамически обновляемой виртуальной модели всего музейного комплекса и его окрестностей. Благодаря ней все люди, занятые в строительстве, оставались в курсе ежедневных изменений, неизбежных для работ подобного (огромного!) размаха. Вместе с реальной постройкой рос и ее двойник.

Другие технологии призваны разнообразить опыт посетителей музея. Например, с официальным открытием в GEM должны стать доступны VR-реконструкция гробницы, 3D-модель Сфинкса и виртуальная лодочная прогулка вдоль Нила времени фараонов.

Подробнее о том, как цифровые технологии помогли сделать проекта музея менее дорогим, но более экологичным и интересным посетителю, узнаете из полной версии статьи.

Время чтения: 11,5 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…
Subscribe to a channel