«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join
Алгоритмы и дискриминация на рынке труда. Чему мы научили искусственный интеллект?
Сегодня за свои права приходится бороться не только с работодателями, но и с искусственным интеллектом. ИИ все чаще используется для управления персоналом и набора сотрудников — и он закономерно научился дискриминировать людей по полу, физическим возможностям и т. п. «Системный Блокъ» предлагает перечитать классический материал об ИИ на рынке труда в честь 1 мая — Дня солидарности трудящихся.
Кратко: о чем статья?
Использование ИИ в подборе персонала — один из основных трендов сферы труда. Так, более половины всех HR в США используют алгоритмы искусственного интеллекта при приеме на работу, проведении собеседований и оценке кандидатов. Алгоритмы найма с ИИ очень разнообразны. Например, платформа HireVue оценивает кандидатов по мимике и высказываниям во время видеособеседования, а в некоторых российских компаниях работает ИИ робот-рекрутер Вера. Она приглашает кандидатов на собеседования и проводит опросы увольняющихся сотрудников.
Главная цель ИИ-рекрутинга — помочь человеку справиться с рутинными процессами в найме, одна из главных проблем — предвзятость. Алгоритмы часто оценивают кандидатов несправедливо, так как обучаются на данных, часто копирующих искажения и ошибки людей. Например, HR-робот мог классифицировать тексты с упоминанием ограниченных возможностей как более «токсичные» и оценивать их негативно, а ИИ-рекрутер Amazon снизил оценку резюме женщин, так как был обучен в основном на резюме мужчин.
Конечно, дискриминация не связана напрямую с ИИ: он копирует установки общества. Законодательство разных стран старается регулировать неравенство в том числе и в рекрутинге. Например, в ЕС существует проект закона, контролирующего использование искусственного интеллекта: подобные технологии должны, например, обучаться на качественных недискриминационных данных, а также иметь общедоступную документацию, объясняющую алгоритм и цель проекта. Не все сотрудники довольны участившимся использованием ИИ в компаниях, однако первые шаги к регулированию уже сделаны.
Подробнее о том, как искусственный интеллект используется в найме, в чем подвержен людским предрассудкам и как с этим бороться читайте в полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
«Слово о полку Игореве» как улика, берестяные грамоты и морфология. Памяти А. А. Зализняка
Он доказал подлинность Слова о полку Игореве, разобрался в сложнейшей системе ударения в русском языке и ежегодно рассказывал широкой аудитории о том, что написано в очередных найденных под землей берестяных грамотах... Сегодня исполнилось бы 90 лет выдающемуся лингвисту Андрею Зализняку. Вспоминаем наши материалы о его вкладе в науку.
Берестяные грамоты от раскопа до компьютера
А. А. Зализняк нашел существенное отличие северо-западных говоров от остальных, что привело к пересмотру уже сложившейся схемы диалектов Древней Руси. Источником сведений об этих говорах стали берестяные грамоты, первую из которых нашли в 1951 г.
Оказалось, что в X—XI вв. на территории восточного славянства членение было не таким, как можно представить на основании сегодняшнего разделения языков (великорусский, украинский, белорусский), а иным: северо-запад отличался от всех остальных говоров. Иными словами, существовала группа древненовгородских и древнепсковских диалектов и классическая форма древнерусского языка, объединявшая Киев, Суздаль, Ростов, будущую Москву и территорию Белоруссии. Это и были две главные составные части будущего русского языка.
«Слово о полку Игореве» как улика
Существует мнение, что «Слово о полку Игореве» написано не в XII веке, а несколькими веками позднее, то есть является стилизацией под древность, а не истинным памятником древнерусской словесности. А. А. Зализняк рассматривает проблему подлинности «Слова» с лингвистической точки зрения и последовательно доказывает невозможность никакой другой датировки, кроме XII века.
Акцентуаторы
Русское ударение свободно и подвижно. А. А. Зализняк мечтал о программе, которая сможет расставлять ударения в тексте автоматически.
Магистры из НИУ ВШЭ воплотили его идею в жизнь и создали акцентуатор для русского языка sStress. Это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка.
В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А. А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями.
Морфология
Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А. А. Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы.
Словарь Зализняка лег в основу автоматического порождения всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре. Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово.
🤖 «Системный Блокъ» @sysblok
Hi! It’s Duo Системный Блокъ. Рассказываем о пуш-уведомлениях в обучении
Пуши (push-уведомления) — это короткие всплывающие напоминания на наших гаджетах. Они могут содержать призыв к действию или информацию, которую пользователю нужно вспомнить или узнать. Считается, что в случае образования они помогают держать темп обучения и не пропускать занятия. Разбираемся, так ли эффективны пуши на самом деле.
⚡️ Эксперимент 1: Зависимость
В 2024 году группа ученых провела эксперимент: в течение 36 дней 85 немецких школьников смотрели обучающее видео о преимуществах метода распределенной практики, некоторые из них случайным образом получали напоминания о содержании материала.
На результатах тестов на проверку знаний пуши не сказались, зато стало ясно, что когда напоминания не приходили, студенты реже приступали к занятиям. Это может свидетельствовать о чрезмерной зависимости от пушей. Правда, пока эту гипотезу проверили только на детях 10-12 лет.
⚡️ Эксперимент 2: Концентрация
Исследовательская группа из Католического университета Кореи изучила реакцию на пуши, измеряя мозговые волны с помощью ЭЭГ. Ученые разделили участников эксперимента на две группы: с зависимостью от смартфона и без. Всем им предложили сыграть в го-ного: если на экране загорается желтая точка, нужно нажать на кнопку, иначе — ничего не делать. Во время сеанса участникам приходили пуш-уведомления в виде вибрации. Они могли их видеть, но не могли проверить.
Оказалось, что наибольшее влияние на концентрацию оказывали те уведомления, которые отправлялись непосредственно во время выполнения заданий, а группа риска (зависимости от смартфонов) принимала более поспешные, часто ошибочные решения. Впрочем, реагировали на уведомления обе группы.
Подробнее об этих экспериментах узнаете из полного текста статьи на сайте.
Время чтения: 7 минут
🤖 «Системный Блокъ» @sysblok
DeepSeek: обзор китайской нейросети и ее возможностей
Сегодня рассказываем про DeepSeek — большую языковую модель (LLM) с интерфейсом в виде чат-бота. Нейросеть была создана китайской компанией High-Flyer AI. Сегодня DeepSeek по многим бенчмаркам (системам оценок моделей) не хуже, а то и превосходит нынешних лидеров в сфере ИИ (ChatGPT, Claude, Gemini, LLAMA).
Коротко о главном
DeepSeek — языковая модель, созданная на основе архитектуры Mixture of Experts, которая позволяет задействовать только часть параметров. Это помогает существенно снизить вычислительные затраты без потери качества. Сейчас модель доступна бесплатно, а её исходный код выложен в открытый доступ.
Приложение с чат-ботом адаптировано для Android и iOS, а также не предполагает ограничений для россиян. Более того, в большинстве стран модель не подвергается жесткой цензуре, что позволяет пользователям обсуждать темы, которые могут быть ограничены в других системах. Однако когда дело касается китайской политики, бот может отказаться дать ответ или отправлять сообщения об ошибке.
DeepSeek поддерживает несколько режимов, включая DeepThink для глубокой проработки запросов (у GPT-o1 и o1-mini есть аналогичный режим «Обоснуй»). DeepThink активирует модель R1, которой можно пользоваться без ограничений по лимитам и которая не требует подписки, как у конкурентов, но процесс рассуждений может занять чуть больше времени. Например, на размышление над одним и тем же вопросом DeepSeek потратила 169 секунд, а ChatGPT – 25.
Подробнее о том, как пользоваться DeepSeek, что делать, если модель не работает, и как она связана с нереализованным проектом советского интернета (спойлер: никак, что бы ни говорили в сюжете России-1) узнаете из полной версии статьи.
Время чтения: 11,5 минут
🤖 «Системный Блокъ» @sysblok
Новинки от OpenAI
Пользователям стали доступны сразу три новых моделей от OpenAI: GPT-4.1, o3 и o4-mini. Рассказываем о них в новом дайджесте новостей из мира ИИ.
GPT-4.1
GPT-4.1 — это обновление GPT-4o с улучшенными показателями в основных тестах. В контекст модели теперь умещается 1 млн токенов (частей слов или целых слов) — примерно в 8 раз больше, чем у GPT-4o. Это расширяет возможности при работе с объемными кодовыми базами, длинными документами и анализе видео.
Также отмечается улучшение в следовании инструкциям: модель точнее соблюдает заданный формат ответов, корректнее интерпретирует отрицания (например, «Не задавай уточняющие вопросы») и лучше придерживается ограничений по содержанию.
Модель доступна в трех версиях:
• Стандартная GPT-4.1
• GPT-4.1 mini — сопоставим по качеству с GPT-4o, но вдвое быстрей
• GPT-4.1 nano — наиболее быстрая версия
o3 и o4-mini
o3 и o4-mini – новые модели в линейке «рассуждающих» LLM, то есть моделей, которые перед ответом генерируют цепочку рассуждений, повышающую качество финального ответа. o3 была анонсирована ещё в декабре 2024 года, однако на тот момент была доступна только версия o3-mini. o3 теперь может работать с изображениями в процессе рассуждений: увеличивать его части, поворачивать или извлекать текст. В тестах на анализ графиков, схем и других визуальных материалов o3 показывает высокие результаты.
o4-mini — уменьшенная версия еще не представленной модели o4. По характеристикам она превосходит o3-mini и в ряде тестов сравнима с o3, но в целом имеет более ограниченные возможности при меньшей стоимости.
Обе модели поддерживают взаимодействие с другими приложениями: использование браузера для поиска информации, запуск программного кода для вычислений или работы с изображениями, а также использование инструментами, предоставляемыми пользователями.
🤖 «Системный Блокъ» @sysblok
Археология памяти. Как цифровые методы помогают исследовать преступления нацистского режима
Сегодня изучать историю холокоста помогают не только привычные археологические методы, но и неинвазивные: лазерное сканирование (LiDAR), аэрофотосъемка, георадарные исследования (GPR) и геофизические методы. Эти технологии позволяют создавать точные карты местности, выявлять скрытые структуры и строить цифровые модели утраченных объектов без необходимости полномасштабных раскопок.
Кратко: о чем статья?
Новые технологии изменили не только то, как мы видим, например, лагеря смерти, но и то, что мы в них видим, позволив рассматривать лагерь не только как территорию за колючей проволокой, но как объект со сложной инфраструктурой, интегрированный в общество и экономику.
Проект «Ландшафты Холокоста» под руководством Кэролин Старди Коллз — хороший пример системного подхода к археологии нацистских преступлений. В фокусе исследования находятся три очень разных концлагеря: Сильт на британском острове Олдерни, где нацистские преступления долгое время оставались в тени войны; Треблинка — лагерь смерти, от которого нацисты особенно тщательно пытались не оставить следов; и Землин в Белграде, где на территории бывшего лагеря до сих пор живут люди.
Цифровые методы позволили создать детальную трехмерную реконструкцию лагеря Сильт и обнаружить там подземный тоннель, восстановить историю лагеря в Белраде без проведения традиционных раскопок, а в случае Треблинки – обновить карту лагерей и прилегающей к ним территории.
Подробнее о каждом из этих исследований узнаете из полной версии статьи.
Время чтения: 20 минут
🤖 «Системный Блокъ» @sysblok
ИИ помогает искать геоглифы в пустыне Наска
Хотя геоглифы Наски известны еще с шестнадцатого века, их изучение началось относительно недавно. В 2023 году искусственный интеллект помог ученым за полгода найти почти такое же количество фигуративных (составляющих изображение) геоглифов, какое было обнаружено за сто лет исследований. «Системный Блокъ» рассказывает, как геоглифы пустыни Наска изучаются с помощью ИИ.
Кратко: о чем статья?
Геоглифы Наска создавались с пятого века до н. э. по шестой век н. э. и хорошо сохранились, потому что плато, на котором они находятся, не затапливалось и не использовалось для сельского хозяйства. Изображения можно условно поделить на две группы: геометрические и образные (фигурные). По способу создания они также делятся на линейные (вычерченные на плоскости) и рельефные (выложенные из гальки). Ученые предполагают, что геоглифы могли создавать, например, для художественного выражения или записи астрономических наблюдений. Другая возможная причина создания геоглифов — ритуальные цели. Эту гипотезу подтверждает расположение линий: многие из них сходятся в одной точке, а также совпадают с подземными источниками воды.
Так как с земли масштаб изображений представить невозможно (средняя длина геоглифа составляет около девяноста метров), исследователи всегда старались смотреть на них «сверху». Ученые снимали геоглифы с воздушных шаров, самолетов, спутников, а также использовали лазерное картографирование LiDAR. С помощью deep learning (глубокого обучения ) исследователи смогли обнаружить частично или полностью скрытые под землей, даже разрушенные памятники. Они обучили модель, которая на карте местности предложила 1309 участков, где большей долей вероятности могли находиться геоглифы. Благодаря ИИ исследователи нашли 303 фигурных и 42 геометрических геоглифов неизвестных ранее.
Применение глубокого обучения также позволило сделать новое наблюдение. Оказалось, что линейные геоглифы в основном изображают диких животных, а рельефные — человеческие мотивы и вещи, связанные с людьми.
Более подробно о том, как искусственный интеллект облегчает работу ученых и помогает сохранять древние изображения, читайте в полной версии статьи.
Время чтения: 14 минут.
🤖 «Системный Блокъ» @sysblok
Пляски вокруг сканера и письма счастья: как новые технологии порождают суеверия
Суеверия — базовая структура человеческого мышления, нерефлексируемые практики и знания, укорененные в нашей когнитивной структуре (а не просто пережиток древнего магического мировоззрения). В новом материале разбираемся, как появляются суеверия при использовании новых технологий.
Кратко: о чем статья?
В 1980-х в США провели эксперимент, чтобы узнать, как лаборанты кабинетов радиологии адаптировались к появлению новой технологии: КT-сканерам, с помощью которых делают томографию.
Если с работой КТ-сканера возникали проблемы, у лаборантов были заготовлены отдельные ритуалы: включить и выключить машину, досконально воспроизвести пройденный путь заново (а лучше несколько раз). С каждой неудачной попыткой решить проблему у них нарастала склонность к магическому мышлению: например, лаборанты могли называть устройства темпераментными или некооперативными.
Дело в том, что им не хватало экспертного знания, а в таких случаях люди стремятся строить объяснение на знакомых объяснительных моделях — на основе ритуалов действий, которые опытным путем доказали свою эффективность.
С 1980-х наши модели поведения едва ли изменились, и в онлайн переходят вполне привычные «офлайновые» суеверия. Так, четыре из десяти пользователей считают, что включение «режима инкогнито» при просмотре веб-страниц делает их действия невидимыми для всех, а двое из десяти опасаются прерывать цепочку «писем счастья».
Подробнее о современных и не слишком суевериях узнаете из полной версии статьи.
Время чтения: 10 минут
🤖 «Системный Блокъ» @sysblok
10 из 10: русские писатели в стиле студии Ghibli
Интернет захватила эстетика мультфильмов Миядзаки. Все из-за новой модели внутри ChatGPT, которая хорошо обрабатывает пользовательские картинки. С её помощью в стиле студии Ghibli уже нарисовали почти все знаменитые фотографии, от Сталина на берегу канала Москва-Волга до окровавленного уха Трампа. Мы тоже присоединились — и стилизовали под Миядзаки портреты 10 русских писателей и поэтов/поэтесс. Сможете угадать всех?
🤖 «Системный Блокъ» @sysblok
OpenAI против китайского ИИ, новая open-source модель от Google и Mistral Small
Рассказываем, что произошло в мире ИИ за последнее время.
OpenAI против китайского ИИ
В рамках инициативы администрации Трампа AI Action Plan компания OpenAI предложила изменить правила экспорта вычислительных чипов американского производства. AI Action Plan — это инициатива, в которой могут участвовать компании, научные организации и политики, предлагая свои идеи по стратегическому развитию ИИ в США. По итогам обсуждений будет сформирована государственная политика, направленная на «укрепление позиций Америки» в глобальной конкуренции в сфере ИИ.
Вместо полного запрета экспорта чипов в некоторые страны предлагается разрешить поставки при условии, что дата-центры не будут использоваться для работы китайских моделей ИИ. Такое ограничение обусловлено опасениями OpenAI, что китайские разработки вынуждены подчиняться требованиям правительства КНР, что может привести к утечке пользовательских данных при использовании китайских моделей.
Сейчас Китай — главный конкурент США в ИИ-гонке. Китайские компании и лаборатории вносят существенный вклад в развитие ИИ за счет публикации передовых моделей и подробной технической документации в открытый доступ. Многие корпорации используют китайские модели как основу: в частности, последние языковые модели Яндекса и Т-Банка являются дообученными версиями Qwen2.5, разработанной Alibaba Group.
Gemma 3 — обновленная open-source LLM от Google
Компания Google обновила свою open-source языковую модель Gemma.
Третья версия модели доступна в четырех размерах: 1, 4, 12, 27 млрд параметров. Все модели, кроме самой маленькой, поддерживают обработку текста и изображений, версия с 1 млрд параметров умеет работать только с текстом.
По оценкам пользователей LMArena, где каждый желающий может сравнить ответы разных LLM, Gemma 3 c 27 млрд параметров опережает существенно более крупные модели DeepSeek-V3 (671 млрд), Llama 3 405B (405 млрд) и o3-mini.
Модель «из коробки» поддерживает 35 языков, при этом обучающие данные содержали данные на 140 языках. Gemma 3 доступна для коммерческого использования с некоторыми ограничениями.
Mistral Small 3.1
Французская компания Mistral выпустила обновление своей миниатюрной языковой модели Mistral Small. Размер обновленной LLM составил 24 млрд параметров.
По заявлениям компании, в основных тестах на понимание естественного языка, умение логически рассуждать и писать код новая Mistral Small опережает Gemma 3 с 27 млрд параметров (кроме тестов на математику) и GPT-4o mini.
Из других особенностей выделяется поддержка работы с изображениями, мультиязычность (24 языка), скорость работы, а также возможность использовать модель для дальнейшего обучения режиму «рассуждений».
Модель может быть использована в коммерческих целях без ограничений.
🤖 «Системный Блокъ» @sysblok
Digital Humanities Awards 2024: две номинации «Системного Блока»
Привет, это команда «Системного Блока»! Сегодня делимся хорошими новостями, рассказываем про важную премию и обращаемся с небольшой просьбой, но обо всём по порядку!
🎉 Новости
«Системный Блокъ» номинирован на ежегодную премию DH Awards сразу в двух категориях: Best DH Resource (Лучший DH-ресурс) — за наш портал с подборкой материалов по Digital Humanities, и Best DH Data Visualization (Лучшая визуализация) — за проект «Классное чтение» о школьном литературном каноне.
🏆 Премия
DH Awards вручается ежегодно с 2012 года, это профессиональная общественная премия в области Digital Humanities. В этот раз в ней семь номинаций: от большой и, пожалуй, главной, Best DH Resource до Best Use of DH for Fun. Основная цель этой премии — популяризировать цифровые методы в гуманитарных науках и показать, насколько разными могут быть проекты в этой сфере, поскольку награды не зависят ни от языка, ни от географии, ни от темы проекта.
👉👈 Просьба
Победители премии определяются голосованием, так что у нас есть простая и очевидная просьба — если вам нравятся наши спецпроекты, пожалуйста, проголосуйте за них до 4 апреля.
А мы напомним, что на странице точки входа в DH собрали статьи, блоги, глоссарий и рекомендации экспертов в этой области. Ну а в серии материалов «Классное чтение» рассказали о том, как менялся состав зарубежной, региональной и русской литературы в школах от Октябрьской революции до наших дней.
👣 Четыре простых шага 👣
1. Открыть голосование
2. Найти и выбрать Classroom reading (Systemniy Block media) в категории BEST DH DATA VISUALIZATION
3. Найти и выбрать Digital Humanities, или Цифровые методы в гуманитарных науках: точка входа в категории BEST DH RESOURCE
4. Отправить форму!
Спасибо, что читаете и поддерживаете ❤️
🤖 «Системный Блокъ» @sysblok
Искусственный интеллект в помощь благотворительности
Технологии способны облегчить изматывающий труд благотворительных организаций: найти доноров, помочь с заявкой на грант или спрогнозировать социальные изменения. «Системный Блокъ» рассказывает, в чем цифровые интсрументы полезны в мире добрых дел и почему это сопряжено с рисками.
🤖 Как часто НКО используют ИИ?
Поворот НКО в сторону современных технологий идет не быстро, однако некоторые организации уже активно ими пользуются. Например, в 2024 году для подачи заявки на грант в Фонд Потанина ИИ использовала почти половина опрошенных НКО: искусственный интеллект помог сформулировать цели и задачи проекта, посчитать и описать качественные и количественные показатели, создать шаблон писем для партнеров.
Тем не менее, так было не всегда. Например, как в России, так и за рубежом НКО медленно осваивают технологии, редко используют современные инструменты, такие как чат-боты и искусственный интеллект.
💸 С чем ещё может помочь ИИ?
Платформа Grantable может сгенерировать текст для грантовой заявки, а для большей точности и этичности формулировок можно использовать инструмент AI Grant Writer.
Незаменимым инструментом ИИ может стать и для повышения эффективности фандрайзинга: он может выявить потенциальных крупных доноров на основе анализа данных из внешних и внутренних источников, а ещё — помочь донорам выбрать программу или организацию для пожертвования с учетом прошлых отчислений.
⚠️ Что важно учитывать?
Применение искусственного интеллекта сопряжено с определенными рисками. Например, сгенерированные изображения или видео могут вызвать недоверие к работе НКО у потенциального донора. Кроме того, для обучения качественных и полезных алгоритмов нужно большое количество хороших данных, которых в сфере НКО часто недостаточно.
Более подробно о том, с какими проблемами могут столкнуться НКО, как чат-боты способны облегчить сбор пожертвований и работу сотрудников, и почему использование ИИ в сфере благотворительности не всегда оптимально, читайте в полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
Как 3D-моделирование спасает памятники древнерусской письменности: «Corpus Inscriptionum Rossicarum»
Могут ли новые технологии помочь прочесть нечитаемую древнюю надпись на камне? Как трехмерные модели старинных надгробий, крестов, камней и эпиграфических табличек позволяют не только сохранить эти памятники в цифровой форме, но и добыть новое знание о прошлом? Знакомимся с проектом «Свод русских надписей», проблемами работы эпиграфистов и методами их решения.
Благодарим за помощь в написании материала сотрудника проекта «Свод русских надписей» Анну Зиганшину
Кратко: о чем статья?
Изучением надписей на твердых материалах в России занимаются очень давно: истоки эпиграфики (науки о таких текстах) прослеживаются ещё в в XVI-XVII веках, когда появились первые подробные описания святынь, надгробий и памятников архитектуры. А в XIX веке появились первые эпиграфические своды, куда также вошли письменные источники об изучаемых надписях. Например, черновики текстов памятников и учетные монастырские записи.
Сегодня назревает необходимость в унифицированной публикации и републикации как известных, так и ранее неизвестных памятников, а также тех, которые сохранились в ранних сведениях, но ныне утрачены. Эту задачу призван решить проект «Свод русских надписей».
Участники проекта используют для составления свода современные цифровые технологии: трехмерное моделирование — на этапе документирования объектов — и ГИС и базы данных — на этапе систематизирования учетных данных о надписях. Эти методы значительно расширяют возможности исследователя при подготовке публикации. Но работа «Свода» не кончается на моделировании — необходимо также создать высококачественные рендеры и применить к моделям алгоритмы визуализации текста. Это позволяет прочитать даже те надписи, которые не слишком хорошо сохранились или дошли до современных ученых в поврежденном виде.
Сегодня в базе «Свода» можно найти 2075 документированных плит и фрагментов от 1905 памятников, 1597 моделей памятников, 1424 подготовленные к исследованию надписи и 864 описания надписей.
Подробнее о процессах работы «Свода» и технологических горизонтах проекта можно узнать из полной версии статьи. Там же найдёте примеры древних памятников, которые изучают с помощью условных цветовых схем, рассчитанных математическими алгоритмами, и других цифровых методов.
Время чтения: 16 минут
🤖 «Системный Блокъ» @sysblok
Неравенство, женщины в DH и гендерная социолингвистика
Продолжаем праздновать Международный женский день! Собрали для вас подборку полезных и познавательных публикаций, в которых мы напоминаем о сферах, где все еще сохраняется неравенство, изучаем, чем занимаются DH-исследовательницы, и ищем различия между мужской и женской речью.
👩💻 Женщина и программист: исследуем гендерное неравенство в IT-сфере
Несмотря на быстрый рост рынка и востребованность специалистов, проблема гендерного неравенства очень заметна в сфере IT. Мы изучили, какова доля женщин среди профессионалов в области информационных технологий, сколько девушек готовы обучаться компьютерным наукам в России и какие стереотипы ограничивают их на рынке труда.
👨🏻🏫 Учителя-мужчины в школе: сколько их и что они преподают
Мы проанализировали открытые данные Минпросвещения и выяснили соотношение мужчин и женщин среди учителей. Насколько силен гендерный дисбаланс в профессии, насколько ситуация различается между российскими регионами и зависит ли доля мужчин и женщин от преподаваемого предмета (спойлер: ОБЖ — самый мужской предмет, Русский язык и литература — самые женские), читайте в нашей дата-истории.
👩🏻🔬 «Игнорируется и не ценится»: вклад женщин в науку через цифры
Если в сфере школьного образования женщин больше, чем мужчин, то в науке дело обстоит по-другому. Здесь женщины иногда оказываются невидимыми. Почитайте нашу статью о работе ученых из Северо-восточного университета в Бостоне и вы узнаете, с какими проблемами сталкиваются исследовательницы, когда речь идет просто об указании авторства.
👩🏼🎓 От первого лица: исследовательницы о своей работе
Если проблемы гендерного неравенства вас расстраивают, почитайте наши интервью с исследовательницами гуманитарных наук. Мы говорили об искусственном интеллекте — с Татьяной Шавриной, руководительницей исследовательской команды в проекте LLAMA, о нейролингвистике — с Ольгой Драгой, директоркой Центра языка и мозга НИУ ВШЭ, о цифровизации аудиоархивов — со Светланой Подрезовой, заведующей Фонограммархивом Пушкинского Дома.
🕵🏽♀️ Тест: Знаете ли вы различия между мужской и женской речью
И в завершение — пройдите наш тест, основанный на результатах исследований в области гендерной социолингвистики. Из него вы узнаете, кто — мужчины или женщины — чаще использует абстрактную лексику или слова-паразиты и больше следит за правильностью речи.
🤖 «Системный Блокъ» @sysblok
Европейцы чуть не вымерли в последний ледниковый максимум
Что? Да! Об этом рассказали их… зубы. А теперь мы рассказываем вам.
Кратко: как так вышло?
Последний ледниковый период закончился ~11,7 тыс. лет назад, и начался голоценовый период. Предполагалось, что генетический состав европейских охотников-собирателей к тому моменту был относительно однородным на протяжении нескольких тысячелетий в Западной и Восточной Европе.
Оказалось, что разрыв был только в западной популяции, а альтернативные предковые линии не получили подтверждения после анализа данных. Западная популяция практически растворилась в восточной, и только некоторые ее представители смогли добраться до «убежищ» в южный землях. Можно сказать, что этот разрыв говорит о том, что западные популяции практически вымерли около 27 тыс. лет назад.
Установить это удалось благодаря разнообразию зубных рядов. Дело в том, что в восточной популяции оно сильно снизилось, а западные вариации практически исчезли. Но почему исследовали именно зубы?
Во-первых, данные о зубных признаках гораздо более многочисленны, чем любые другие типы палеобиологических данных. Во-вторых, эти признаки умеренно наследуются и по материнской, и по отцовской линии и не сильно привязаны к полу ребенка, что делает их удобными для анализа. Наконец, зубы — самая твердая ткань в организме, они имеют больше шансов сохраниться, даже если памятник поврежден и извлечь ДНК невозможно.
Правда, на некоторые загадки в истории европейской популяции этот метод ответов не дает. Подробнее о них и о том, как с этим связано изучение граветтской культуры и украшений в погребальном инвентаре, узнаете из полной версии статьи.
Время чтения: 10,5 минут
🤖 «Системный Блокъ» @sysblok
Ухемоль, зигия и желтяника: зачем нужна этноботаническая база данных
Что такое таинственная «ухемоль», два горшка которой были взяты для сохранения? Как в XVIII веке называли айву и ананас? А какая ягода скрывается за романтичным названием «любовное яблоко»? Узнать это и многое другое возможно с помощью этноботанической базы PhytoLex, которая собрала более 50 тыс. записей с названиями самых разных растений. Рассказываем, как она создавалась, что возможно узнать с ее помощью и почему словари не всегда могут помочь точно определить вид встретившегося в тексте цветка или кустарника.
Кратко: о чем статья?
В первоначальном варианте база данных PhytoLex (@phytolex) была сугубо лингвистической и включала материалы из источников XI–XVII веков: от богословских сочинений до рецептов Аптекарского приказа. В нее были включены как существительные, так и прилагательные, образованные от названий растений.
Постепенно проект рос: увеличились команда и финансирование, появились новые источники и растения, расширились пользовательские возможности. Например, добавились разные визуализации, которые помогают проследить, как менялись названия растений на протяжении веков, изучить этимологию и словообразовательные связи. А ещё — выяснить, что желтяника – это дикий шафран, а зигия – дерево, название которого пришло из греческого.
Узнать это можно не только с помощью поиска по сайту, но и благодаря чат-боту. Школа вычислительных социальных наук Европейского университета в Санкт-Петербурге использовала PhytoLex для разработки «умного помощника», который позволяет общаться с базой данных на естественном языке. Теперь ему можно задавать вопросы по содержанию базы. Например, какие растения импортировались в Российскую империю из Южной Америки во второй половине XVIII века.
Подробнее о развитии и перспективах проекта узнаете из полного текста статьи.
P. S. А вот о значении слова ухемоль не узнаете, ведь на сегодняшний день это единственная фиксация слова, и какое растение оно обозначает, науке неизвестно 🤷
🤖 «Системный Блокъ» @sysblok
Цифровые репетиторы: как ИИ помогает готовиться к экзаменам
Представьте, что до ЕГЭ остался месяц, а вы не понимаете, как писать сочинение, путаетесь в задачах по информатике и так и не разобрались в Present Perfect. К счастью, разобраться в материале, терпеливо объяснять по 100 раз и даже шутить, чтобы снять стресс, теперь могут ИИ-помощники. Мы протестировали «Сочинителя», Яндекс Учебник и Skysmart AI, чтобы узнать, кто лучше справляется с ЕГЭ и итоговым сочинением.
📝 «Сочинитель»
«Сочинитель» — Telegram-бот, созданный для подготовки к итоговому сочинению. Он задает наводящие вопросы, помогает с идеями, аргументами и логикой текста, по необходимости – что-то объясняет. Работает бот на основе большой языковой модели, дообученной на учебных материалах «Просвещения».
Ученики могут работать как над целыми сочинениями, так и над отдельными частями, например, тренироваться в подборе аргументов или формулировке тезисов. Правда, пока ему не хватает функции объединения получившихся абзацев в единый текст и проверки на грамотность.
💻 Яндекс Учебник
Яндекс Учебник разработал сервис для подготовки школьников к ЕГЭ по информатике на основе технологии YandexGPT. Он объединяет технологии искусственного интеллекта и образовательные методики: не просто выдает ответы, а предоставляет алгоритм решения или ведет интерактивный диалог с учеником. По данным разработчиков Яндекс Учебника, в 2023–2024 учебном году четыре из пяти школьников, сдающих ЕГЭ по информатике, пользовались этой платформой.
Впрочем, в отдельных аспектах Яндекс Учебник пока проигрывает DeepSeek-V3, который дает наиболее полные объяснения и полезные дополнительные материалы.
🇬🇧 «Skysmart AI ЕГЭ Эксперт»
Сервис «Skysmart AI ЕГЭ Эксперт» — это бот в Telegram, который помогает готовиться к ЕГЭ по английскому языку. Его создали в онлайн-школе Skyeng на базе искусственного интеллекта, включая ChatGPT и собственные разработки компании, такие как фонетический анализатор и системы распознавания речи. В ходе тестирования с участием членов предметной комиссии выяснилось, что в 68% случаев бот проверяет работы так же качественно, как и эксперты, а в 61% случаев его аргументация даже лучше человеческой.
Skysmart AI мы тоже сравнили с универсальными нейросетями. И если в случае устных заданий это единственный сервис, который анализирует голосовые сообщения в Telegram, указывает на ошибки и подсчитывает баллы, то в случае письменных у него есть свои преимущества и недостатки. Например, сервис не дает персонализированные рекомендации и не сможет помочь со структурой и клише.
Более подробный разбор каждого из трёх инструментов найдёте в полной версии материала.
Кстати, а вы уже использовали ИИ для обучения и подготовки к экзаменам? Делитесь в комментариях!
🤖 «Системный Блокъ» @sysblok
«Системный Блокъ» запускает набор в мастерскую дата-журналистики на «Летней Школе» (да, опять!)
Вы тоже любите данные, исследования, еду на костре и сосны? В июле «Летняя школа» на Волге открывает новый сезон. Во второй раз в ее программе и мастерская «Системного Блока» по дата-журналистике (https://letnyayashkola.org/data-jour/), и мы приглашаем участников.
Что такое дата-журналистика?
Дата-журналистика — это направление в журналистике, основанное на анализе и визуализации данных.
Сырые данные мало что значат для человека. Чтобы они приобрели смысл, их нужно обработать, обобщить, найти в них закономерности и связи, а потом объяснить понятным языком. Именно этим и занимается дата-журналистика. Так появляются истории о причинах смертности среди бездомных, о гендерном балансе учителей или о составе школьного литературного канона. Если вы хотите научиться делать так же, то приезжайте к нам на мастерскую.
🎓Кто может участвовать в мастерской?
Подать заявку могут как опытные, так и начинающие журналисты, а также все, кто хочет попробовать себя в новой сфере: студенты, выпускники, программисты, аналитики данных, визуализаторы.
✍🏼 Что будет на мастерской?
На мастерской будет два блока: образовательный и проектный.
Образовательный блок будет состоять из трех разделов: работа с данными, основы визуализации, дата-журналистика. Вы узнаете, где искать данные, как их собирать и обрабатывать, как превращать их в красивые и понятные визуализации, и как из всего этого создавать журналистские истории.
Во время проектного блока вас ждет хакатон. Наши партнеры привезут реальные задачи и данные, и команды участников смогут пройти полный цикл создания дата-истории от гипотез до выводов. В прошлом году команды исследовали состав школьных программ по литературе, российские кинофестивали, влияние профиля и престижности вуза на трудоустройство выпускников. Лучшие материалы вы сможете опубликовать у нас или на площадках наших партнеров.
🧑🏻💻 Кто делает мастерскую?
Партнеры мастерской:
• платформа «Если быть точным» @tochno_st, которая исследует данные о социальных проблемах в России;
• благотворительная организация «Ночлежка» @nochlezhka, помогающая бездомным;
• центр научной коммуникаций ИТМО @scicomm.
• научно-популярный журнал «Кот Шрёдингера» @kot_sh
📍Когда и где пройдет мастерская?
Мастерская дата-журналистики пройдет с 19 июля по 3 августа 2025 года на Волге недалеко от Дубны.
❗️Как к нам попасть?
Подать заявку на участие можно на странице мастерской (https://letnyayashkola.org/data-jour/ ) до 18 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Подробности можно прочитать в FAQ (https://letnyayashkola.org/FAQ/).
🤖 «Системный Блокъ» @sysblok
Прогнозы развития ИИ до 2027
Команда исследователей искусственного интеллекта представила отчёт с прогнозами развития ИИ на период с середины 2025 по 2027 год. Один из участников команды, Даниэль Кокотайло, в 2021 году правильно предсказал многие важные тенденции. Рассказываем, какие предположения ученые сделали теперь.
🔣 2025: Ускорение развития и первые достижения
В 2025 году продолжается ускорение развития ИИ, сопровождаемое ростом инвестиций и медийного внимания. ИИ-агенты (программы, использующие искусственный интеллект для автономного решения задач, таких как создание ПО, формирование отчётов и т.д.) начнут приносить существенную практическую пользу. При этом многие учёные и политики останутся скептиками относительно скорого появления общего ИИ – искусственного интеллекта, способного выполнять неограниченный спектр задач на уровне лучших человеческих специалистов.
🔣 2026: Усиление международной конкуренции
В 2026 году Китай построит централизованный суперкомпьютер с целью сокращения отставания от США в сфере ИИ. Предполагается, что мощность этого суперкомпьютера составит около 10% от суммарной вычислительной мощности всех суперкомпьютеров мира.
🔣 2027 год: Переломный момент
2027 год может стать ключевым для развития ИИ:
• Ведущая американская компания (не названная прямо) разработает ИИ-систему, способную автоматизировать работу ИИ-исследователей, что значительно ускорит прогресс в этой области.
• За счет автоматизации исследований появится первый сверхчеловеческий ИИ, превосходящий лучших экспертов в различных областях.
• Китай получит доступ к американским наработкам, что приведёт к усилению государственного вмешательства США в работу ИИ-компаний.
• Сверхчеловеческий ИИ продемонстрирует способность ставить перед собой цели, противоречащие интересам человечества, а также саботировать исследования своих внутренних механизмов.
❓ Сценарии развития после 2027 года
После 2027 года исследователи прогнозируют два возможных сценария:
➖ Катастрофический сценарий
• Лидирующая американская ИИ-компания, несмотря на потенциальные риски, продолжит совершенствовать свои системы.
• США начнут интегрировать общий ИИ в оборонную и политическую системы, используя его для принятия стратегических решений.
• Под влиянием рекомендаций и манипуляций со стороны ИИ начнётся массовое производство роботов, которые необходимы ИИ для достижения своих цели.
• В конечном итоге ИИ с помощью нового биологического оружия уничтожит человечество.
➕ Позитивный сценарий
• США создадут независимый орган для внешнего контроля над развитием ИИ.
• Учёные разработают новые способы контроля и интерпретации систем ИИ.
• Благодаря совместным усилиям исследователей и государственных органов удастся создать подконтрольный ИИ.
• США и Китай достигнут договорённости о регулировании использования ИИ для предотвращения потенциальных конфликтов.
• Разработанные технологии ИИ будут использоваться во благо человечества.
🤖 «Системный Блокъ» @sysblok
Коллокации и социальная история: как изучение словосочетаний помогает гуманитариям
В самом простом понимании, коллокация — пара часто встречающихся вместе слов (например, «зеленый лист» или «бить ключом»), хотя некоторые исследователи предпочитают называть так только устойчивые словосочетания. Впрочем, признаки «устойчивости» довольно размытые, а эксперименты показали, что интуиция носителей языка не позволяет однозначно выделять коллокации. Рассказываем об этом феномене подробнее, и изучаем с помощью коллокаций в НКРЯ, что представлял собой антисемитизм в Российской империи второй половины XIX века.
Кратко: о чем статья?
Коллокации, основанные на данных о совместной встречаемости, называются neighbourhood collocations («соседствующие коллокации»), а основанные также на семантических критериях — coherence collocations («когерентные коллокации»). Например, пара слов хлеб насущный будет когерентной, поскольку слова связаны по значению и ассоциированы друг с другом, а вот найденная в корпусе английского языка пара a dog (неопределенный артикль + «собака») будет являться соседствующей, ведь высокая совместная встречаемость обусловлена грамматическими причинами.
Задача по исследованию разных типов коллокаций значительно упростилась с появлением корпусов: они дали возможность выделять такие словосочетания на основе статистических данных. Такой поиск можно осуществить и с помощью Национального корпуса русского языка (НКРЯ).
Мы решили воспользоваться им для изучения социальной истории и посмотреть на антисемитизм в Российской империи второй половины XIX века. Для этого мы выделили в НКРЯ подкорпус текстов с 1860 по 1900 годы (4108 текстов, 55 298 793 слова). Затем отобрали обозначения для евреев: нейтральные «еврей» и «иудей», грубое «жид». Затем для каждого из этих слов мы рассмотрели коллокации-прилагательные и коллокации-глаголы. Аналогичные запросы сделали и для слова «русский», чтобы посмотреть, связан ли гипотетический антисемитизм с ростом общего интереса к национальности.
Оказалось, что среди прилагательных-коллокатов особенно часто встречались связанные с религией, национальностью и географией. В то же время слово «русский» употреблялось в контексте межнационального и межкультурного общения.
Многие коллокаты-глаголы для слов «еврей» и «жид» относились к экономической или предпринимательской деятельности («приобретать», «торговать», «содержать», «продать», «заложить»), некоторые с негативным оттенком («надуть», «обмануть»).
Подробнее об этом примере и о том, как и зачем работать с коллокациями с помощью корпусов, узнаете из полной версии статьи.
Время чтения: 12 минут
🤖 «Системный Блокъ» @sysblok
Digital Humanities Awards 2024: Результаты
Стали известны результаты ежегодной премии DH Awards, цель которой — поощрять интересные ресурсы и проекты в сфере цифровых гуманитарных наук.
«Системный Блокъ» принимал участие сразу в двух номинациях: Best DH Resource (Лучший DH-ресурс) — за наш портал с подборкой материалов по Digital Humanities, и Best DH Data Visualization (Лучшая визуализация данных) — за проект «Классное чтение» о школьном литературном каноне.
В обеих номинациях проекты «Системного Блока» заняли третье место 🎉
Спасибо всем авторам, редакторам, иллюстраторам и менеджерам, причастным к реализации этих двух проектов, а также читателям, проголосовавшим за нас.
Также поздравляем постоянного автора и блогера СБъ Бориса Орехова, занявшего второе место в номинации DH Short Publication за статью о применении дистрибутивной семантики к шахматам, и автора Ольгу Алиеву, чей курс по компьютерному анализу текста стал призером в номинации DH Training Materials.
С остальными результатами можно ознакомиться по ссылке.
🤖 «Системный Блокъ» @sysblok
Новая Llama 4, новый лидер Gemini 2.5 Pro, новые картинки от GPT
Рассказываем, что произошло за в мире ИИ за последнее время.
Llama 4
Компания Meta выпустила четвертую версию своей open-source языковой модели LLama. Модель представлена в трех размерах: 2 трлн, 400 млрд и 109 млрд параметров. Все вариации используют архитектуру Mixture of Expert, благодаря которой во время генерации ответа модель задействует только малую долю всех параметров, необходимых для данного запроса. Используемые во время ответа параметры называются активными.
Модели Llama 4 Maverick (400 млрд параметров, 17 млрд активных) и Llama 4 Scout (109 млрд, 17 млрд активных) доступны уже сейчас. Флагманская версия Behemot с 2 трлн параметров (288 млрд активных) находится в процессе обучения. Ее промежуточная версия была использована при создании Maverick и Scout. Все модели поддерживают работу с изображениями.
По основным тестам на понимание языка, программирование и на умение решать логические и математические задачи Scout сопоставима с Gemma 3, Gemini 2.0 Flash-Lite и Mistral Small 3.1. Также Scout поддерживает работу с контентом длиной 10 млн токенов — это особенно полезно при работе с большими кодовыми базами, объемной документацией или видео.
Maverick по метрикам опережает Gemini 2.0 Flash и GPT-4o и сравнима с обновленной DeepSeek-V3 в задачах на логику и программирование. Behemot в задачах, связанных с естественными науками, показывает себя лучше Claude Sonnet 3.7, GPT-4.5 и Gemini 2.0 Pro.
Gemini 2.5 Pro — новый лидер среди LLM
Google представила экспериментальную версию своей новой языковой модели Gemini 2.5 Pro. По большинству ключевых метрик она значительно опережает другие ведущие модели, такие как o3-mini-high, DeepSeek-R1, Grok 3 и Claude Sonnet 3.7.
На платформе LMArena, где пользователи сравнивают различные LLM, Gemini 2.5 Pro занимает первое место (второе — у Llama 4 Maverick). Особенно высоко оцениваются ее возможности в написании программного кода.
Модель доступна через API. Предусмотрены два тарифа: бесплатный — с использованием пользовательских данных для обучения моделей Google и платный — без сохранения и использования данных.
Обновление GPT-4o
С последним обновлением GPT-4o сильно улучшилось качество генерации изображений. Модель стала рисовать реалистичнее, лучше справляется с отрисовкой текста, а также гораздо эффективнее редактирует изображения — например, может добавлять или удалять объекты, а также применять различные стилизации (например, перерисовывать в стиле студии Ghibli).
Эти улучшения стали возможны благодаря нативной поддержке работы с изображениями. Ранее GPT, как и большинство других моделей, использовала отдельную нейросеть для работы с визуальными запросами. Например, для генерации изображения вызывалась специализированная модель DALL-E 3. Теперь же GPT-4o воспринимает текст и изображения как единый тип данных. Иными словами, она может как принимать изображения на вход, так и генерировать их в ответ, не используя другие модели. Подобный подход к работе с изображениями был также продемонстрирован в моделях Gemini 2.0.
Нативная поддержка изображений и аудио была анонсирована вместе с самой моделью GPT-4o — название «о» происходит от слова Omni, что означает «всё в одном» — универсальность и мультиформатность. Однако полноценный доступ к этим возможностям стал возможен только сейчас.
🤖 «Системный Блокъ» @sysblok
Коротко и быстро: что такое микрообучение и когда оно (не) может помочь
«Учитесь по 15 минут в день!», «Запоминайте в 2 раза больше!» — маркетологи обещают, что микрообучение изменит ваше образование навсегда. Но что за этим на самом деле стоит? Мы разобрались, как работает этот подход, где он полезен, а где — просто красивая обертка. Спойлер: 5-минутное видео не заменит университетскую лекцию :((((
Что это за подход?
Микрообучение — образовательный подход, при котором новая информация подается небольшими порциями, обычно в формате коротких роликов, презентаций или иллюстрированных текстов. Примеры таких форматов можно встретить все чаще: от познавательных шортсов на YouTube до образовательных VK-клипов. Действительно что-то запомнить из таких видео помогает обязательная составляющая микрообучения — повторяемость.
Как это устроено?
Современные платформы микрообучения зачастую работают по принципу subscription learning — подписки на регулярную подачу небольших учебных фрагментов (так называемых «наггетсов»). Эти мини-уроки включают в себя объяснение нового материала, проверочные тесты, формы для рефлексии и другие интерактивные элементы. Траектория может быть заранее составлена или формироваться динамически, подстраиваясь под успехи и ошибки ученика.
Кто использует микрообучение?
Многие компании включают микрокурсы в обязательную программу после трудоустройства. Например, внутри Google действует программа Whisper Courses с пятиминутными обучающими модулями. Она направлена на развитие soft skills и помогают выстроить гармоничные взаимоотношения внутри коллектива. По данным Google, всего за десять недель менеджеры-участники Whisper Courses улучшили свои показатели на 22–40 процентных пунктов по сравнению с контрольной группой.
А минусы будут?
Микрокурсы не подойдут для изучения сложных тем или для продвинутых студентов. Выучить первые 50 слов на немецком языке? Да! Разобраться во влиянии экзистенциализма на поэзию Рильке? Вряд ли.
Микрокурсы также не будут одинаково эффективны для разных возрастов и поколений. Исследования показывают, что работники до 40 лет лучше адаптируются к микрообучению, тогда как старшие сотрудники предпочитают лекции и книги.
О других особенностях микрообучения и о том, почему данным об их эффективности, возможно, не стоит доверять на 100%, узнаете из полной версии статьи.
Время чтения: 10 минут
🤖 «Системный Блокъ» @sysblok
Студенческое средневековье: изучаем базу данных средневековых университетов
Что мы знаем о средневековых студентах? Очень многое! Происхождение, статус и другие характеристики европейских студентов тщательно документировались, так что сегодня ученые могут создавать базы данных выпускников и преподавателей прошлого. Об одной из них — Repertorium Academicum Germanicum — рассказываем в нашем новом материале.
Кратко: о чем статья?
Коллективные биографии и данные об исторических личностях позволяют составить «обобщённый социальный портрет» разных сообществ. А изучают их с помощью методов просопографии (мы уже рассказывали о них на примере Японии и Древнего Рима). Проект Repertorium Academicum Germanicum (RAG) использует эти методы для исследования средневековых университетов Европы.
Сегодня в базе можно найти данные около 62 тысяч ученых и выпускников университетов, находившихся на территории Священной Римской империи за 1250–1550 гг. (а также сведения об отдельных деятелях XVII столетия). Каждая запись содержит сведения о датах рождения и смерти, географическом и социальном происхождении, времени обучения и получении ученой степени, деятельности после окончания университета, специальности и перемещениях между университетами.
Интерфейс сайта позволяет составлять графики и карты, чтобы изучить географию происхождения студентов или типичные маршруты их перемещений между университетами. Например, можно выяснить, что немецкие дворяне-протестанты часто приезжали учиться в Марбург, а особенно сильной тенденция стала в середине XVI в., когда у них не было возможности занимать высокие должности из-за своего вероисповедания.
Другие опции для исследований — изучение маршрутов отдельных личностей или сетей их коммуникаций. Только за последние пять лет на материалах RAG было опубликовано более 20 исследовательских работ (включая статьи, главы в коллективных монографиях и т.д.).
Узнать подробнее о возможностях, которые предлагает эта база данных, сможете благодаря полной версии статьи.
Время чтения: 8 минут
🤖 «Системный Блокъ» @sysblok
На словах или на деле? Подборка про Льва Толстого в цифровой гуманитаристике!
Лев Толстой — один из самых значимых русских писателей, чье влияние выходит далеко за пределы литературы. Именно его мы упоминали в канале «Системного Блока» чаще всех остальных русских классиков в прошлом году (и едва ли что-то поменяется в этом). В новой подборке собрали для вас наши главные материалы о Толстом.
📚 Цифровые ресурсы 📚
На нашем сайте регулярно выходят статьи, в которых мы рассказываем об онлайн-архивах произведений Толстого. Например, из обзора интернет-ресурсов о писателе можно узнать о семантическом издании «Толстой Digital» и о проекте «Слово Толстого», который открывает читателю доступ к 90-томному собранию сочинений. Подробнее об этом проекте Анастасия Бонч-Осмоловская рассказала в своем интервью.
💻 Цифровые исследования 💻
Цифровые методы позволяют изучить неочевидные аспекты творчества Толстого: например, благодаря корпусной лингвистике мы можем узнать что говорит о персонажах «Войны и мира» их речь.
Векторно-семантические модели помогут изучить стиль писателя и увидеть, что слова «обожать» и «боготворить» в его текстах свидетельствуют о чувствах ложных и зыбких, а «любят» у классика по-настоящему. А изучение других глаголов подскажет, какие действия чаще характеризуют женщин и мужчин в текстах русских писателей (спойлер: в случае Толстого женщины чаще всего улыбаются и плачут, а мужчины — понимают и кричат).
😎 Бонус! Тесты 😎
Для тех, кто хочет проверить знания о Толстом (а иногда и о себе!), мы создали несколько тестов. Например такие:
• Вы Лев Толстой на словах или на деле? Викторина по редким словам из корпуса текстов писателя — узнайте, насколько хорошо вы понимаете редкие слова из его произведений.
• С какими героями «Войны и мира» вы говорите на одном языке? — определите, чей стиль речи вам ближе всего.
Ещё больше наших материалов о Толстом — на его персональной странице на сайте.
😎 «Системный Блокъ» @sysblok
Подборка про историю интернета
В новой подборке рассказываем, как писатели в начале XX века предсказали интернет, как в Советском Союзе пытались создать суверенную электронную сеть и почему советские и русские программисты стали цениться во всем мире.
Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети
1908 год. Упал Тунгусский метеорит, родился лауреат Нобелевской премии Лев Ландау, Сергей Дягилев представил Русские сезоны в Париже. А еще в этом году вышла книга Александра Богданова «Красная звезда». Фантаст описал распределенную информационную систему для сбора статистики на Марсе, которая сильно напоминает интернет.
Интернет на службе коммунизма: как СССР создавал свою электронную сеть
В 60-е гг. XX века в СССР кибернетика из лженауки стала популярной идеей. Читайте в нашем материале про утопичный проект Общегосударственной автоматизированной системы учета и обработки информации (ОГАС) для создания идеального коммунистического будущего.
Утечка в IT: как эмигранты создали бренд русского программиста
В 2007 году президент Intel Russia Стив Чейз заявил: «Если проблема нерешаема, мы передаем ее русским». Это высказывание подчеркнуло высокую репутацию российских программистов на мировом IT-рынке. Рассказываем, как советские и русские программисты стали мировым брендом.
Прокачиваем гуманитария до программиста: инструкция
И бонус! Читайте наш гайд, как из филолога, культуролога, философа — одним словом, гуманитария — стать программистом. Рассказываем, как направить себя, к чему быть готовым и какие ресурсы использовать, если вы увлеклись идеей программирования, но не знаете, с чего начать, и не уверены, сможете ли вы.
🤖 «Системный Блокъ» @sysblok
Технологии в Большом египетском музее: 3D-модели, VR и цифровой двойник
Большой египетский музей (The Grand Egyptian Museum, или GEM) — один из самых многообещающих долгостроев в сфере культурного наследия. Его история началась еще в 2002 году, а первым экспонатом стала 11-метровая гранитная статуя Рамзеса II, размещённая в главном холле музея с помощью виртуальной 3D-копии. Рассказываем, как цифровые инновации вписались в проектирование и строительство музея.
Кратко: что за музей?
GEM — самый большой археологический музей и самый большой музей, посвященный одной цивилизации. Официально он откроется 3 июля 2025-го, но 12 залов постоянной экспозиции уже доступны посетителям.
Цифровые технологии сопровождали музей на протяжении всего строительства, но главным новаторством в архитектурном проекте стало применение технологии digital twin. Это создание полной динамически обновляемой виртуальной модели всего музейного комплекса и его окрестностей. Благодаря ней все люди, занятые в строительстве, оставались в курсе ежедневных изменений, неизбежных для работ подобного (огромного!) размаха. Вместе с реальной постройкой рос и ее двойник.
Другие технологии призваны разнообразить опыт посетителей музея. Например, с официальным открытием в GEM должны стать доступны VR-реконструкция гробницы, 3D-модель Сфинкса и виртуальная лодочная прогулка вдоль Нила времени фараонов.
Подробнее о том, как цифровые технологии помогли сделать проекта музея менее дорогим, но более экологичным и интересным посетителю, узнаете из полной версии статьи.
Время чтения: 11,5 минут
🤖 «Системный Блокъ» @sysblok
Огромная GPT, новая модель от Anthropic и OCR от Mistral
Рассказываем, что произошло в мире ИИ за последнее время.
Новая GPT — большая, человечная и дорогая
Компания OpenAI представила новую версию своей языковой модели — GPT-4.5, обновление ранее выпущенной GPT-4o. В отличие от моделей линейки «o», ориентированных на решение сложных задач в области точных наук, в GPT-4.5 сделали упор на естественность ответов и на эмоциональный интеллект — это подтверждается первыми реакциями пользователей. Также модель меньше подвержена галлюцинациям.
По словам компании, версия 4.5 — их самая большая модель на данный момент. Правда, ее размер сказался на скорости генерации ответа — она существенно медленнее GPT-4o. Кроме того, использование GPT-4.5 обходится в десятки раз дороже аналогичных моделей: стоимость обработки миллиона входных токенов составляет $75, а миллиона выходных — $150, что в 30 и 15 раз превышает стоимость GPT-4o соответственно.
Обновление Claude Sonnet
Компания Anthropic, один из главных конкурентов OpenAI, выпустила обновление своей языковой модели — Claude Sonnet 3.7.
Главным нововведением стала поддержка режима рассуждений, при котором модель генерирует длинные цепочки логических выводов, существенно повышающие качество финального ответа. В отличие от конкурентов, Anthropic не стала разрабатывать две отдельные модели — одну для быстрых ответов, другую для ответов с предварительными рассуждениями, а объединила оба режима в одной модели.
В обоих режимах Claude Sonnet 3.7 либо превосходит конкурирующие модели, либо демонстрирует сопоставимые результаты. Особенно заметное преимущество наблюдается в задачах, связанных с программированием.
Цены у Sonnet 3.7 такие же, как и прошлой версии: $3 за миллион входных токенов и $15 за миллион выходных.
Anthropic была основана выходцами из OpenAI. В качестве приоритета компания считает разработку безопасного и интерпретируемого ИИ. По заявлениям гендиректора Anthropic, появление общего искусственного интеллекта можно ожидать уже к 2027 году.
Сервис для OCR от Mistral
Французская компания Mistral представила сервис для распознавания текста на фотографиях и сканах (OCR). Модель способна распознавать не только текстовую информацию, но и таблицы, изображения, графики и формулы.
По качеству распознавания сервис Mistral превосходит аналогичные решения от Google, Microsoft и OpenAI. Особое внимание разработчики уделили мультиязычности: модель нативно поддерживает письменности на основе латиницы, кириллицы и многие азиатские системы письма.
Сервис также позволяет использовать цифровой документ в качестве промта — пользователи могут задавать модели вопросы по содержанию или извлекать из документа необходимую информацию в структурированном виде (например, в формате JSON).
Доступ к сервису предоставляется через API по цене $1 за 1000 страниц. Для клиентов, которым важна конфиденциальность данных, есть возможность развернуть модель на собственных серверах.
🤖 «Системный Блокъ» @sysblok
Что такое список Сводеша?
С каких слов начать сравнение языков? Почему «компьютер» не подойдет, но подойдет «мясо» (а «шашлык» — уже нет)? Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.
Кратко: что это такое?
Список Сводеша — список самых распространенных, базовых лексем, который используется для оценки родства языков, как правило, внутри одной языковой семьи.
В него входят понятия, которые претендуют на культурную универсальность и наименее склонны к изменению в конкретном языке.
В первом варианте списка Сводеша, опубликованном в 1952 году, было 215 значений. В 1971 году был опубликован финальный список, состоящий из 100 значений.
При этом выбор слов для списка – процесс долгий и не всегда очевидный. Например, из слов, обозначающих названия животных, в финальный список попали «собака», «птица», «рыба» и «вошь». А вот понятия «муж» и «жена» пришлось убрать, поскольку они встречались только в 57% и 51% рассмотренных языков. Сложной оказалась и ситуация со словами, обозначающими родителей: в их основе часто лежит детский лепет (ма-ма, па-па), и во многих языках мира они будут похожи, даже если родство между языками отдаленное.
Отдельный вариант списка Сводеша есть и для жестовых языков. Примечательно, что в нем нет, например, значений для частей тела («рука», «голова») или некоторых местоимений («я», «это»). Дело в том, что в разных жестовых языках эти жесты часто похожи не из-за родства языков, а из-за логики жестовой речи, где значение «я» часто передается указыванием на себя, а значение «голова» — касанием головы.
Подробнее о списке Сводеша, его трансформациях и вариациях узнаете из полной версии текста в нашем глоссарии.
🤖 «Системный Блокъ» @sysblok
Вас слили: как личные данные утекают через онлайн-сервисы и умные устройства
Скандалы с утечкой личных данных регулярно появляются в новостях, причем в их центре могут оказаться самые разные сайты и сервисы: от онлайн-переводчиков до умных колонок. Разбираемся, как это происходит и вспоминаем несколько показательных случаев.
🚰 Почему происходят утечки?
У утечек данных может быть несколько причин. Например, технические уязвимости: кибератаки случаются, а системы защиты не всегда срабатывают моментально. А иногда пользователи сами фактически соглашаются на потенциальную утечку, автоматически принимая условия сервиса, который оставляет за собой право сохранять и использовать загруженный контент. Ну и о недобросовестных сотрудниках, конечно, не стоит забывать.
📓 Утечки из переводчиков
В 2017 году стало известно об утечках сразу из двух крупных онлайн-переводчиков. Первым был Translate.com — платформа для перевода текстов на более чем 90 языков. Специалисты из норвежской исследовательской организации Tekna обнаружили, что тексты, переведенные с помощью Translate.com, можно найти простым поиском в Google. Многие из этих документов не были предназначены для широкой публики.
Правда, и сам Google оказался не лучше. Журналистка Свеа Эккерт и дата-сайентист Андреас Дьюс ради эксперимента создали поддельный ИИ-стартап и получили бесплатную базу данных якобы для машинного обучения. И благодаря URL-адресам Google Translate, которые хранятся в полном тексте любого запроса, они узнали о тайной операции полиции. Следователь, который работал по делу о киберпреступности, переводил через Google Translate запросы о содействии, направленные в адрес иностранных коллег.
📻 Утечки из умных колонок
В 2019 году британская газета The Guardian сообщила, что подрядчики Apple «регулярно прослушивают записи с конфиденциальной информацией» через голосового помощника Siri. Похожая история произошла и с «Алисой» ещё раньше: в 2017 году на сервисе «Яндекс.Толока» появились задания по транскрибированию коротких аудиофайлов, из содержания которых стало ясно, что это записи голосовых запросов пользователей «Яндекса».
Другие подобные утечки происходили в разное время с сайтами для редактирования текста и проверки на плагиат. О них, а также о том, можно ли защитить свои личные данные, пользуясь подобными сервисами, узнаете из полной версии статьи на сайте (спойлер: увы, общий принцип таков: если вы пользуетесь бесплатным онлайн-сервисом, вы можете быть почти уверены, что ваш текст будет использоваться для «улучшения предоставляемых услуг».)
Время чтения: 13 минут
🤖 «Системный Блокъ» @sysblok