«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join
Кто написал «Тихий Дон»? Что цифровые методы говорят о «Шолоховском вопросе»
Уже почти сто лет читатели и исследователи пытаются выяснить, кто написал «Тихий Дон» — всё-таки Шолохов или кто-то другой? В новом тексте наш главный редактор Даниил Скоринкин (канал Цифровой филолог) рассказывает о том, какие ответы на этот вопрос предлагают стилометрия и количественные методы.
✍🏼 Почему вопрос авторства Шолохова вообще возникает?
Роман Шолохова быстро завоевал популярность у читателей, но юный возраст автора, отсутствие у него формального образования и стремительный переход от небольших рассказов к эпопее вызвали подозрения в плагиате.
Главных кандидатов на «настоящее» авторство оказалось двое: Фёдор Крюков и Вениамин Краснушкин (он же Виктор Севский). Оба происходили из донских казаков, оба были литераторами и журналистами, оба — свидетели и участники сначала Первой мировой, а затем Гражданской войны на Дону на стороне белых. Оба бесследно пропали в 1920-м году. Еще один известный «альтернативный автор» Шолоховских текстов — Александр Серафимович (настоящая фамилия — Попов). Сам он, кстати, был одним из главных защитников авторства Шолохова и даже возглавлял в конце 1920-х комиссию по установлению истины вокруг «Тихого Дона».
📊 А что говорит статистика?
Группа шведско-норвежских исследователей во главе с профессором-русистом из Осло Г. Хьетсо исследовала роман в конце 1980-х. Сопоставив текст «Тихого Дона» с другими текстами Шолохова и Крюкова, они выяснили, что длина предложений и распределение по ним частей речи скорее указывают на авторство Шолохова.
Однако проблема в том, что в тексте можно посчитать очень много что, для всего будет какое-то численное выражение. Вот только откуда мы знаем, что тот или иной параметр связан с авторством? Например, по длине предложений «Тихий Дон» с тем же успехом можно было бы приписать Достоевскому.
Супруги Фоменко, один из первых «цифро-гуманитарных тандемов» в истории советской науки, предложили свой метод поиска авторства — на основе средней доли служебных слов. Их эксперименты указали уже на авторство Крюкова. В итоге две работы — каждая на основе своего математического аппарата — получили противоположные результаты. Доверие к количественным методам было подорвано.
📈 Что меняет (и чего не меняет) появление метода Delta
Начало XXI века — время рождения современной стилометрии, основанной на методе Delta (мы часто упоминанием этот метод, а здесь рассказывали о нём подробнее). Если применить его к Шолохову, можно выяснить, что, во-первых, первые три тома «Тихого Дона» стилометрически близки ранней прозе автора. Во-вторых, что сближений произведений Шолохова с текстами других известных предполагаемых кандидатов — нет. В-третьих, что тексты, автором которых считается Шолохов, стилометрически неоднородны и ведут себя в эксперименте иначе, чем тексты других современных ему писателей.
И всё же даже этих выводов может не быть достаточно, чтобы уверенно утверждать, что фамилия на обложке «Тихого Дона» принадлежит его истинному автору. Подробнее об этой литературоведческой загадке и о том, как исследователи подступались к ней в разное время, узнаете из полной версии текста.
🤖 «Системный Блокъ» @sysblok
Нейросети помогают ученым исследовать уравнения, LLM побеждают в олимпиаде по программированию
Рассказываем, что произошло в мире ИИ за последнее время
Нейросети помогут решить задачу тысячелетия?
Лаборатория Google DeepMind вместе с учёными из США предложила метод на основе нейросетей, помогающий лучше понимать определенный вид математических задач. Это может помочь в решении одной из задач тысячелетия.
Изобретение позволяет находить особые решения дифференциальных уравнений, описывающих многие физические процессы. Например, уравнение Навье — Стокса (запомните его) описывает изменение скорости потока жидкости или газа во времени. Его решение — формула, выражающая скорость через параметр времени и характеристиками жидкости / газа.
Решений часто много, но часть из них приводит к физически невозможным показателям. Например, формула может предсказать бесконечную скорость потока. Поиск таких особых решений важен: он показывает границы применимости уравнения. Скажем, при тестировании крыла самолёта уравнение динамики потока воздуха может давать аномальные значения, и результаты эксперимента будут ненадежными.
DeepMind совместно с физиками и математиками разработали вычислительный метод для нахождения таких особых решений. Он использует нейросети и новый способ их обучения с высокой численной точностью. Метод уже протестировали на ряде уравнений и открыли новые группы особых решений.
Почему это важно?
Доказательство отсутствия особых решений у некоторых уравнений — сложная задача. Например, доказательство гипотезы, что уравнение Навье — Стокса не имеет особых решений, входит в список из 7 задач тысячелетия с призом в 1 млн долларов. Пока решена только одна из этих задач — Григорием Перельманом.
Новый метод, представленный учеными, полуавтоматический — его можно применять к большому спектру уравнений с относительно небольшим участием человека. То есть сложность задачи частично удалось переложить на компьютер. Возможно, это поможет найти особые решения уравнения Навье — Стокса и опровергнуть гипотезу.
Это не первый случай, когда учёные используют возросшие технологические и вычислительные возможности для работы над сложными задачами. Можно вспомнить Большой адронный коллайдер или Нобелевскую премию за нейросети.
Почему это важно?
Модели этих же компаний недавно одержали победу и на олимпиаде по математике.
И OpenAI, и Google используют исключительно языковые модели общего назначения, а не специализированные системы для отдельных задач. Это демонстрирует потенциал больших языковых моделей в решении сложных технических и наукоемких проблем.
Лидерство в соревнованиях с людьми показывает и прогресс в развитии LLM. К примеру, в 2023 году они не всегда генерировали корректный код. Однако эти успехи не полностью отображают качество моделей. Они всё еще часто ошибаются в более простых задачах и галлюцинируют.
Код Средневековья: пять статей о цифровых методах в медиевистике
Сложно назвать историческую эпоху, о которой существует столько же стереотипов и заблуждений, как о Средневековье. Медиевисты делают все возможное, чтобы развенчать мифы о невежестве и антисанитарии и сделать наше представление об этом периоде более адекватным. «Системный Блокъ» собрал несколько материалов о том, как им в этом помогают цифровые методы.
👨🏻🎓 Вспоминайте иногда вашего студента: изучаем базу данных средневековых университетов
Начало учебного года — хороший повод узнать, как и чем жило средневековое и раннемодерное академическое сообщество. Рассказываем о совместном проекте немецких и швейцарских исследователей — базе данных Repertorium Academicum Germanicum (RAG), где собрана информация о студентах, выпускниках и обладателях ученых степеней на территории Священной Римской империи в XIII-XVI веках. Вы узнаете:
• зачем в средневековых университетах все записывали?
• как в это время обстояло дело с академической мобильностью?
• как восстановить в деталях карьеру отдельно взятого ученого?
🕵️ Стилометрия и древнескандинавская литература: определение авторства исландских саг
В этой статье разбираемся, как специалисты по древнескандинавской литературе применяют дельту Бёрроуза, чтобы разрешить спор об авторстве «Саги об Эгиле». Читайте:
• на какие группы по хронологии делятся исландские саги?
• чем можно объяснить стилистическое сходство между некоторыми сагами?
• какие эксперименты нужно провести с дельтой и исследуемыми текстами, чтобы снять все сомнения о личности автора?
👑 Что статистические отношения в лексике могут рассказать про средневековую власть?
Стилометрия и компьютерный анализ текстов хороши не только для определения авторства — еще они могут помочь с исследованием типов власти в средневековом обществе. В статье рассказываем о работе медиевистки Евгении Шелиной и о том, что скрывают корпуса французских грамот XIII века. Вы узнаете:
• что такое семантическое поле власти?
• чем власть духовенства отличается от власти светской аристократии и как это отражается в текстах?
• что интересного удалось узнать о фигуре французского короля?
🗺️ Скифия, Египет, Вавилон: как цифровые методы помогают в изучении средневековых карт
По сравнению с современными картографическими сервисами старинные средневековые карты выглядят загадочно и непонятно. В нашем материале читайте, как специальный пакет Veccompare для языка R помогает исследовать представления средневековых людей о мире вокруг. Вместе разбираемся:
• как узнать, что два картографа брали информацию из общего источника?
• почему некоторые топонимы на картах могут быть абсолютно уникальными?
• что получится, если сравнить карту с текстовым описанием той же территории?
📜 От разобщенности к войне: что показывает сетевой анализ византийских писем
Что письма могут рассказать ученым о политических связях византийцев? Можно ли по переписке отследить момент, за которым последовал государственный кризис? Рассказываем, как сетевой анализ и теория графов помогают изучать эпоху гражданских войн в Византии. В материале читайте:
• всегда ли представители византийской элиты, объединенные узами родства, имели одинаковые политические взгляды?
• как тесная связь человека с императором сказывалась на других его социальных взаимодействиях?
• как приход к власти Андроника III повлиял на динамику отношений между высокопоставленными византийскими чиновниками?
🤖 «Системный Блокъ» @sysblok
Кино вне политики? Кто участвует в российских кинофестивалях
Рассказываем про спецпроект «Системного Блока», в котором мы изучили, как изменилась география участников российских кинофестивалей после 2022 года — и обнаружили много неожиданного. Данные, инсайды, комментарии экспертов — рассказываем, что на самом деле происходит на международных смотрах в России.
Какие фестивали мы исследовали?
Согласно данным министерства культуры РФ, в 2024 году в РФ насчитывалось 110 фестивалей, имеющих статус международных (перечень международных кинофестивалей формируется самим министерством). Правда, на деле многие из них скорее нишевые и локальные.
Поэтому для исследования мы выбрали пять: ММКФ (Московский Междунраодный кинофестиваль), «Зеркало» и три смотра, концентрирующихся на документальном кино, — «Докер», «Послание к человеку» и «Флаэртиана».
Что мы выяснили?
У всех пяти фестивалей государственное финансирование, так что в глазах зарубежных стран они в большей или меньшей степени могут ассоциироваться с действиями России на мировой арене. Однако большинство стран сохранили свое присутствие на фестивалях.
В среднем на пяти кинофестивалях ежегодно участвуют работы из 37 стран мира, помимо России. Германия в 2018–2024 гг. представила 47 фильмов (из них 16 за 2022-2024 гг.), Франция — 40 (21), Китай — 22 (14).
Получается, ничего не изменилось?
Это не совсем так. Сильнее всех пострадал ММКФ – 17 стран, включая США и Италию, отказались возвращаться на фестиваль с 2022 года. От участия во всех пяти фестивалях отказались Польша, Чехия и Латвия. При этом фильмы из Китая, Италии, Сербии и Аргентины за последние три года стали более заметными участниками российских фестивалей.
Узнать о ситуации с фестивалями подробнее можно, изучив наши инфографики, а также страницу спецпроекта, на которой можно найти не только результаты исследования, но и комментарии экспертов – Михаила Ратгауза, кинокритика и программного директора «Послания к человеку», и Сергея Сычева, кинокритика и кандидата филологических наук.
🤖 «Системный Блокъ» @sysblok
Anthropic заплатит правообладателям книг, лучший генератор изображений от Google и полностью открытая LLM из Швейцарии
Рассказываем, что произошло в мире ИИ за последнее время.
Anthropic заплатит за нарушение авторских прав
Anthropic, одна из ведущих ИИ компаний, согласилась выплатить 1,5 млрд долларов правообладателям книг по коллективному иску авторов.
Компания использовала около 500 000 книг с пиратских ресурсов для обучения языковых моделей Claude. В пересчете это около 3000 долларов за каждое произведение. По словам адвоката истцов, сумма может стать крупнейшей в истории дел, связанных с нарушением авторских прав. Правда, финального решения от судьи ещё нет.
Почему это важно?
Для обучения конкурентоспособных ИИ-моделей нужно много чистых данных. При этом четких правовых рамок, регулирующих использование книг (и других охраняемых материалов) в обучении нейросетей, пока нет.
Когда правообладатели требовали полного запрета на применение книг при обучении LLM, американский суд признал это использование подпадающим под доктрину fair use. Но это не отменяет необходимости компенсации авторам, как мы объяснили здесь.
Этот прецедент может стать важным шагом в формировании правил использования контента для развития ИИ.
Почему это важно?
Технологии генерации и редактирования изображений с помощью ИИ стремительно развиваются и становятся более распространенными. Это меняет то, как мы воспринимаем визуальный контент и взаимодействуем с ним.
Крупные игроки рынка уже интегрируют такие инструменты в свои продукты: Adobe внедрила ИИ-редактирование в Photoshop и видеоредакторы, а производители смартфонов используют нейросети для улучшения качества снимков. Так, Google применяет нейросети для реализации 100-кратного зума в смартфонах Pixel — фактически это уже не фотография, а сгенерированное изображение.
Почему это важно?
Создание LLM требует колоссальных инвестиций, поэтому их разработкой в основном занимаются частные компании, ориентированные на коммерческую выгоду. В результате академическое сообщество оказывается в стороне от передовых технологий.
Швейцария выделила для ИИ исследований 10 млн часов вычислений на суперкомпьютере Alps. Это позволило выпустить полностью открытую языковую модель. Такие инициативы расширяют доступ исследователей к передовым инструментам ИИ и снижают зависимость науки от корпоративных интересов. Помимо Швейцарии, крупные государственные инвестиции в ИИ сегодня делают США, Китай и Франция.
Как ИИ помогает учителям: 3 рабочих способа сэкономить время
1 сентября — день, когда нагрузка учителей снова взлетает на максимум. А могут ли облегчить их жизнь современные языковые модели? В рамках нового спецпроекта «ИИ-лайфхаки для вашей профессии» педагоги делятся реальными кейсами использования нейросетей в работе. Мы собрали более 10 задач с готовыми промптами, которые могут облегчить работу учителя: от составления опросников до создания заданий… для развития эмоционального интеллекта школьников!
1. Объясняем сложные темы просто
Если ученикам сложно даются фразеологизмы, ИИ поможет создать понятные объяснения с конкретными примерами.
Промпт: Представь, что ты учитель русского языка и ты составляешь упражнение, чтобы объяснить шестиклассникам значение фразеологизма ПРОВАЛИТЬСЯ СКВОЗЬ ЗЕМЛЮ. Чтобы дети поняли особенности употребления фразеологизма, составь текст из 3-5 предложений, который бы демонстрировал ситуацию, описывающую этот фразеологизм. Включи в одно и то же предложение синоним к фразеологизму и сам фразеологизм.
Промпт: Представь, что ты методист, которому нужно подготовить 2-часовое занятие по профориентации для подростков 12-15 лет. Тема: «странные и редкие профессии». Придумай план этого занятия.
Grok-2 выложили в открытый доступ
Лаборатория xAI Илона Маска выложила в открытый доступ веса и код LLM Grok-2.5, выпущенной в прошлом году.
Grok-2.5 построен на архитектуре Mixture-of-Experts: во время генерации, в зависимости от запроса пользователя, используется лишь часть параметров. Всего в модели 270 млрд параметров, из которых активны 62 млрд. Для сравнения, у сопоставимой по размеру open-source модели Qwen3 при работе задействуется почти втрое меньше параметров, что сильно сокращает время отклика.
По качеству Grok-2.5 сопоставима с флагманскими моделями прошлого года. Модель доступна для коммерческого использования, однако её нельзя применять для улучшения других языковых моделей — например, нельзя обучать на данных, сгенерированных Grok-2.5.
Почему это важно?
Grok-2.5 не является лидирующей LLM с открытыми весами по соотношению размер/качество, однако сам факт публикации в открытый доступ флагманской (хотя и не самой новой) модели от одной из самых больших ИИ-лабораторий примечателен. Для сравнения: OpenAI так и не выложила веса GPT-3, вышедшей в 2021 году, несмотря на большое количество запросов со стороны сообщества. Маск также пообещал выложить Grok-3 в открытый доступ через 6 месяцев.
Как SQL помогает изучать дореволюционное кредитование
Как работало банковское кредитование в Российской империи? Кто получал деньги от крупнейших банков? Как Москва превращалась в финансовый центр и втягивала в свою орбиту всю страну?
В начале XX века к не было банковского приложения, чтобы взять кредит. Зато были бумажные векселя, личные связи и бухгалтерские книги, написанные от руки. Оцифровав почти 2000 вексельных сделок одного из крупнейших банков империи, рассказываем, как работала эта система.
📜 Что и как мы исследовали?
Главным инструментом коммерческого кредитования в начале XX века были векселя — долговые расписки, которые компании выдавали друг другу при покупке товаров с отсрочкой платежа. Чтобы разобраться в сложной системе кредитования и увидеть механизмы ее работы, мы изучили архивные данные Московского отделения ПМКБ (Санкт-Петербургского международного коммерческого банка). Мы проанализировали вексельную книгу за 1900 год, сделали квартальную выборку и вручную оцифровали 1994 записи банковских сотрудников на сумму 2,47 млн руб.
💰 Кто пользовался банками?
Главными клиентами банков оказались торговые дома (29% от общего объема векселей), за ними – нефтяные компании (23,8%), а замкнули тройку лидеров металлургические и машиностроительные предприятия (15,7%). Иначе говоря: в топе были представлены три ключевых сектора экономики того времени.
📍 Куда шли денежные потоки?
Более половины всех проданных в банк векселей (52%) были выписаны или предназначались к платежу за пределами Москвы. Среди других городов, где была высокая концентрация сделок с векселями, выделяются Санкт-Петербург, Нижний Новгород, Харьков и Выкса.
Подробнее о том, как между собой были связаны клиенты банка, почему для анализа географии нам пришлось преобразовывать данные и о каких суммах кредитных сделок идет речь, узнаете из полной версии статьи.
Время чтения: 7,5 минут
🤖 «Системный Блокъ» @sysblok
Музыка на «костях»: как рентгеновские снимки заменили винил
Что общего у Элвиса Пресли и перелома ключицы? В СССР ответ на этот вопрос был неожиданным, но точным: его пластинки печатали на рентгеновских снимках. Рассказываем, когда и зачем энтузиасты создавали рентген-пластинки, какие исполнители на них оказались, и как проект BONE MUSIC работает с этим феноменом.
💿 Что это за пластинки?
Любительские записи музыки на рентгеновских снимках появились в конце 1940-х годов. Одной из причин, конечно, был повсеместный дефицит материалов, поскольку винил для пластинок было найти непросто. Тогд использованную пленку из больниц и поликлиник стали выкупать и использовать для самодельных записей. Родиной такого рентгениздата, кстати, считается Санкт-Петербург (тогда — Ленинград).
🕺🏻 Запрет, мода, память
Вторая причина популярности музыкальных рентген-снимков — советская цензура. Официально продавать пластинки с иностранной (джаз, рок-н-ролл), эмигрантской и блатной музыкой было запрещено. Но меломаны и сторонники контркультуры находили способы распространить ее, несмотря на возможное наказание вплоть до уголовной ответственности. Так рентген-пластинки стали не только способом распространения музыки, но и символом подпольной культуры, которая противостояла официальной идеологии.
Сошел на нет этот способ записи к концу 1960-х – по мере распространения кассетных магнитофонов.
🩻 BONE MUSIC
Один из наиболее крупных проектов, направленных на сохранение памяти о рентген-пластинках, — BONE MUSIC, инициатива The Bureau of Lost Culture — лондонского объединения, которое собирает артефакты контркультуры ХХ века.
Создатели проекта, музыкант и продюсер Стивен Коутс и фотограф Пол Хэтфилд, ищут рентген-снимки в странах бывшего коммунистического лагеря, оцифровывают их, проводят исследования и выставки. Это позволяет не только сохранить уникальные арт-объекты, но и сделать их доступными для широкой аудитории.
Сегодня сайте цифрового проекта Bone Music размещены фотографии музыкальных рентген-снимков, аудио, отчеты и другие материалы. Можно найти записи Эллы Фитцджеральд, Элвиса Пресли, Петра Лещенко (русского эстрадного певца, оказавшегося после Первой мировой войны румынским подданным, но имевшего международный успех в 1920–1940-е годы), услышать одну из первых версий знаменитой Mambo Italiano или образцы русского шансона («Через море, скованное льдами...», «Расскажу я вам этот случай...»).
Подробнее о том, как появилась идея проекта и как он развивался, узнаете из полной версии статьи.
Время чтения: 4,5 минуты
🤖 «Системный Блокъ» @sysblok
Быстрый старт: как говорить с нейросетью
«Системный Блокъ» продолжает спецпроект «ИИ-лайфхаки для вашей профессии» и представляет гайд по быстрому старту — инструкцию, которая поможет зарегистрироваться в популярных нейросетях и написать осмысленные запросы, если вы никогда не взаимодествовали с нейросетями или понимаете, что они не всегда выдают вам подходящие ответы.
Кратко: что внутри?
Мы пошагово разбираем:
— как завести аккаунт в ChatGPT и DeepSeek — от ввода почты до первого вопроса;
— что такое промпт и как сформулировать его так, чтобы нейросеть поняла вас с первого раза;
— какие функции вообще есть у нейросетей.
Вы узнаете:
— с какими задачами могут помочь нейросети;
— как прикреплять документы и изображения для анализа;
— как разные режимы поиска помогают сделать выдачу нейросети точнее.
Загрузите в ChatGPT научную статью и попросите: «Выдели ключевые тезисы» — нейросеть проанализирует текст. А чтобы найти свежие данные по этой теме, задайте соответствующий запрос в DeepSeek с включенным Search-режимом.
Соцсети древних римлян, VR-прогулки по Помпеям и чтение сгоревших папирусов с помощью МРТ и нейросетей: подборка о цифровых методах в антиковедении
Исследователи античности гордятся тем, что использование статистических методов в гуманитарных науках началось именно с классической филологии — это произошло не позже конца XIX века. С появлением компьютеров применять количественные методы и цифровые модели стало легче, и сегодня в арсенал цифровых античников входят и геоинформатика, и сетевой анализ, и цифровые 3D-модели. Рассказываем, как соединяются классическая древность и ультрасовременные технологии:
3D‑модели и VR в Помпеях 🌋
Шведские учёные использовали 3D‑моделирование, очки виртуальной реальности, ГИС и трекинг взгляда, чтобы увидеть, какие детали интерьера привлекали внимание посетителей воссозданной в виртуальном пространстве виллы римского аристократа в Помпеях, а еще — как на восприятие влиял свет
МРТ и нейросети для чтения папирусов 📜
Из Помпей переместимся в соседний Геркуланум — здесь находится Вилла папирусов, самое большое в мире собрание античных свитков. Рассказываем, как ученые с XVIII века работают над тем, чтобы прочитать обгоревшие свитки рукописей, можно ли узнать, что написано в свитке, не разворачивая его, зачем папирусам делают компьютерную томографию и МРТ и как расшифровка рукописей превратилась в международное соревнование
Поиск межтекстовых перекличек в римской литературе 🔄
Приложение Tesserae помогает искать заимствования, цитаты и переклички в текстах античных авторов — это полезный инструмент для филологов‑классиков. Самый простой результат работы с Tesserae — это выявление новых текстовых параллелей, которые до этого не были отмечены комментаторами. Например, при тестировании Tesserae команда нашла потенциальную аллюзию к «Энеиде» Вергилия в поэме Лукана «Фарсалия».
ORBIS и транспортная сеть Римской империи 🌍
С помощью сетевого анализа и картографии можно просчитать маршруты между разными точками Pax Romana, оценить статус городов и даже понять, почему Карфаген должен был пасть
Просопография и социальная сеть древних римлян 🤝
Базы вроде Romans1by1 и инструменты визуализации помогают изучать не только факты, но и социальные связи римлян, связывая горожан, чиновников и аристократов в единую сеть
Определение авторства и древние греки 🕵️♀️
Компьютерный анализ может помочь не только с поиском заимствований, но и с датировкой текстов и установлением авторства. Рассказываем, насколько эффективна стилометрия, если речь идет о древнегреческих текстах. Вы узнаете, может ли Дельта Берроуза отличить греческих ораторов друг от друга, какие метрики входят в топ-3 по эффективности для античных произведений и с какими авторами возникает больше всего проблем
Что волнует исследователей Платона и при чем тут танцы 💃
Классики исследуют тексты, папирусы и руины древних вилл — а кто исследует их самих? Цифровая платоноведка Ольга Алиева рассказывает, как построить тематическую модель журнала и с ее помощью отследить, что больше всего волнует платоноведов в России, когда произошел всплеск популярности Аристотеля и откуда в платоноведческих текстах танцы
🏛 «Системный Блокъ» @sysblok
«Системному Блоку» — 7 лет! Лучшие материалы ко дню рождения 🎁
В 2018 году мы запустили первое в русскоязычном пространстве медиа о пересечении цифровых технологий и гуманитарных наук, компьютерных алгоритмов и культуры, нейросетей и искусства. За семь лет мы собрали больше сотни тысяч читателей на разных платформах (и особенно любим вас, дорогие подписчики в телеграме!), а также команду экспертов и авторов, живущих по всему миру. Мы научились просто рассказывать о сложных научных статьях, делать гайды и туториалы по цифровым методам, пилить собственные большие дата-исследования с инфографикой и выпускать краткие емкие разборы терминов из NLP/DS/DH.
Рассказываем о наших любимых материалах последнего года, а также немного — о достижениях.
🧑💻Применяем цифровые методы
За 7 лет на сайте «Системного Блока» вышло 1392 публикации. Это и интервью с экспертами, и блоги, и статьи о методах DH, и обзоры проектов. Только в этом году мы рассказывали, как цифровые археологи раскрывают преступления нацистского режима, а криптографы разгадывали шифр серийного убийцы Зодиака; описывали визуализацию всех книг мира на одной полке с помощью ISBN и реконструкцию сети дорог Римской империи.
🏛️📜Исследуем данные о культуре и образовании
В прошлом году мы начали спецпроект «Классное чтение», в котором проанализировали состав школьных программ по литературе, начиная с 1919 года. Недавно, кстати, выпустили новую часть этого исследования о том, как изучается творчество писательниц. С интерактивными карточками, графиками и облаком тегов.
🤖Погружаемся в мир ИИ
Мы не могли оставаться в стороне от всеобщего интереса к развитию нейросетей, и запустили дайджест новостей из мира больших языковых моделей. Но недавно он вышел на новый уровень — и теперь к новостям мы добавляем экспертный комментарий о том, почему на это событие важно обратить внимание.
🛠️ ..и учим(ся) применять ИИ в жизни
Для тех, кто пока не решил, какую пользу в работе может принести искусственный интеллект, мы выпустили спецпроект «ИИ-лайфхаки для вашей професии». Мы собрали кейсы от преподавателей, исследователей и других специалистов, которые рассказывают, как использовать нейросети с максимальной пользой. А также подобрали готовые промпты, способные сэкономить часы рутинной работы.
🔭Осваиваем новые сферы
Мы хотим оставаться для наших читателей проводником в цифровые гуманитарные науки и технологии. Для этого мы делаем гайды и рассказываем о важных терминах в глоссарии. Наш новый формат, который поможет погрузиться в тему самым начинающим, — это порталы-точки входа.
На странице про DH мы собрали все, что нужно знать про инструменты и методы цифровых гуманитарных наук, а также составили список экспертов, книг и образовательных программ. А в разделе «Дата-журналистика: точка входа» мы описали этапы работы над исследованием, разобрали кейсы, перечислили полезные сервисы для сбора, анализа и визуализации данных и дали ссылки на специализированные ресурсы. Так что, если вы не знали, с чего начать погружение в DH или в журналистику данных, начните с наших порталов.
🏆Получаем награды
Весной 2025 года проекты «Системного Блока» стали призерами в двух номинациях премии DH Awards: наш портал с подборкой материалов по Digital Humanities — в номинации Best DH Resource (Лучший DH-ресурс), проект «Классное чтение» — Best DH Data Visualization (Лучшая визуализация данных).
Кроме того, обладателями наград стали наши друзья и постоянные авторы Борис Орехов, занявший второе место в номинации DH Short Publication за статью о применении дистрибутивной семантики к шахматам, и Ольга Алиева, чей курс по компьютерному анализу текста стал призером в номинации DH Training Materials.
🚀Мы верим, что впереди у нас еще много интересного. В конце концов мы только достигли школьного возраста. Оставайтесь с нами, присоединяйтесь к команде, любите фьюжн цифры и культуры!
«Системный Блокъ» @sysblok
ИИ для учителей: как нейросети помогают преподавать в школе 👩🏫🧑🏫
Искусственный интеллект меняет образование, беря на себя задачи по подготовке урока, составлению конспектов, созданию заданий любого формата и генерации сопроводительного (и не только) материала к урокам.
«Системный Блокъ» продолжает спецпроект «ИИ-лайфхаки для вашей профессии» и представляет раздел «ИИ для учителей» — практическое руководство по использованию нейросетей в преподавании.
Вы узнаете:
— как ChatGPT и DeepSeek помогают экономить время на проверке работ и при составлении учебных планов;
— какие промпты дают лучший результат (с примерами из практики учителей);
— как избежать ошибок при работе с ИИ и превратить его в надежного помощника, не теряя контроля за содержанием уроков и заданий.
Примеры из реальной практики!
Вот несколько промтов из учительской практики, которые вы найдете в посте:
1) Представь, что ты учитель русского языка и твой ученик 17 лет попросил объяснить разницу между значениями слов ВЫПЛАТИТЬ — ЗАПЛАТИТЬ — УПЛАТИТЬ — ОПЛАТИТЬ — ОТПЛАТИТЬ. Объясни разницу в значениях этих глаголов, подчеркни нюансы использования в речи, приведи примеры использования.
2) Сделай табличку с иллюстрациями новой лексики для студентов русского как иностранного. В каждой клеточке должно быть слово и реалистичная картинка, иллюстрирующая это слово. Если клеточка пустая, то оставь ее пустой. Прилагаю исходную таблицу-образец.
3) Представь, что ты учитель литературы в 10 классе, возраст учеников — 16 лет. Тебе нужно написать конспект урока на тему «Мысль семейная в романе Льва Толстого «Война и мир». Цели урока: проанализировать семьи Болконских, Ростовых, Безуховых, Курагиных и показать основные семейные черты представителей этих семей. Выбери эпизоды для анализа семейных отношений Болконский, Ростовых, Безуховых, Курагиных, составь вопросы для анализа эпизодов, подготовь итоговое задание для проверки знаний учащихся по теме. Урок должен состоять из организационного момента, подготовки к изучению темы урока, основной части по анализу романа, проверки знаний и заключения.
Как обкачивать Telegram-каналы с помощью Python — туториал с кодом от «Системного Блока» 🧑💻
Мессенджер Telegram, в котором вы читаете этот текст, в последние годы превратился в одну из крупнейших коммуникационных систем планеты и своего рода «интернет в интернете». В 2025 году число активных пользователей Telegram в месяц (MAU) превысило 1 миллиард человек — ⅛ населения Земли. Ежедневно в мессенджер заходят 450 млн. пользователей.
Получается, что коммуникция в Telegram — это значительная часть всего, что говорится и пишется каждый день на языках планеты. Но как получить доступ к этим массивам текстов для количественных исследований? В этом помогут приложение Telegram Desktop, язык Python и библиотека pyrogram. В гайде с кодом рассказываем сначала о том, как выгрузить и автоматически разложить по папкам тексты из одного канала, а затем — о рекурсивном подходе для поиска и обкачивания больших групп связанных каналов.
🤖 «Системный Блокъ» @sysblok
Кино вне политики? Кто участвует в российских кинофестивалях
Мы изучили, как изменилась география участников российских кинофестивалей после 2022 года — и обнаружили много неожиданного. Данные, инсайды, комментарии экспертов — рассказываем, что на самом деле происходит на международных смотрах в России.
Какие фестивали мы исследовали?
Согласно данным министерства культуры РФ, в 2024 году в РФ насчитывалось 110 фестивалей, имеющих статус международного (перечень международных кинофестивалей формируется самим министерством). Правда, на деле многие из них скорее нишевые и локальные.
Поэтому для исследования мы выбрали пять: ММКФ (Московский Международный кинофестиваль), «Зеркало», «Докер», «Послание к человеку» и «Флаэртиана». Первые два — главные фестивали игрового кино, остальные три посвящены в основном документалистике.
Что мы выяснили?
У всех пяти фестивалей государственное финансирование, так что в глазах зарубежных стран они в большей или меньшей степени могут ассоциироваться с действиями России на мировой арене. Однако большинство стран сохранили свое присутствие на фестивалях.
В среднем на пяти кинофестивалях ежегодно участвуют работы из 37 стран мира, помимо России. Германия в 2018–2024 гг. представила 47 фильмов (из них 16 за 2022-2024 гг.), Франция — 40 (21), Китай — 22 (14).
Получается, ничего не изменилось?
Это не совсем так. Сильнее всех пострадал ММКФ – 17 стран, включая США и Италию, отказались возвращаться на фестиваль с 2022 года. От участия во всех пяти фестивалях отказались Польша, Чехия и Латвия. При этом фильмы из Китая, Италии, Сербии и Аргентины за последние три года стали более заметными участниками российских фестивалей.
Узнать о ситуации с фестивалями подробнее можно, изучив наши инфографики, а также страницу спецпроекта, на которой можно найти не только результаты исследования, но и комментарии экспертов – Михаила Ратгауза, кинокритика и программного директора «Послания к человеку», и Сергея Сычева, кинокритика и кандидата филологических наук.
🤖 «Системный Блокъ» @sysblok
«Чукотка — это культура, сквозь которую прорастает язык»: лингвист Инна Зибер об изучении Севера, магии чукотского имени и утрате традиций
Как Север может оказаться южнее Москвы? С какими сложностями сталкивается исследователь языков и народов Арктики? Где лучше искать носителей чукотского языка и культуры? Как правильно дать ребенку чукотское имя и как смириться с языковой утратой? Что изменилось в жизни чукчей за 100 лет? Об этом «Системный Блокъ» поговорил с Инной Зибер, заведующей Научно-учебной лабораторией социогуманитарных исследований Севера и Арктики НИУ ВШЭ.
Экспедиции
Инна Зибер и её коллеги регулярно ездят в экспедиции в поселки Чукотки — именно там живут пожилые, а значит и самые опытные носители языка. Ещё интереснее – попасть в тундру, где люди используют чукотский язык как необходимый.
Раньше Инна ездила в Удмуртию, к бесермянам, где есть и старшие представители культуры, которые лучше знают язык, песни, хозяйственную деятельность, и более урбанизированная молодежь. Но все-таки разница между традиционной бессермянской жизнью 100 лет назад и сегодня меньше, чем у чукчей.
Иначе ситуация выглядит и в Поволжье или Прикамье, где носители привыкли к лингвистам и могут, например, сами поправить транскрипцию, глядя ученому в компьютер.
На Чукотке все по-другому. Сначала 8–9 часов летишь на самолете до Анадыря, потом ждешь погоды. Если повезло — долетаешь до центра района. <...>
Когда ты через много-много дней наконец добираешься до поселка, который вообще-то один из самых легкодоступных на Чукотке, ты смотришь на людей и понимаешь, что они здесь все это время занимались делом. Ты сидишь в большом городе над книжками, с компьютером, рассчитываешь дорогу до минуты с помощью «Яндекс Карт», а тут у людей совершенно другая жизнь. Погода решает за них, могут ли они куда-то передвигаться. Они должны делать какую-то работу, потому что от этого зависит их жизнь. Если не выделать шкуру и если не сшить одежду пастуху, он замерзнет насмерть в тундре. По сравнению с моей московской жизнью, все очень трудно и неудобно.
«Русской» одеждой может называться и финская куртка, и китайская. «Русский» дом — это и канадский домик, и советский домик. Поэтому русское — это все, что нетрадиционное. И оно может оцениваться и положительно, и отрицательно.
Тест: От муми-троллей до «Четырех уроков у Ленина»
Кто из писательниц пропадал из школьной программы почти на 50 лет? Чьи сатирические рассказы трижды оказывались в школьном каноне? И, наконец, чье творчество стали изучать только в 1990-м году?
Предлагаем узнать (или вспомнить!) в нашем тесте, посвященном писательницам в школьном литературном каноне. Кстати, подробнее о них мы рассказывали в этом посте и в карточках.
Пройти тест!
🤖 «Системный Блокъ» @sysblok
Зачем учить нейросеть рассуждать?
Заметили, как ChatGPT теперь часто подолгу «думает» перед ответом? Это происходит потому, что теперь в его последнюю версию по умолчанию встроена рассуждающая модель, которой отправляются все сложные запросы. Рассуждающие модели — ответ на замедление прогресса LLM с 2023 по 2025. Сегодня ведущие LLM показывают в тестах очень близкие результаты, а разница между последними поколениями ощущается все меньше и меньше. Один из вариантов решения этой проблемы – научить модель «рассуждать». Ведь если попросить LLM в запросе «думать по шагам», это значительно повысит качество ответов. Рассказываем, как LLM обучают таким размышлениям.
Почему развитие замедлилось?
Практически все современные LLM основаны на архитектуре Transformer. Одно из её главных преимуществ — масштабируемость: если увеличить модель и данные, улучшится качество ответов. Правда, с определенного момента с ростом размера и данных начинает падать темп улучшения и наступает эффект diminishing returns (исчезающей выгоды). Другими словами, дальнейшее масштабирование модели Transformer становится скорее убыточным, поскольку затраты на вычисления не дают сопоставимого улучшения качества.
Что с этим делать?
Рассуждение — нетривиальный и долгий процесс, но он может стать вариантом решения этой проблемы. Собирать качественные рассуждения вручную (особенно в большом объеме) и автоматизировать этот процесс не так уж просто, поэтому в основном используют два метода. Первый — с помощью обучения на ответах модели, собранных благодаря Chain-of-Thought промтингу (о нем мы уже рассказывали здесь), второй — через обучение с подкреплением (вот тут о нем можно узнать подробнее). Второй способ сложнее, но именно он используется практически всеми разработчиками рассуждающих моделей.
Уже есть первые результаты?
Первую успешную рассуждающую модель выпустила компания OpenAI, она получила название o1. О деталях ее создания известно мало, и мы не знаем, как именно ее обучали рассуждать. Зато через несколько месяцев компания Deepseek смогла создать большую рассуждающую языковую модель DeepSeek R1 и выложила в открытый доступ как саму модель, так и статью, детально описывающую масштабируемый способ обучения рассуждению. Это позволило open-source разработчикам создавать свои собственные рассуждающие модели.
Больше о самих рассуждающих моделях, методах обучения, проблемах и перспективах развития, узнаете из полной версии нашего материала.
Время чтения: 14 минут
🤖 «Системный Блокъ» @sysblok
Как писать промпты: инструкция для учителей
Большие языковые модели решают математические олимпиады на уровне чемпионов мира, предсказывают новые химические соединения, пишут код, расшифровывают рукописи, составляют отчеты и выполняют еще множество дел, которые раньше можно было поручить только человеку. А чем они могут помочь учителю? В нашем спецпроекте «ИИ-лайфхаки для вашей профессии» делимся рекомендациями по составлению промптов и определяем «рецепт» идеального запроса.
Плохой промпт
Промпт: Придумай урок по профориентации для школьников.
Почему промпт не даст желаемого результата? В нем совершенно нет конкретики, и нейросеть выдаст вам шаблонный ответ.
Хороший промпт
Промпт: Ты — методист, которому нужно подготовить 2-часовое занятие по профориентации для подростков 12-15 лет. Тема: «Необычные и редкие профессии». Типы материалов: минимум текста, максимум схем, визуализации, картинок. На основе предоставленного материала есть несколько задач:
1. Определить черты профессий, о которых рассказывается в видео.
2. Определить ее перспективы и востребованность в других странах.
3. Каждый презентует по одной профессии.
Для составления заданий надо учесть, что у детей слабая читательская грамотность и занятия по профориентации их в целом не увлекают.
«90% мировой культуры строится на воспроизведении паттернов»: интервью с Игорем Пильщиковым
Игорь Пильщиков — сооснователь Русской виртуальной библиотеки (rvb.ru), ФЭБ «Русская литература и фольклор» (feb-web.ru) и системы СПСЛ (cpcl.info), профессор славистики в Калифорнийском университете в Лос-Анджелесе, доктор филологических наук. «Системный Блокъ» поговорил с ним о моделировании в литературоведении, масштабировании исследований с помощью компьютера, сложностях с поэтическим метром у больших языковых моделей, проблемах переноса биологических терминов в филологию и о том, как Шекспир справлялся с дедлайнами и недостатком трезвых актеров.
Подсчеты в литературоведении
Прежде чем мы начинаем что-то считать в текстах, нужно понять, что именно мы подсчитываем и какие единицы измерения используем. Поэтому надо убедиться, что в процессе разметки текстов мы определили все важные для нашего исследования признаки и придумали, как их подсчитывать. В этом плане филология скорее похожа на биологию, а не на идеально точную математическую науку.
Что не так с этой аналогией
Увы, в вопросах точности литературоведение все-таки уступает естественным наукам. В биологии мы разделяем живые существа на роды, виды и особи. А особь разделяем уже на разные ее члены. А что у нас есть в литературе? Вроде бы у нас есть роды, которые разделяются на жанры, которые представлены произведениями, а в произведении есть какие-то части… но на самом деле мы не всегда можем дать жанру (да и поджанру) четкое определение, так что сложности начинаются уже на этом этапе. А если мы подключим к анализу текста языковую модель, она столкнется с несколькими неочевидными препятствиями.
Чему пока не научились LLM
ChatGPT и почему-то совершенно не умеет писать метрическую поэзию. Он никак не способен ни на каком количестве текстов усмотреть, что такое метр и рифмовка. Нейросеть Claude 3.5 Sonnet тоже с трудом справилась с онегинской строфой и тут же забыла принцип её построения.
С художественными текстами могут возникнуть и другие сложности, связанные, например, с оригинальностью текста.
Стоит автору написать с помощью ИИ фрагменты собственного романа, поднимается скандал. Не говоря уж о целом романе.
Что же получается? Если коротенький стишок, составленный с помощью искусственного интеллекта, приписать себе нельзя, а огромный перевод можно, то проблема не в природе текста, а в нашей интерпретации этой природы.
Genie 3 генерирует интерактивные миры
Лаборатория Google DeepMind представила третье поколение модели Genie. Это семейство относится к так называемым «моделям мира» (world models) — системам, которые симулируют физику реального или игрового пространства.
Genie 3 по текстовому описанию создаёт виртуальную сцену, в которой можно свободно перемещаться в реальном времени (24 кадра в секунду, разрешение 720p) с помощью клавиатуры. Сцена сохраняет целостность несколько минут благодаря «визуальной памяти» модели примерно на минуту: например, если пользователь окрасит часть стены, уйдёт, а затем вернётся, стена останется окрашенной.
Помимо обычного управления доступны «события по запросу» (promptable world events). Во время сессии можно менять мир командами вроде «сделай дождь», «добавь лодку на озеро» или «сделай ночь» — при этом изменения происходят без перезапуска сцены.
Genie 3 способна порождать самые разные окружения и физические явления: физику жидкости, света, природные локации (лес, озеро, волны), городские сцены и стилизованные игровые миры.
Предыдущие версии были менее стабильны во времени, поддерживали только короткие симуляции (до 20 секунд) и имели ограниченную интерактивность.
Почему это важно?
У «моделей мира» множество применений:
1. Генерация обучающих данных для роботов и автономных систем. Например, можно создать сотни часов симуляций приготовления еды и использовать их для обучения робота, или сгенерировать редкие дорожные ситуации для тренировки беспилотных автомобилей.
2. Использование в связке с языковыми моделями, которым сложно рассуждать о физике. LLM может преобразовать вопрос пользователя в запрос к модели мира, получить симуляцию и извлечь из неё ответ.
Замена сложных физических расчётов. Иногда точное вычисление по формулам слишком трудоёмко, а достаточно точная симуляция позволяет получить результат быстрее и дешевле.
Новая DeepSeek, интерактивная симуляция миров от Google и Grok-2 в открытом доступе
Рассказываем, что произошло в мире ИИ за последнее время.
Новая DeepSeek-V3.1
Компания DeepSeek представила обновление своей большой языковой модели DeepSeek-V3.
Разработчики фокусировались на развитии агентных возможностей — способности модели автономно выполнять задачи на компьютере. О важности агентов в развитии ИИ мы писали в предыдущем дайджесте.
Архитектура модели осталась прежней, но теперь нет разделения на «рассуждающую» и «быструю» версии — DeepSeek-V3.1 объединяет оба режима. В режиме рассуждений она показывает те же результаты в тестах по математике и программированию, что и предыдущая версия, но генерирует более лаконичные промежуточные размышления. Другими словами, разработчики ускорили модель без потери качества.
Стоимость доступа к API незначительно выросла, однако DeepSeek-V3.1 по-прежнему остаётся самой дешевой из сопоставимых моделей. Веса модели опубликованы в открытом доступе под лицензией, разрешающей коммерческое использование. Попробовать модель можно через официальный сайт и мобильное приложение. Подробнее о DeepSeek и работе с ним мы рассказывали ранее.
Почему это важно?
LLM от DeepSeek популярна как среди энтузиастов, так и среди широкой аудитории. Подробная техническая статья о DeepSeek-R1 открыла open-source сообществу простой и надёжный метод обучения рассуждающих моделей, аналогичных закрытой o1 от OpenAI, что значительно сократило разрыв между проприетарными и открытыми LLM.
Данные, генерируемые моделями DeepSeek, активно используются для обучения других моделей. По слухам, ими пользуются не только независимые разработчики и небольшие компании, но и крупная французская ИИ-компания Mistral.
ИИ для исследователей: как нейросети помогают в науке
Что, если ИИ сможет быстрее вас находить нужные статьи, систематизировать данные и даже подсказывать новые направления для исследований? В новом разделе спецпроекта «ИИ-лайфхаки для вашей профессии» мы собрали практические инструменты, которые экономят часы рутинной работы ученым.
Кратко: о чем раздел?
ИИ ускоряет работу исследователей на всех этапах: от формулировки темы и поиска литературы до анализа данных и подготовки публикаций. Если вам предстоит писать курсовые и дипломные работы, готовиться к конференциям и проводить собственные исследования, вам наверняка пригодятся многие ИИ-инстурменты, которые могут с этим помочь.
Вы узнаете:
— как с помощью Elicit выбрать тему и найти research gaps;
— чем полезны Litmaps, Connectedpapers и Zotero для поиска и систематизации литературы;
— как собрать собственную базу знаний с Meetcody.ai и Typeset.io;
— зачем использовать Perplexity и Consensus для чтения и анализа научных источников;
— как нейросети помогают оформлять библиографию и даже писать код для анализа данных.
Все инструменты — с примерами запросов, скриншотами и пошаговыми сценариями. Подробнее читайте в разделе «ИИ для исследователей».
🤖 «Системный Блокъ» @sysblok
Сосны, Волга, данные и пеньчарты: «Системный Блокъ» провел мастерскую дата-журналистики на Летней школе
Команда «Системного Блока» вернулась с Летней школы (это волонтёрский образовательный проект, которые ежегодно проходит в лесу на берегу Волги недалеко от Дубны).
Как и в прошлом году, мы делали на ЛШ мастерскую @datajourschool, посвященную дата-журналистике. 25 участников — лингвисты, журналисты, аналитики данных — две недели изучали, как спланировать дата-исследование, где взять данные, как с ними работать и как делать из них красивые и понятные визуализации. И применяли все это на собственных проектах — исследованиях, партнерами которых выступили:
— благотворительная организация «Ночлежка» @nochlezhka,
— научно-популярный журнал «Кот Шредингера» @kot_sh,
— издательство ОГИ @izdatelstvoogi,
— медиа о культуре российских регионов «В лесах» @vlesah,
— цифровой корпус почтовых открыток «Пишу тебе» @pishuteberu
Но мы не только учились. Под чутким творческим руководством дата-художницы Нади Андриановой выпускники мастерской прошлого года сделали выставку дата-арта, где данные о летнешкольниках были представлены в виде пеньчартов или фигур с картин Малевича.
Участники уехали домой, но мастерская не закончилась: работа над проектами продолжается.
🤖 «Системный Блокъ» @sysblok
Вера Инбер и Марфа Крюкова: продолжаем исследование школьной программы
«Системный Блокъ» изучил, как в школьном литературном каноне представлены женщины-писательницы. Оказалось, что за последние 170 лет в каноне появлялись имена 36 женщин, которые написали в общей сложности всего 2% произведений, предложенных для изучения.
Некоторые писательницы задерживались в программе дольше остальных. Вы наверняка уже вспомнили Ахматову и Цветаеву, чьи произведения систематически изучаются в школе с начала 1990-х годов. В карточках рассказываем еще о восьми женщинах, оставивших заметный след в школьном литературном каноне, и об их произведениях, которые чаще всего упоминались в школьных программах.
🤖 «Системный Блокъ» @sysblok
Угадай научпоп-статью по картинке: тест ко дню рождения «Системного Блока»
Что символизируют 💀черепа💀 — раскопки Древнего Рима или драму ледникового периода, когда люди едва не вымерли?
Почему Дарвин задумчиво смотрит на деревья?🌳 И что за убийственный гендерный дисбаланс зашифрован в нашей инфографике? 📊
Проверьте свою зрительную интуицию в нашем новом тесте: угадайте статью «Системного Блока» по картинке, которую к ней сделали наши художники 👩🎨
🤖 «Системный Блокъ» @sysblok
🈷 Японский язык в цифровую эпоху
Как древним кандзи ужиться с современными технологиями? Рассказываем, как японская письменность с её многовековой историей и традициями чувствует себя в цифровом мире, какие есть шрифты для японской графики и где какой правильно использовать.
🇯🇵 Три алфавита — одно сообщение. Японцы свободно комбинируют кандзи (иероглифы) и две слоговые азбуки — хирагану и катакану, а в мессенджерах сюда же добавляют ещё и латиницу.
📚 Вертикальное письмо в XXI веке. Манга, газеты и официальные документы до сих пор могут печататься сверху вниз — и даже смартфоны это поддерживают.
(^_^) Эмоции одним символом. Каомодзи, интернет-сленг и миниатюрные пиктограммы позволяют выразить настроение быстрее, чем длинные фразы.
🖥 От иероглифа до кода. Всё это стало возможно благодаря цифровым стандартам и работе над шрифтами, которые хранят в себе тысячи символов.
А как кандзи живут в программировании и чем японский интернет-сленг отличается от западного — читайте в полной версии статьи 📌
🤖 «Системный Блокъ» @sysblok
Портреты слов, тональность и морфемный разбор: что теперь умеет НКРЯ с помощью нейросетей и NLP-библиотек
Национальный корпус русского языка (НКРЯ) уже давно не просто «собрание» репрезентативных текстов — это огромный комбайн из инструментов для исследования языка. И конечно, в эпоху нейросетевого бума в НКРЯ добавляются новые инструменты на основе нейросетей. Рассказываем коротко о современных технологиях под капотом самого авторитетного русского корпуса:
👯♀️ Похожие слова
Инструмент «Портрет слова» показывает лексемы, которые часто встречаются в похожих контекстах. Это не только синонимы, но и антонимы, слова из одной тематической области и др. Основой служит технология word2vec, а модели обучены для каждого корпуса отдельно — можно наблюдать, как ассоциаты слова меняются от «Русской классики» до корпуса СМИ.
🧬 Морфологическая разметка
Каждое слово в корпусе снабжено леммой, частью речи и грамматическими признаками (время, падеж, число и т.п.). Омонимия снимается автоматически, а вся информация подгружается прямо при клике на слово. В основе — модель Rubic, использующая RuBERT и PyMorphy2.
🏗️ Морфемный разбор
НКРЯ теперь умеет делить слова на приставки, корни и суффиксы. Причем для разных подкорпусов используются разные подходы: школьный (Тихонов) и академический (Кузнецова и Ефремова). Работают и словарные, и нейросетевые методы — в том числе собственная модель НейроКРЯ🦆 на базе сверточных нейронных сетей.
😡 Анализ тональности
В корпусе соцсетей каждое сообщение снабжено автоматической меткой: положительное, отрицательное или неопределенное. В основе — модель RuRoBERTa, обученная на датасете RuSentiment и размеченных вручную текстах. При поиске можно отфильтровать тексты по тональности.
🏷️ Ключевые слова
В корпусе Региональных СМИ к каждому тексту автоматически подбираются теги. Это помогает находить публикации по темам (например, «Пушкин» + «театр») и формировать подкорпусы по интересам. Извлечение реализовано через библиотеку RuTermExtract с рядом тонких настроек.
👉 Подробнее со скриншотами и ссылками — в полной версии статьи 📌
🤖 «Системный Блокъ» @sysblok
LLM от Google и OpenAI впервые завоевали золото в математической олимпиаде, Alibaba выпустила обновление топовой модели Qwen3
Рассказываем, что нового в мире ИИ
🥇🤖Модели Google и OpenAI победили в олимпиаде
Google и OpenAI отчитались (анонс Google, анонс OpenAI) о результатах своих языковых моделей на международной математической олимпиаде (IMO). Обе модели решили пять из шести задач, что соответствует уровню золотой медали. «Золото» IMO получают около 8% участников соревнования.
На решение задач отводилось 4,5 часа — стандартное время для всех участников. Модели использовали только естественный язык, без доступа к интернету или внешним инструментам вроде среды исполнения кода. Решения модели Google проверяли судьи олимпиады по стандартным критериям. OpenAI не проходила официальную проверку, но, как утверждает сама компания, результат проверили 3 бывших медалиста IMO.
Почему это важно?
С 2024 года компании активно развивают продвинутые математические способности языковых моделей. Ранее высокие результаты показывали только специализированные системы или модели с доступом к внешним инструментам. Теперь модели общего пользования, работающие исключительно с естественным языком, достигли уровня золотой медали IMO. Это демонстрирует прогресс парадигмы «рассуждающих» LLM, которые генерируют длинные цепочки «мыслей» перед финальным ответом.
Почему это важно?
Линейка Qwen входит в число лучших открытых LLM на рынке. Ее выделяет большая широта: модели общего назначения представлены в различных размерах, что делает их подходящими как для локального использования обычными пользователями, так и для развертывания на мощных корпоративных серверах. Многие академические исследователи выбирают Qwen в качестве базы для проверки своих гипотез.
ИИ-лайфхаки для вашей профессии
«Системный Блокъ» представляет новый спецпроект — «ИИ-лайфхаки для вашей профессии». Здесь мы простым языком объясняем, как работают нейросети, показываем реальные примеры их использования в науке и образовании и даем готовые инструкции, чтобы вы могли применять ИИ в своей работе уже сегодня.
Кратко: о чем проект?
Искусственный интеллект — это не угроза, а эффективный инструмент для ученых, преподавателей и многих других. В нашем спецпроекте мы рассказываем:
— что такое промпты и как грамотно формулировать запросы к нейросетям;
— какие ИИ-инструменты лучше всего подходят для работы с текстами и изображениями;
— как начать пользоваться популярными нейросетями.
Вы узнаете, как учителя используют ИИ для подготовки материалов, как исследователи автоматизируют анализ данных и какие нейросети (не) помогают переводчикам кино. В специальном глоссарии разберем ключевые термины: от «глубинного обучения» до «галлюцинаций» нейросетей. Все это — простыми словами, чтобы новости про ИИ перестали быть сложными и непонятными.
Подробнее обо всех возможностях, с конкретными примерами и лайфхаками по выбору инструментов читайте на странице портала.
🤖 «Системный Блокъ» @sysblok