sysblok | Unsorted

Telegram-канал sysblok - Системный Блокъ

10752

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join

Subscribe to a channel

Системный Блокъ

Как это будет по-русски? Цифровые технологии для изучения русского как иностранного

20 декабря 2024 года Совет Федерации одобрил закон, согласно которому дети мигрантов, не владеющие русским языком, не смогут быть зачислены в школы. Теперь иностранным ученикам нужно не только иметь документы, подтверждающие их легальное пребывание в России, но и сдавать тест на знание русского. Рассказываем, как сделать изучение изучение РКИ (русского как иностранного) интереснее и продуктивнее с помощью цифровых инструментов.

🎤 Буквы и звуки

Изучение любого языка начинается со знакомства с алфавитом и правилами чтения. Познакомиться с русским алфавитом, произношением и написанием букв поможет интерактивная таблица от проекта Russian For Everyone. В таблице к каждой букве добавлен пример со словом с выделенной ударной гласной, а также картинка, позволяющая лучше запомнить слово.

📖 Лексика и чтение

Большое значение в изучении языка имеет расширение словарного запаса, регулярное повторение выученных слов и навык чтения. Для развития этих навыков и предназначена онлайн-платформа Readlang, а сайт RussianGram облегчит понимание и чтение текста, расставив в нем все ударения.

📝 Письмо

Сайт Tobemum предлагает онлайн-генератор, где учителя и родители могут создавать прописи, адаптированные под потребности и уровень подготовки учащегося. Ученикам постарше для проверки орфографии, пунктуации, грамматики и стилистики текстов поможет онлайн-сервис Орфограммка. Программа не только выделяет ошибки, но и дает пояснения к каждой.

🎧 Аудирование

Еще один важный навык — умение воспринимать речь на слух. Сформировать его помогут подкасты от проекта Very Much Russian, слушая которые, можно одновременно учить разные слова, поговорки, шутки и песни.

☑️ Создание заданий и тестов

Одна из самых полезных программ для создания заданий и тестов — Hot Potatoes, позволяющая создавать задания в виде кроссвордов, с заполнением пропусков, тесты на установление соответствий или с выбором альтернативных и коротких ответов и упражнения с перепутанными предложениями. А создать анимированные уроки можно с помощью Animaker — это онлайн-платформа для создания видео с простым интерфейсом и возможностью конструировать своих персонажей.

Ещё больше цифровых инструментов для развития и тренировки разных языковых компетенций, а также для того, чтобы сделать уроки разнообразнее и увлекательнее, найдете в полной версии подборки.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

От периодики до личных документов: как работает контент-анализ исторических источников?

Контент-анализ — один из основных методов работы с данными на основе компьютерных вычислений. Его суть заключается в том, что информация из качественной переводится в количественную, а результаты подсчитываются. Но как возможно трансформировать воспоминания, публикации в газете или анекдоты в цифры? Рассказываем в новом материале,

Кратко: о чем статья?

Применяя метод контент-анализа к историческим документам, исследователи выделяют из массива информации повторяющиеся элементы — это могут быть словосочетания, имена, географические названия. Благодаря такому подходу можно больше узнать, например, о характере исторических личностей и даже о повседневной жизни… в советском трудовом лагере. Если для решения первой задачи можно обратиться к мемуарам и перепискам, то для второй отлично подойдет периодика.

К. А. Зингис изучила газету «Новые Соловки», которая издавалась заключенными во второй половине 1920-х гг. Для начала она выделила смысловые категории, описывающие будни заключенных: «работа», «культура», «санитария», «наука», «любовь», «женщины в лагере», «монастырь» и т. д. После – отобразила перемены в содержании газеты с помощью облака тегов, отражающего наиболее характерные (то есть часто используемые) для каждого периода слова. Это позволило наглядно проследить, как газета из пространства для творческой самореализации превратилась в инструмент идеологического воздействия.

Контент-анализ позволяет также проводить сравнительные исследования. Например, Е. А. Еремеева решила сопоставить образы, характерные для официального и неофициального юмора в советский период. Для этого она изучила советские журналы и анекдоты и выяснила, что через юмор осуществлялся диалог между народом и властью. В официальном журнале «Перец» преобладала категория «советские граждане», а неофициальный юмор чаще всего затрагивал тему «советское руководство».

О других примерах применения контент-анализа для изучении истории и о том, остается ли в таких исследованиях фактор субъективности, узнаете из полной версии статьи.

Время чтения: 7,5 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Нейролингвистика и Альцгеймер: ИИ учится диагностировать болезнь по речи

Болезнь Альцгеймера (БА) — заболевание, которое вызывает гибель клеток головного мозга. Со временем когнитивные способности человека начинают ухудшаться: появляются провалы в памяти, проблемы с речью и трудности с ориентированием в пространстве. Традиционные методы диагностики этого заболевания недостаточно эффективны. Рассказываем, как с этой задачей учится справляться искусственный интеллект.

Кратко: о чем статья?

Методы выявления болезни Альцгеймера (БА) можно разделить на две группы: дорогостоящие и сложные, но дающие точный результат, и более доступные и простые, но менее достоверные. В первую категорию входят методы нейровизуализации — позитронно-эмиссионная томография (ПЭТ) и магнитно-резонансная томография (МРТ). Во вторую — опросники для оценки когнитивных функций и нейропсихологические тесты.

При этом исследования последних лет показали, что на ранних стадиях болезни Альцгеймера можно заметить небольшие речевые нарушения, которые возникают за много лет до того, как появятся другие когнитивные ухудшения. Например, аномия — затруднение в подборе конкретных слов, вроде использования «фрукт» вместо «яблоко». Отследить такие изменения врачам сложно, но с ними должны помочь методы обработки естественного языка (NLP) и распознавания речи.

Для обучения машинных моделей применяются наборы данных, созданные специально для выявления когнитивных нарушений, связанных с БА. Уже сейчас точность распознавания болезни по речи с помощью нейронных сетей составляет не менее 70,7%. А наивысшую точность классификации —  97,18% —  продемонстрировала нейросеть-трансформер BERT, дообученная на автоматически расшифрованных записях речи.

И всё же автоматическая диагностика не идеальна. Во-первых, большая часть датасетов составлена на английском, так что для неанглоязычных пациентов модель будет работать плохо. Во-вторых, на данный момент датасеты имеют небольшие размеры. 

Подробнее об обучении моделей, о значимости ранней диагоностике БА и о других методах распознавания болезни на разных стадиях узнаете из полной версии статьи.

Время чтения: 11 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Пушкин цифровой: два века работы в одном интерактивном издании

Александр Пушкин — один из самых изученных писателей. Есть тысячи работ, посвященных ему и его текстам. Исследователи из Пушкинского Дома подсчитали, что только для прочтения всего объема пушкинистики потребуется около 58 лет. А чтобы проанализировать этот объем вручную, нужно еще больше времени. Пушкин ⟨цифровой⟩ (@pushkin_digital) решает эту проблему: цифровые методы обработки текстов и поиска связей между ними помогают быстро и эффективно работать с текстами как самого Пушкина, так и его исследователей.

Кратко: что это за проект?


Пушкин ⟨цифровой⟩ — уже третье семантическое издание текстов и персоналий «большой литературы» в русскоязычном веб-пространстве (есть ещё «Слово Толстого» от команды Tolstoy Digital и Chekhov Digital, о котором «Системный Блокъ» писал здесь и здесь). Над созданием проекта о Пушкине параллельно работают Институт русской литературы (Пушкинский Дом) и Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, а DH-центр ИТМО разрабатывает интерфейсы для навигации, чтения и изучения материалов.

На сайте проекта можно найти основные тексты произведений Пушкина, его рукописи и материалы академического пушкиноведения с середины XIX века и до наших дней. В отдельном разделе представлены тексты-путеводители, которые помогут современному читателю лучше понять контекст произведений. Там, например, можно выяснить, что в стихотворении «Я помню чудное мгновенье…» Пушкин позаимствовал у Жуковского, Баратынского и Батюшкова, а также какой была в жизни вдохновившая это стихотворение Анна Керн. 

Путеводители раскрывают культурный контекст, биографию людей пушкинского круга и поэтику текстов. Они параллельны и связаны одновременно. Каждый можно прочесть отдельно как лонгрид (на странице даже указано время чтения), а можно изучать все три слоя одновременно, листая само произведение и переходя по ссылкам.

Узнать, какие возможности открывает работа с порталом, как она устроена и какие дальнейшие планы есть у создателей проекта, можно из полной версии статьи.

Время чтения: 10,5 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Их Римская империя: жизнь и связи древних римлян в просопографических базах данных

Просопография — это историческая дисциплина, которая собирает, структурирует и исследует данные о людях, живших в конкретный исторический период в конкретном регионе. «Системный Блокъ» на примере проекта Romans 1by1 рассказывает о создании просопрографических баз данных и какие драматические истории они могут скрывать

Кратко: о чем статья?

Изначально составители просопографий интересовались людьми более-менее известными, а спустя время просопографические базы данных стали рассказывать и об обычных людях с их повседневной жизнью. Например, классическая «Просопография поздней Римской империи» содержит сведения о государственных и военных служащих Рима, врачах, юристах или философах. А более поздняя Prosopography of the Byzantine World включает данные о торговцах, пекарях или пиратах.

Просопография Romans One by One — реляционная база данных, в ней все организовано по табличному принципу. Например, таблица Personal Data содержит информацию об имени и когномене человека (индивидуальном прозвище), его происхождении, роде занятий и многом другом. Такую базу данных можно представить в виде графовой модели — схематического изображения сетей связей и отношений.

Графовые модели легко адаптировать под разные исследовательские задачи, они позволяют увидеть связи человека, сообщества, к которым он принадлежал, или его индивидуальные перемещения в конкретном регионе. Например, в городе Напока графовая модель позволила «выявить» династию выходцев из Малой Азии, а у римского проконсула Гая Овиния Тертуллия не оказалось никаких социальных связей вообще, зато множество достижений в строительстве дорог.

Более подробно о том, какие исследовательские задачи можно решать с просопографическими базами данных, а также о других интересных историях, которые они содержат, читайте в полной версии статьи.

Время чтения: 12 минут.


🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Шум вокруг DeepSeek, «глубокий ресерч» от OpenAI, новые LLM от Google

Рассказываем, что произошло в мире ИИ за последнее время.

Шум вокруг DeepSeek

Публикация языковых моделей DeepSeek-V3 и DeepSeek-R1 произвела фурор на рынке ИИ. Ранее мы рассказывали, что стоимость обучения третьей версии LLM от DeepSeek, по заявлениям компании, в десятки раз ниже, чем у конкурирующих компаний, включая OpenAI, Meta* и Anthropic. При этом модель DeepSeek-R1 не только сопоставима с лучшими решениями по основным метрикам, но и доступна для коммерческого использования всем желающим. После выпуска приложение DeepSeek быстро заняло первое место в App Store, обогнав приложение ChatGPT. 

Выход DeepSeek-R1, способной генерировать развернутые рассуждения для улучшения качества итоговых ответов, вместе с техническим описанием процесса ее разработки существенно сократил разрыв между open-source-моделями и разработками крупных технологических компаний.

Низкая стоимость и эффективность обучения DeepSeek-V3 поставили под сомнение необходимость наращивания вычислительных мощностей для создания новых моделей. Это привело к резкому падению акций компаний, разрабатывающих чипы для обучения нейросетей. В частности, к 28 января акции производителя видеокарт (GPU, на которых обучают нейросети) Nvidia упали на 17%.

На фоне ускорения гонки ИИ, отмеченной анонсом проекта Stargate и успехом китайского DeepSeek, Франция и ОАЭ объявили о совместных инвестициях 30–50 млрд евро в разработку нового дата-центра.

Автономный исследователь от OpenAI

OpenAI представила Deep Research — агента, способного самостоятельно проводить комплексные исследования по заданным темам. Сервис, работающий на основе нейросетей, может анализировать рынки, обрабатывать научные запросы, помогать в поиске книг и фильмов по описанию, а также подбирать товары по заданным параметрам.

Пользователи могут делать разнообразные запросы: от анализа аудитории мобильных приложений определенной тематики с формированием сводных таблиц до подбора сноуборда с конкретными характеристиками в определенном ценовом диапазоне. Используя поисковую систему и рассуждающую языковую модель GPT o3, сервис проводит исследование в течение 5–30 минут и предоставляет структурированный отчет с результатами.

Сейчас Deep Research доступен только пользователям с подпиской ChatGPT Pro, а со следующего месяца станет доступен и владельцам ChatGPT Plus.

Google обновила модель Gemini

Google представила вторую версию семейства языковых моделей Gemini, включающую три варианта:

1. Gemini 2.0 Pro — флагманская модель премиум-класса, у которой лучшие показатели в семействе в задачах генерации кода и решении сложных логических и математических задач. В настоящее время находится в стадии Preview.

2.Gemini 2.0 Flash — модель общего назначения для массового пользователя с более доступной ценой: 10 центов за 1 млн токенов (частей слов или целых слов).

3. Gemini 2.0 Flash-Lite — наиболее экономичная версия с ценой 7,5 центов за 1 млн токенов.

Все модели, кроме Flash-Lite, способны работать с внешними инструментами (поисковиками, средами выполнения кода, браузерами) и генерировать не только текстовый контент, но также изображения и аудио.

Ранее мы рассказывали о релизе рассуждающей модели Gemini 2.0 Flash Thinking.

🤖 «Системный Блокъ» @sysblok

*Meta признана в РФ экстремистской организацией

Читать полностью…

Системный Блокъ

«Дисциплинировать литературоведческую мысль может только рациональный метод»: научное завещание Бориса Ярхо

Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.

Кратко: о чем не-интервью?

План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Лите­ратуроведение (я не уставал это повторять) есть такая же “наука о жиз­ни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».

Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?

Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «ли­тературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.

Какие примеры статистических и экспериментальных исследований приводит Ярхо?

Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.

При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.

Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Языки программирования vs естественный язык: сходства и отличия

Почему Python, Java и даже C++ гораздо ближе к естественным языкам, чем принято считать? Чем языки программирования отличаются от машинного кода, который на самом деле исполняет процессор? Какие языки программирования особенно близки к человеку? Разбираемся с Борисом Ореховым, который написал об этом пост и записал видеоролик 🎞

Что происходит под капотом компьютера?

Компьютеры не думают на языках программирования. Все вычислительные операции происходят с помощью очень формализованных инструкций процессора, которые называются машинным кодом. Выглядит это, например, так:

BB 11 01 B9 0D 00 B4 0E 8A

Эти коды заставляют процессор выполнять арифметические операции — взять число, прибавить к нему другое, умножить число и т.п. Обычный пользователь не знает или быстро забывает об этом: если на экране открыт мессенджер или текстовый редактор, мы считаем, что работаем с текстом, а не с числами. Но процессор в конечном счете всегда оперирует числами, даже когда вы смотрите видео с Борисом Ореховым на ютубе 🙂

Что же такое языки программирования?

Языки программирования придуманы, чтобы обобщать куски машинного кода в инструкции, которыми может оперировать человек. То есть сделаны людьми и для людей. В языках программирования, в отличие от машинного кода, есть слова — обычно из английского (run, do, for, in, while…), хотя и не всегда. И уже под этими — понятными человеку — словами скрываются (через множество дополнительных прослоек) наборы команд машинного кода.

Какие языки программирования особенно близки к человеческим?

Языков программирования много и они все разные. Например, некоторые называются языками низкого уровня, а некоторые — высокого. Это не значит, что одни для крестьян, а другие для аристократов. За этим стоит самовлюбленное представление человека о том, что он находится наверху пищевой цепи, а компьютер — внизу. Если язык в этой схеме ближе к компьютеру, ориентируется на схемы описания задачи по-компьютерному, требует детализации каждого шага — откуда взять число, как его сложить с другим числом, то такой язык внизу, низкого уровня. А если язык ориентирован на человека, не закапывается в мелочах, и человек с помощью этого языка может просто написать что-то вроде «сделай мне красиво, а как ты это сделаешь, меня не волнует», то язык этот — высокого уровня. Типичный пример — Python, о котором часто говорят, что с его помощью можно «программировать на английском», настолько он близок к естественному языку (но, конечно, только на фоне других языков программирования).

В чем сходства языков программирования с естественными?

В языках программирования тоже есть аналог слов, причем это не только имена переменных, это и операторы, и числа. Плюс, больше или равно — тоже слова. В языках обоих типов есть грамматика, правила соединения слов вместе. Языки программирования, как и естественные языки, нужны для коммуникации, в которой участвует человек.

А в чем отличия?

Естественные языки универсальны: на них можно высказываться о мире, описывать несуществующие вещи, создавать совершенно новые фантастические миры, говорить о психологии, религии, философии и т.п. Языки программирования гораздо более узкие и приземленные: все, что на них можно сказать, должно в итоге быть конвертируемо в команды машинного кода процессора, ведь они имеют конкретную цель — отдавать приказы компьютеру. Несмотря на это, отдельные люди пытаются применять языки программирования для литературного творчества, например, писали на них стихи.

Подробнее читайте в
блоге Бориса Орехова или смотрите его видео

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Zoom после 55: как устроено цифровое образование для старших возрастов

Некоторые думают, что жизнь после 55 замедляется и становится менее интересной. Однако это точно не так для тех, кто в этом возрасте вновь садится за парту. «Системный Блокъ» рассказывает, чему в сфере цифрового образования могут научиться самые старшие.

Кратко: о чем статья?

Обычно слово «студент» в первую очередь ассоциируется с молодыми людьми. Тем не менее, согласно статистике интернет-портала «Компании для всех возрастов», онлайн-формат обучения предпринимательству примерно одинаково актуален как молодым (младше 30 лет), так и самым старшим (60 и более лет).

После ухода на пенсию люди вновь начинают учиться в основном по двум причинам: из собственного желания и для будущего трудоустройства. Пенсионерам интересны самые разные сферы: финансовая и компьютерная грамотность, искусство, языки и многое другое. Одни курсы помогают освоиться в современном мире, другие дают возможность найти круг общения по интересам.

Сегодня пенсионеры получают цифровое образование благодаря университетам, социальным организациям и даже банкам. Например, на онлайн-платформе «Университет третьего возраста» можно научиться творческой фотографии или финансовой безопасности, а курс от «Ростелеком» и Социального фонда России расскажет о компьютерной грамотности.

В сфере онлайн-обучения для людей 50+ кроме множества возможностей существуют и некоторые трудности. Так, пожилым людям часто нужна помощь с выходом в онлайн и подробные инструкции. Но возраст не является препятствием в получении образования, а сама учеба помогает замедлить старение, особенно в сфере когнитивных функций.

Подробнее о том, какие сферы интересно изучать людям 50+ и где они могут научиться новому, читайте в полной версии статьи.

Время чтения: 15 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Театры и школы в текстах: анализируем именованные сущности

Один из методов Digital Humanities — анализ именованных сущностей. Он позволяет сделать интересные и порой неожиданные выводы о текстах с помощью выделения определенных слов. Например, людей, мест и других важных деталей. Чтобы изучить текст таким образом, нужна специальная разметка. 

В одном из стандартов разметки — СONLL/OntoNotes — к категории PER (от слова person) принадлежат имена людей, а CHAR используется для характеристик человека, включая его звание, должность и так далее. Изучая таким образом дневники Перестройки, можно обнаружить, что три самые частые характеристики в документах этой эпохи – ребенок, женщина и президент, а топ-3 для категории PER — Горбачев, Борис и Ельцин.

Чтобы узнать об этом и других методах анализа текста с помощью DH и выяснить, о чем люди чаще писали во время Перестройки: школах, театрах или библиотеках, переходите к нашей странице Точки входа в DH.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Взламывая шифр Зодиака: как энтузиасты разгадали послание серийного убийцы

31 июля 1969 года в офисы нескольких американских газет поступили письма с примерно одинаковым содержанием. Анонимный автор писал, что берёт на себя ответственность за серию убийств, и угрожал продолжить убивать, если приложенные материалы не будут опубликованы. К каждому из писем прилагался лист со 136 символами.

Так начинается история о самом приоритетном неразгаданном шифре в списке ФБР — криптограмме серийного убийцы Зодиака. В новом материале разбираемся, почему тексты Зодиака не могли дешифровать на протяжении 50 лет, как криптографам всё-таки удалось его раскусить и какие вообще бывают шифры. 

Как расшифровали первый текст?


После публикации зашифрованных писем в газетах супруги Дональд и Бетти Харден расшифровали криптограмму, которая станет известна как Z408 (по первой букве имени Zodiac и количеству использованных знаков). Убийца использовал один из шифров подстановки: каждой букве соответствовал один или несколько использованных в шифровке символов.

Что за подстановка?

Все способы симметричного шифрования (где для шифрования и расшифровывания используется один и тот же ключ) строятся на двух принципах: подстановке и перестановке. В шифрах подстановки элементы исходного текста в соответствии с неким правилом заменяются на другие, шифрующие, элементы. 

Почему не поймали Зодиака?

Следующие тексты убийцы расшифровать так же быстро не получилось. После ряда безуспешных попыток дешифровки криптографы заметили странность: в Z340 частота встречаемости биграмм практически соответствовала случайному распределению, в отличие от Z408. Это натолкнуло исследователей на мысль о возможном использовании перестановки.

А что за перестановка?

В шифрах перестановки элементы текста остаются неизменными, но переставляются в порядке, отличном от исходного. К таким можно отнести, например, анаграммы, в которых буквы исходного слова перемешиваются, образуя другое слово, — правда, без строгого следования какому-то алгоритму. 

И что было дальше?

Затем в дело вступили цифровые технологии. В 2006 году группа программистов создала софт ZKDecrypto, способный автоматически дешифровать Z408. На его основе Ян Ван Эйке в 2014 году создал AZdecrypt, решающий до двухсот подобных шифров в секунду.
 
AZdecrypt эффективно справлялся с решением шифров подстановки, позволяя быстро находить слова в последовательностях символов. Однако оставалась задача определения правильного порядка расположения этих символов. Решить её удалось только в 2020 году.

Исследователи отмечают, что шифр оставался неразгаданным столь долго из-за множества преднамеренных усложнений, внесённых Зодиаком. Среди них — разделение текста на секции и сложные перестановки с нарушением последовательности. Зодиак успешно применил принцип «безопасность через неясность» (security through obscurity), предполагающий, что сама трудность выявления метода шифрования служит его защитой.

Прочитать примерный перевод сообщения Зодиака, написанного с помощью Z430, узнать о шифрах Цезаря и Бофора, а также о том, почему Z13 и Z32, вероятно, никогда не будут расшифрованы, можно из полной версии статьи.

Время чтения: 16 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Больше, чем энциклопедия: Википедии 24 года!

Почему Википедия — сообщество с иерархией? У кого она стала ассоциироваться с либеральными идеями? И в каких отношениях «свободная энциклопедия» находится с большими корпорациями? Вспоминаем материал «Системного Блока» к Дню рождения Википедии. 

🖥️ Утопия и реальность

В 2001 году Википедию создавали как утопический проект, который бросал вызов самой каноничной на тот момент энциклопедии — «Британнике». Постепенно проект обзавелся редакторами и нашел партнеров среди университетов, музеев и библиотек. Так начал утверждаться авторитет Википедии, которая к началу 2010-х приобрела статус фактической энциклопедии интернета, войдя в топ-15 популярнейших веб-сайтов.

⌨️ Три уровня свободы

Хотя изначально писать и редактировать статьи мог любой желающий, руководство Википедии скоро устало от «троллей» и «вандалов», портящих статьи с анонимизированных IP-адресов Tor. Это привело к большой дискуссии о критериях «запретов» и «блокировок». В итоге википедисты разделили сообщество на три класса. Первый, имевший меньше всего привилегий, — те, кто назывался по своему IP-адресу. Второй — участники, имевшие свои личные аккаунты и известные под своими именами. Они могли добавлять и редактировать страницы с незначительными ограничениями. Третий — администраторы.

👨🏻‍💻 Ресурс для больших корпораций

Хотя природа Википедии — некоммерческая, такие корпорации, как Amazon, Apple и Google используют данные проекта для повышения ценности собственных продуктов. Даже модель GPT-3 частично обучалась на массиве данных Википедии. Поэтому сайт можно рассматривать как ресурс, который добывается и используется в качестве корпоративного товара.

О том, как это влияет на саму Википедию, а также об аналогах энциклопедии и предпосылках к их появлению, узнаете из полной версии статьи.

Время чтения: 15 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

История диалоговых систем

Мы взаимодействуем с диалоговыми системами повсюду: когда бронируем столик в кафе, записываемся к врачу или звоним в поддержку. Все более похожие на человека чат-боты приобретают голос и эмоции, приносят пользу бизнесу и обычным пользователям. «Системный Блокъ» рассказывает, когда чат-боты стали повсеместными, как они учились и как воспроизводят естественный разговор.

Кратко: о чем статья?

Дизайн диалоговых интерфейсов — это индустрия создания систем, имитирующих человеческое общение. Одна из основных ее задач — сделать общение с ботом естественным, эффективным и не трудозатратным. Диалоговые системы понимают и устную, и письменную речь, а успешность их работы и распознавания напрямую зависит от доступных технологий.

История чат-ботов началась в 1952 году, когда американская корпорация создала Audrey — голосовой интерфейс, способный превратить голос в текст. Машина могла распознавать только цифры от 0 до 9 и заходила в тупик, слыша новый голос.

Создание в 1960-х годах в Массачусетском технологическом институте чат-бота ELIZA стало историческим. Она как бы исполняла роль психотерапевта, задавая вопросы из заранее составленного списка в ответ на текстовое сообщение. Например, если собеседник говорил, что ему грустно, Элиза уточняла: «Почему тебе грустно?»

В 1995 году была создана ALICE, вдохновленная Элизой. Она научилась делать логические выводы из текста пользователя, учитывать грамматику предложений и контекст предыдущего разговора.

Большой прорыв в диалоговых системах случился в 2011 году, когда Apple разработали Siri, в которой объединились голосовые команды и чат-бот-система. Siri стала первым виртуальным ассистентом, который можно взять с собой куда угодно, а список ее возможностей для своего времени был внушительным: найти ответ в Интернете, начать звонок, подсказать дорогу, отправить сообщение и т. д.

Хотя сегодня возможности диалоговых достигли небывалых высот, им есть куда стремиться. Чат-боты все еще вынуждают пользователей подстраиваться под себя, а многие диалоговые системы говорят только на английском.

Более подробно об истории создания чат-ботов и грани между людьми и говорящими машинами, читайте в полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Что такое гражданская наука?

Гражданская наука (Citizen science), или научное волонтёрство, — это направление, где непрофессионалы активно участвуют в научных исследованиях и помогают ученым собирать и анализировать данные. И хотя само понятие появилось сравнительно недавно, идея участия общественности в научной деятельности не нова. Рассказываем о прошлом, настоящем и будущем гражданской науки.

Первые энтузиасты

C началом великих географических открытий моряки могли исследовать новую для них флору и фауну, а с появлением телескопов (1609 год) астрономы-любители начали активно менять научную картину мира.

Например, ещё во времена кругосветных плаваний Джеймса Кука (1768–1771 годы), английский рыцарь и натуралист-любитель Джозеф Бэнкс сделал первое научное описание бугенвиллеи (лат. Bougainvillea). А археолог-самоучка Генрих Шлиман проводил раскопки на месте античной Трои и стал первооткрывателем микенской культуры.

Цели и тенденции

Цель гражданской науки — привлечение широкого круга людей для сбора научно полезной информации. Главные задачи гражданской науки сегодня —  мониторинг биоразнообразия, сбор информации об экологической обстановке и поддержка научных баз данных.

Примеры проектов

Международные платформы, такие как iNaturalist и eBird, объединяют миллионы людей, которые делятся снимками животных, растений и грибов, помогая ученым собирать ценные данные о природе. А Гербарий МГУ — поддерживает цифровую платформу для сбора и оцифровки данных о растениях с помощью волонтеров.

Совсем другой пример – цифровой корпус почтовых открыток «Пишу тебе» @pishuteberu. Его участники собрали, оцифровали и разметили уже 70 000 открыток. Помимо этого волонтеры проекта занимаются обучением нейросетей для автоматической разметки и расшифровки открыток, а также программированием инструментов для работы с базой.  Присоединиться к «Пишу тебе» может любой желающий, заполнив анкету.

Другие примеры гражданских научных проектов, которые позволяют превратить наблюдения за птицами в научные данные или поучаствовать в мониторинге загрязнения воздуха, найдете в полной версии материала. Там же мы рассказали о том, как стать гражданским ученым (спойлер: очень просто!)

Время чтения: 5,5 минут


🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Тест: Путин или ChatGPT? Угадайте, какое новогоднее обращение действительно принадлежит президенту, а какое сгенерировала нейросеть

Цифровые методы можно использовать с разными текстами: длинными и не очень, принадлежащими одному автору или нескольким, написанными за короткий срок или на протяжении длительного периода времени. Мы решили изучить цифровыми методами новогодние обращения Владимира Путина и заодно проверить, насколько хорошо справляются с написанием подобных речей современные языковые модели.

Для нового теста мы сделали тематическое моделирование корпуса текстов с помощью программы Mallet, построили кривые эмоциональной тональности текста с помощью Python и RuBERT и выяснили, как менялась длина новогодних обращений с 2000 по 2023 годы.

Проходите тест и узнаете, удалось ли ChatGPT сгенерировать предновогодние речи и какая лексика попала в облако слов новогодних обращений (спойлер: долг, испытание и дело вы там точно найдёте)

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Нагугли мелодию: поисковики для музыкантов

Бывает ли у вас, что в голове засела знакомая мелодия, а название ускользает? Не беда! Рассказываем про поисковики, в которых можно сыграть фрагмент на виртуальной клавиатуре, напеть мелодию или настучать ритм!

🎹 IncipitSearch

IncipitSearch — это метапоисковик, который ищет информацию по нотным текстам, доступным в открытых базах данных. Сейчас он подключен к нескольким крупным музыкальным хранилищам, которые позволяют пользователям найти произведения классической музыки по небольшим фрагментам. Правда, придется наиграть мелодию на виртуальной клавиатуре, но хватит и совсем небольшого отрывка. Например, по девяти нотам ми-фа-соль-соль-соль-до-до-си-си поисковик легко обнаружит арию Орфея из оперы Глюка.

🎤 Musipedia

Если вы не можете наиграть произведение, попробуйте найти его в Musipedia: здесь есть целых пять вариантов поиска, включая возможность напеть или насвистеть мелодию в микрофон и настучать её ритм на клавиатуре. Плюс, спектр композиций здесь значительно шире: от сонат Бетховена до The Rolling Stones. Подробнее о Musipedia мы, кстати, писали здесь.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Новая LLM от Маска, генератор видео от Google стал доступен, стартап от бывшей техдиректрисы OpenAI

Рассказываем, что произошло в мире ИИ за последнее время.

Grok 3 — новая LLM от xAI

Лаборатория xAI Илона Маска представила обновленную языковую модель Grok 3. Ключевое улучшение — появление режима «рассуждений». Как и другие современные модели (OpenAI o1/o3, DeepSeek-R1, Gemini 2 Flash Thinking), Grok 3 использует цепочки логических построений для повышения качества ответов. По результатам основных тестов новая версия не уступает ведущим аналогам.

Компания также запустила сервис DeepSearch, формирующий развернутые отчеты по результатам поиска на заданную тему. Подобных автономных исследовательских агентов ранее представили OpenAI (Deep Research) и Perplexity.

Доступ к Grok 3 открыт для подписчиков X Premium и X Premium+. Расширенная подписка включает режим рассуждений и DeepSearch. В дальнейшем эти функции планируется сделать доступными и для базовых подписчиков.

Нейросеть для генерации видео от Google

На платформе fal стала доступна модель Veo 2 от Google DeepMind, позволяющая создавать видеоролики на основе текстовых описаний. Генерация 5-секундного видео обойдется в $2,5, с доплатой $0,5 за каждую дополнительную секунду.

Первая версия Veo была выпущена летом 2024 года в качестве ответа OpenAI Sora, но была доступна лишь ограниченному числу пользователей. В декабре того же года вышла значительно усовершенствованная вторая версия, которая на сегодняшний день превосходит конкурентов по реалистичности создаваемого контента.

Недавно Veo 2 стала доступна при редактировании YouTube Shots — с помощью модели можно по текстовому описанию сгенерировать фон для видео.

Гибкий и полезный ИИ от бывшей техдиректрисы OpenAI

Бывшая техническая директриса OpenAI Мира Мурати анонсировала запуск своего стартапа Thinking Machines.

По ее словам, сегодня существует значительный разрыв между возможностями ИИ-систем и пониманием их внутренних механизмов. Также информация о деталях создания продвинутых ИИ-систем остается только внутри нескольких ведущих компаний, что затрудняет восприятие этих нейросетей обществом и ограничивает эффективность применения. Thinking Machines намерена преодолеть этот барьер, сделав ИИ более прозрачным и доступным для пользователей.

Ключевые направления деятельности компании:

• регулярная публикация технической документации, научных исследований и программного кода,

• разработка набора специализированных ИИ-систем для совместной работы с человеком вместо создания единой автономной универсальной платформы,

• расширение сферы применения ИИ за пределы решения задач по математике и программированию.

В команду Thinking Machines вошли специалисты из ведущих технологических компаний: Джон Шульман (бывший сооснователь и ведущий исследователь OpenAI), экс-руководитель серверной инфраструктуры Meta, бывшая глава отдела мультимодальных ИИ-систем Mistral, а также много других именитых людей.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

DeepSeek-V3: коротко о главном

Если вы следите за новостями из мира ИИ, то точно слышали о DeepSeek-V3 — новой версии языковой модели, которая стремительно набирает популярность у пользователей по всему миру.

DeepSeek-V3 — аналог GPT-4o от китайской компании DeepSeek. Сейчас это модель «по умолчанию» в приложении DeepSeek, если не переключаться на более новую R1. По качеству текстовых ответов DeepSeek-V3 сопоставима с моделью от OpenAI, но гораздо дешевле в использовании.

В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.

Еще одна особенность архитектуры — использование подхода Mixture-of-Experts (MoE). Модель задействует только небольшую часть своих параметров во время генерации ответа на запрос, что делает ее экономичнее в потреблении вычислительных ресурсов.

Чтобы вы могли максимально быстро разобраться, что это за нейросеть и где её используют, мы обновили наш каталог и добавили туда карточку с краткой информацией о DeepSeek-V3.

Кстати, а что вы уже о ней знаете? Предлагаем проверить в нашей небольшой викторине.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Какие языковые модели (LLM) хорошо пересказывают истории

Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!

Что за эксперимент?

Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.

Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.

Как тестировали модели?

Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.

Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:

- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа

Какие результаты?

GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.

Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.

Время чтения: 11,5 минут

*Компания Meta признана экстремистской и запрещенной на территории РФ.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Как можно улучшить ответы языковых моделей? Гайд по промтам

Сегодня качество ответов языковых моделей напрямую зависит от того, как сформулирован запрос. Новейшие LLM (large language model, большая языковая модель) уже неплохо справляются с неточными формулировками, но в большинстве случаев для успешной коммуникации с нейросетями всё ещё необходимы специальные методы и качественные промты. О том, как сформулировать запросы для языковых моделей, рассказываем в новом гайде.

👌🏻 Zero-shot prompting

Простые и короткие запросы к моделям приведут к выдаче простых и стандартных ответы. Например, есть запрос без примеров (zero-shot prompting): в этом случае мы рассчитываем на качество модели, на ее системные установки. Такие запросы хорошо работают для популярных запросов, для которых обучали модель (например, суммаризация текста или предварительный анализ данных).

✌🏻 One/few shot prompting

Если вы хотите получить от модели более развернутый и глубокий ответ в определенном формате/стиле, то при помощи одного или нескольких примеров (подсказок) необходимо явно показать, чего вы от нее ждете. Такой метод формулирования запросов называется one/few shot prompting. Примеры актуализирует в контексте модели более глубокие связи, которые были построены ею в процессе обучения, что в итоге помогает добиться ответа, который точнее соответствует запросу.

🙌🏻 Chain-of-Thought

Для решения сложных логических или математических задач используется техника chain-of-thought, или цепочка рассуждений (мы уже рассказывали о ней здесь). Простейший способ задействовать эту технику — прямо обозначить ее в запросе, используя выражения-маркеры вроде: «Давай думать шаг за шагом». В более сложных случаях можно задать для модели логику рассуждения, последовательность действий и этапы проверки.

Сравнить ответы языковой модели на одни и те же запросы, сформулированные с помощью разных методов, и узнать, что мотивировало ChatGPT-4o написать в обращении письма «Многоуважаемый и всечестнейший Профессор», можно, перейдя к полной версии статьи.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

«Гипотеза Поллианны»: насколько позитивна детская зарубежная литература?

В 1969 году Дж. Баучер и Ч. Э. Осгуд представили и обосновали идею о том, что «люди склонны видеть (и обсуждать) светлую сторону жизни». Эту тенденцию назвали «гипотезой Поллианны» в честь главной героини романа «Поллианна», жизнерадостной сироты, которая пытается найти что-то хорошее в любой ситуации. В материале рассказываем о том, как исследователи провели сентимент-анализ корпусов детской литературы, чтобы проверить эту гипотезу.

Что и как исследовали?

Чтобы провести анализ тональности детских и юношеских текстов, ученые взяли 372 англоязычные и 500 немецкоязычных книг. В качестве инструмента для исследования был выбран SentiArt, в основе которого – векторная модель, а не списки слов. У этого метода есть свои недостатки, но ученые убедились, что он всё же эффективнее альтернатив.

Что с английским корпусом?

Посмотрев на соотношение положительных и отрицательных слов в предложении, исследователи увидели, что в среднем в предложениях было больше позитивно окрашенной лексики. Среди эмоций и чувств в корпусе преобладали удивление, страх и счастье, на второй план отошли печаль, гнев и отвращение.

А что с немецким?

Книги в немецкоязычном корпусе, который был более разнообразным и репрезентативным, тоже соответствовали «принципу Поллианны». В англоязычный корпус вошли только произведения, опубликованные только до 1952 года. Немецкий же содержал в том числе более поздние книги, включая переводы всех частей Гарри Поттера и Антуана де Сент-Экзюпери.

А есть ли различия?

Основываясь на результатах сентимент-анализа и полученных данных, исследователи пришли к выводу, что англоязычный корпус имеет более выраженный позитивный уклон, чем немецкоязычный. Более того, анализ немецкоязычных текстов показал: чем современнее произведение, тем меньше там выражена позитивность.

Узнать о результатах и процессе работы подробнее, а также выяснить, подтверждает ли «гипотезу Поллианны» сама «Поллианна», можно из полной версии статьи.

Время чтения: 8,5 минут


🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Наперекор всему. Как выживают правосторонние шрифты в цифровом пространстве?

Сегодня многие цифровые инструменты работают с иероглифами, арабской вязью или еврейским письмом совсем не так хорошо, как с латиницей. Как их адаптировать и «сломать» Word или VS Code, смешав текст на латинице и арабице? И почему крупные разработчики ПО не обращают внимание на эту проблему?

Кратко: о чем статья?

За примерами сложностей при работе с RTL (системы письменности right-to-left, т.е. справа налево) далеко ходить не надо: уже в Word начнутся трудности при попытке вставить пример на арабском в русский или английчский текст. Хотя с самим по себе арабским языком в Word вполне комфортно работать: он поддерживает даже дополнительные настройки и шрифты, но ровно до тех пор, пока пользователь не захочет вставить слово на латинице в свой стройный арабский текст. Похожая история случается во всех популярных текстовых редакторах.

Более того, из-за специфики арабских шрифтов при визуализации или выводе результатов арабский текст зачастую разбивается на отдельные буквы, а в исследованиях возникают ситуации, когда конечные результаты могут частично искажаться из-за ситуативных проблем с обработкой RTL языков. Это ставит вызов перед исследователями Востока, ведь зачастую нельзя взять для своего проекта уже готовый инструмент.

К счастью, со многими трудностями люди, постоянно занимающиеся, например, арабским языком, уже научились справляться. Постепенно адаптируются к RTL языкам и сами инструменты. Популярный корпусный менеджер Voyant Tools минимизирует риск возникновения ошибок, а Web scraper успешно справляется с парсингом RTL текстов.

Серьезный научный интерес к этому вопросу растет как со стороны историков, так и со стороны специалистов по Digital Humanities, но реальное развитие, похоже, идет медленно. Так что сегодня цифровое пространство по-прежнему ориентировано в первую очередь на LTR (left-to-right) пользователей.

О том, почему внедрение новых инструментов идет настолько сложно и медленно, а также о тех исследованиях и исследователях, которые работают над решением проблемы и привлечением к ней внимания, узнаете из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Коэволюция и кооперация: как биологи и лингвисты изучают эволюцию языка

Историческая лингвистика и эволюционная биология изучают схожие процессы: развитие языков и эволюцию живых организмов. Иногда их интересы пересекаются напрямую: реконструируя эволюцию языков и генов, лингвисты и биологи помогают археологам воссоздать картину древних миграций и распространения культур. Неудивительно, что исследователи перенимают друг у друга идеи и методы. Какие именно — рассказываем далее.

От Сократа до санскрита

Люди задумывались об эволюции языка еще со времен Сократа (он жаловался, что язык портится, сопоставляя современную ему версию греческого с более древними). Правда, самостоятельное направление, изучающее эволюцию языков, — сравнительно-историческое языкознание, или компаративистика, — оформилось гораздо позже. Это произошло благодаря Уильяму Джонсу, который в 1786 году указал на связь санскрита с греческим, латинским, кельтским, готским и древнеперсидским.

Мутации и дрейф (языковых) генов


Наблюдения Джонса подтолкнули других ученых продолжить сопоставление языков. Немецкий лингвист Август Шлейхер, например, сравнивал языки с живыми организмами, поскольку они так же подчиняются законам изменчивости и борьбы за существование. И хотя его идеи активно критиковали, некоторые параллели всё же можно провести. Так, мы можем наблюдать в языках своеобразный дрейф генов, когда одно слово по чистой случайности становится «вирусным», а его менее удачливый синоним совсем выходит из употребления. А ещё ошибки в произношении или написании слов могут со временем закрепляться, как мутации в биологии.

Природа неправильных глаголов

Современные исследователи тоже работают с параллелями, которые видят в лингвистике и биологии. В 2007 году журнал Nature опубликовал сразу две работы о языках, написанные учеными-биологами. Исследователи описали закономерность эволюции языка, которую хорошо знали по своему предмету: то, что часто используется, редко изменяется. Скажем, вероятность превращения неправильного глагола в правильный тем меньше, чем чаще используется глагол.

Поиск языковых предков

Впрочем, наиболее тесно лингвисты и биологи сотрудничают при изучении древних миграций и распространения языков и культур: именно здесь результаты их исследований уточняют и дополняют друг друга. Наглядный пример объединения усилий — поиски родины индоевропейских языков (спойлер: лидирует гипотеза о том, что протоиндоевропейский язык мог возникнуть в Закавказье, откуда потом распространился севернее, в степи).

Подробнее о поиске родины языков и других направлениях, в которых лингвисты и биологи работают совместно, узнаете из полной версии статьи.

Время чтения: 13 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Дата-центры стоимостью 500 млрд долларов, ИИ-агенты и открытый конкурент OpenAI o1

Рассказываем, что произошло в мире ИИ за последнее время.

Полтриллиона долларов на дата-центры

Президент США Дональд Трамп совместно с CEO OpenAI Сэмом Альтманом и главой SoftBank Масаёси Соном анонсировали запуск проекта Stargate. Инициатива предполагает инвестиции в размере 500 млрд долларов на строительство серии дата-центров в США для развития и исследования искусственного интеллекта в течение четырех лет. По заявлению организаторов, первые 100 млрд уже инвестированы, началось строительство первого объекта в Техасе. Этому анонсу предшествовали длительные слухи о разработке беспрецедентно дорогого суперкомпьютера совместными усилиями OpenAI и Microsoft.

Основными спонсорами проекта выступают SoftBank, OpenAI, Oracle и MGX, где SoftBank отвечает за финансирование, а OpenAI — за операционное управление. К технологическому партнерству присоединились Arm, Microsoft, NVIDIA и Oracle. В ходе запуска проекта также стало известно о пересмотре договора между Microsoft и OpenAI, ранее ограничивающего OpenAI использованием только ресурсов Microsoft.

Илон Маск, владелец конкурирующей лаборатории xAI, раскритиковал проект Stargate, усомнившись в том, что 100 млрд долларов действительно выделены. Ранее мы рассказывали о конфликте Маска и OpenAI.

ИИ-агенты от OpenAI, ByteDance и Perplexity

Сразу несколько компаний выпустили ИИ-агентов — компьютерные программы, использующие нейросети для автономного выполнения задач на компьютере. Например, такого агента можно попросить найти и добавить в корзину онлайн-магазина продукты для приготовления блюда или объединить несколько документов и отправить их по почте коллеге.

В качестве входных данных агенты получают текстовое описание задачи. Далее на каждом шаге программа анализирует скриншот текущего экрана и, основываясь на нем и предыдущих действиях (клики мыши, ввод с клавиатуры, скролл страницы и т. д.), планирует следующий шаг.

Ранее мы рассказывали об ИИ-агенте от Anthropic. Теперь OpenAI представила агента Operator, который умеет решать задачи на различных веб-сайтах. Пользователь вводит задачу на сайте Operator, после чего модель ИИ выполняет ее в виртуальном окружении. За процессом можно следить и при необходимости вмешиваться — например, вводить данные для входа. По основным тестам Operator превосходит предыдущие лучшие решения. На данный момент Operator доступен только в США. Первые пользователи отмечают, что система недоработанная: Operator часто ошибается и работает относительно медленно.

ByteDance, компания-владелец TikTok, выложила в открытый доступ агента UI-TARS (названного в честь робота TARS из фильма «Интерстеллар»), который способен взаимодействовать с интерфейсами компьютерных программ.

Компания Perplexity, разрабатывающая поисковую систему на базе LLM, выпустила ассистента для Android-телефонов, способного искать информацию и выполнять задачи в мобильных приложениях.

DeepSeek R1 в открытом доступе

Китайская лаборатория DeepSeek выложила в открытый доступ модель Deepseek R1 вместе с описанием метода ее обучения спустя два месяца после релиза. На данный момент это первая открытая модель, сопоставимая по метрикам с Open o1 — самой передовой моделью, использующей рассуждения для решения математических, логических задач и задач программирования.

Deepseek R1 содержит 671 млрд параметров, из которых во время работы задействуется только 5,5%. Конкретные используемые параметры определяются входными данными. Модель обучена с помощью методов обучения с подкреплением. В техническом отчете авторы также продемонстрировали возможность обучения намного более компактных моделей на данных, сгенерированных R1.

Открытый доступ к R1 и документации по ее созданию уравнял шансы open-source-сообщества в конкуренции с технологическими гигантами вроде OpenAI и Google.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Прогулка по древней Москве: виртуальная реконструкция Белого города

Как реконструировать исторический облик города, который постоянно меняется? Гуляем по Белому городу Москвы XVI–XVIII веков вместе с проектом исторического и механико-математического факультетов МГУ.

Что такое Белый город?

Белым городом называют территорию современного центра Москвы, от Кремля и Китай-города с одной стороны до Бульварного кольца с другой. Проект фокусируется на его восточной части, сейчас это район улиц Маросейка, Покровка, Покровский бульвар и Лубянский проезд.

Как проходила реконструкция?

Сначала нужно было реконструировать рельеф местности. В этом помогли программные средства геоинформационных систем (ГИС): MAG, SAGA и QGIS. Они позволили создать цифровые модели рельефа, отражающие состояние местности на XVI–XVIII века.

Затем нужно было воссоздать застройку на разных этапах жизни города. Для этого команда проекта обращалась к историческим планам Москвы, данным археологических раскопок и другим источникам. В некоторых случаях удалось реконструировать не только утраченный общий вид построек, но и элементы их декора.

Основным программным средством создания моделей стал ArchiCAD. Натурные съёмки современного состояния проводились с помощью дрона, а в некоторых случаях — лазерного сканирования в комбинации с аэрофотосъёмкой.

Что получилось в итоге?

Результатом проекта стал инструмент, который предлагает новый способ взаимодействия с историей — виртуальный тур по Белому городу. За счёт возможности изучить источники этот инструмент может быть интересен специалистам и студентам, исследующим историю архитектуры. А иммерсивный формат взаимодействия с реконструкцией и реалистичный рендеринг отдельных объектов делают виртуальный тур по Белому городу доступным для любого человека, имеющего опыт игры в видеоигры.

Узнать о разных этапах работы над проектом подробнее и посмотреть на конкретные примеры реконструированных зданий можно, перейдя к полной версии статьи. А совершить виртуальную экскурсию по исторической Москве можно здесь.

Время чтения: 6,5 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Цифровой гербарий МГУ в цифрах

9 миллионов просмотров, 16 тысяч книг и 284 волонтера. Доктор биологических наук Алексей Серегин рассказывает о Цифровом гербарии МГУ в новом тексте своего блога. Кстати, недавно мы уже писали о Гербарии МГУ, изучая особенности гражданской науки.

🌿 1 347 746 образцов

Число образцов – это число записей в базе данных. Больше всего оцифрованных образцов происходит собственно из Гербария Московского университета (международный акроним MW) – 1 084 952. На втором месте – Гербарий Главного ботанического сада РАН (акроним MHA), где полная оцифровка фондов продолжается. Гербарный образец – это лист плотной бумаги примерно формата A3 с прикреплённым к нему растением (или частью крупного растения, или несколькими мелкими экземплярами) и сопроводительной текстовой информацией на этикетке.

👁️ 9 650 126 просмотров

Сюда включены только заходы пользователей в полные паспорта образцов. Это та зона портала, куда невозможен доступ поисковых роботов, поэтому точно известно, что с момента запуска портала осенью 2016 года в среднем набегает 5 623 просмотра в день (или 234 просмотра в час, или 3,9 просмотра в минуту).

🤝 1 062 143 ответов в «Помогаторе»

Платформа «Помогатор» позволяет волонтерам участвовать в оцифровке метаданных образцов Цифрового гербария МГУ. Это и игровой модуль, и полезный инструмент в повседневной гербарной работе. Здесь любой желающий может помочь с вводом простых данных, которые есть на сканах – оцифрованных изображениях гербарных образцов. Например, названия страны или области, даты сбора или коллектора. Модуль запущен в конце октября 2022 года. За два года участники отправили свыше миллиона ответов, т.е. в среднем по 1–1,5 тыс. ответов в день.

📚 16 437 книг

Это сканы из библиотеки «Флора и фауна», которая перекочевала в Цифровой гербарий МГУ после смерти ее автора А.Б. Шипунова. С ноября 2022 года она не обновлялась, но добавление новых источников скоро начнётся. 

🙋‍♂️ 284 помощника

Это число участников, которые, зарегистрировавшись в «Помогаторе», способствуют наполнению базы данных Цифрового гербария МГУ. Это и студенты, которым нужно отработать практикум по «Гербарному делу», и волонтёры, и сотрудники.

Еще больше о Цифрового гербарии МГУ можно узнать из версии текста на сайте. Там вы найдете, например, информацию о том, сколько геопривязок можно найти на сайте проекта и как они распределились по стране и миру.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Играем по-серьёзному: как Serious Games меняют подход к обучению

Идея геймификации образования восходит ещё к эпохе Ренессанса, однако совершенно новым подходом стали серьёзные игры. Их основная цель— решение конкретных задач из реальной жизни, а также обучение или развитие навыков, а не развлечение или веселье. Рассказываем об особенностях такого подхода к образованию и его эффективности.

Что за серьезные игры?

Внешне Serious Games напоминают классические: с соревновательностью, аналогичным игровым процессом и интерфейсом. Но при этом в них вшиты образовательные цели, которые как бы скрыты от пользователя. Кроме того, серьёзные игры отличаются научной обоснованностью: рецензируемый научный журнал The International Journal of Serious Games ежеквартально выпускает статьи, посвящённые теоретическим, экспериментальным и прикладным аспектам разработки, внедрения и оценки таких игр.

Серьёзные игры во многом эффективны потому, что их механика, нарратив и дизайн включают в себя конкретные задачи — обучать, вдохновлять и приводить к образовательным результатам. Кроме того, они позволяют моделировать ситуации, которые в реальной жизни требуют значительных ресурсов или времени.

Duolingo

Один из самых известных примеров таких игр — Duolingo. Чтобы мотивировать пользователей учить языки, приложение использует игровые механики: дерево навыков, очки опыта и виртуальную валюту.

Foldit

Foldit — игра-головоломка, которая предсказывает структуру белков. Это одна из самых сложных задач в биологии. Созданная Центром игровых наук и кафедрой биохимии Университета Вашингтона, игра привлекла внимание широкой публики благодаря своей инновационной концепции: исследователи анализируют полученные игроками лучшие решения и применяют их для изучения болезней, разработки новых лекарств и биологических технологий.

Evolution of Trust

Ещё один пример — The Evolution of Trust, созданная педагогом и гейм-дизайнером Ники Кейзом. Эта игра объясняет, как возникают и разрушаются доверительные отношения, а также почему это важно для общества и как мы можем «изменить правила игры» для улучшения взаимодействий. The Evolution of Trust моделирует простую ситуацию: два игрока принимают решения в рамках вариации дилеммы заключённого. Весь процесс прохождения занимает около 30 минут, что идеально подходит для образовательных целей или кратких тренингов.

Ещё больше примеров серьезных игр  в сферах экономики, менеджмента, культуры, политики и даже генетики, найдете в полной версии статьи. Из нее же можно узнать больше о преимуществах и недостатках этого метода обучения.

Время чтения: 17 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Думать или делать: исследуем глаголы в английской литературе

Что помогает нам лучше узнать персонажа – речь или действия? Что, если действия персонажа могут говорить даже больше, чем его слова и мысли, обычно находящиеся в центре повествования? Как выбор глаголов отражает индивидуальность героя? Рассказываем о недавнем исследовании глаголов в художественной литературе, которое дает ответы на эти (и не только) вопросы.

Кратко: что за исследование?

Недавно канадский профессор в области литературоведения и Digital Humanities Эндрю Пайпер решил изучить, чем заняты персонажи книг и как их действия помогают в создании цельного образа. Для этого он взял два датасета: CONLIT, состоящий из 2 754 текстов английской прозы (художественной и нехудожественной) в двенадцати разных жанрах, и HATHI1M, который содержит коллекцию из 1 671 370 случайно отобранных страниц английских текстов, опубликованных между 1800 и 2000 годами.

В качестве основного рабочего инструмента использовался инструмент BookNLP, который может находить упоминания персонажей, включая разные формы имени героев и связанные с ними местоимения.

Как обнаружилось, самые частые глаголы в характеристиках персонажей относятся к актам коммуникации, за ними следуют движение и познание. Причем в нехудожественных текстах больше когнитивных действий, а в художественных – физически воплощенных, телесных. Более того, тенденция к выражению личной агентности именно через тело (а не через сознание, как привычно считать) усиливается с течением времени. 

Узнать, как глаголы распределены по текстам разных жанров, как это исследование связано с Theory of Mind (теорией сознания) и понятием агентонсти, и каким еще выводам пришел Пайпер, можно из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Что такое датасет?

Одной из ключевых составляющих машинного обучения являются датасеты — наборы данных. «Системный Блокъ» рассказывает, какие датасеты используются для обучения моделей и где их найти.

Кратко: о чем статья?

Датасет (англ. dataset), или выборка, — это структурированный набор данных, который используется для обучения и тестирования моделей машинного обучения. С помощью датасетов модели «учатся» на примерах, чтобы потом применять полученные знания для решения реальных задач.

Датасет может состоять из данных разных типов (например, текстов, изображений, аудио- или видеоматериалов), а также разметки. Она опциональна и является дополнительной информацией для описания и классификации данных. Например, датасет ImageNet содержит 14 млн изображений, каждое сопровождается меткой класса (например, указана порода собаки или название растения на фото).

Хороший датасет — репрезентативный, то есть точный и полный, поэтому при его формировании важно учитывать разнообразие, количество и качество данных. Например, в случае изображений важны разные погодные условия и освещение, для любых данных нужно проверять их достоверность и соответствие поставленной задаче.

Для обучения моделей датасеты обычно делят на три части: тренировочную (train), валидационную (validation) и тестовую (test). На первой модель обучается, с помощью второй можно реализовать валидацию разных параметров обучения и настроек модели, а третью используют для тестирования финальной версии модели. Датасеты можно собирать и делить самостоятельно, а можно найти уже готовые для обучения наборы данных на Kaggle, HuggingFace или UCI Machine Learning Repository, а также в разных исследовательских проектах.

Подробнее о том, какие еще типы датасетов бывают, как модель определяет, кто выживет на «Титанике», и к каким еще источникам данных можно обратиться читайте в полной версии статьи.

Время чтения: 9 минут.

🤖 «Системный Блокъ» @sysblok

Читать полностью…

Системный Блокъ

Развитие, подборки и викторины: продолжаем подводить итоги года

Итоги 2024 для проекта мы уже подвели вчера, а сегодня рассказываем, как прошел этот год для телеграма «Системного Блока». 

Развитие

За этот год мы выросли с 6,5 до 10,5 тысяч подписчиков и выпустили 290 постов. В их числе – инфографики, подборки, новости, дайджесты, гайды и, конечно, анонсы наших статей и тестов. Спасибо, что читали, ставили реакции и репостили их в свои каналы.

Подборки

Мы продолжили рассказывать вам о самых интересных каналах и собрали их в тематические подборки. Если вдруг пропустили – вот они слева направо:

Данные и их визуализация
Научно-популярные каналы
Культурное наследие в цифре
Современное образование
ИИ и машинное обучение
Историки, культурологи и краеведы — в одной папке!

Викторины

В этом году мы не только рассказывали о том, как цифровые технологии помогают исследовать литературу, культуру и общество, но и предлагали вам поучаствовать в наших интерактивах. Например, догадаться какую песню изобразила нейросеть Kandinsky, изучить наш портал, посвященный Digital Humanities, и проверить свои знания по машинному обучению. Всего мы сделали для вас 14 уникальных интерактивов, которых нет ни на нашем сайте, ни в других соцсетях. Спасибо, что участвовали в опросах и оставляли комментарии! Дальше – больше (и чаще!)

Бонус!

Великие писатели регулярно становились героями наших материалов, а их тексты позволяли нам экспериментировать с разными цифровыми инструментами. В топ-3 по количеству упоминаний ожидаемо вошли Л. Н. Толстой, Ф. М. Достоевский и А. С. Пушкин. Но кто из них все-таки победил?

😎 Толстой – 34 упоминания

🪓 Достоевский – 22 упоминания

🌞 Пушкин – 14 упоминаний

В 2025 обязательно продолжим рассказывать вам об этих и других литераторах. А если вы хотите чаще видеть нашего тотемного писателя — Александра Блока — в кастомных реакциях, и поддержать наш канал, можете проголосовать за него по этой ссылке.

Лучший наш подарочек – это вы (и ваши голоса 😎)

🤖 «Системный Блокъ» @sysblok

Читать полностью…
Subscribe to a channel