«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join
На распутье цифровой гуманитаристики
Представители Digital Humanities проводят исследования и выигрывают гранты, хотя это направление все еще не имеет до конца сформированной методологии и научной базы. «Системный Блокъ» много пишет про исследования в области DH, но пора вспомнить, что это и кто такие цифровые гуманитарии.
Кратко: о чем статья?
Digital Humanities — междисциплинарное направление. Цифровые гуманитарии обладают навыками, которые ранее были доступны только программным инженерам. При этом они умеют работать с предметами изучения гуманитарных направлений — текстами, картинами, музыкой, культурой в целом.
В перспективе выделяют четыре основных сценария развития цифровой гуманитаристики: торжество Digital Humanities, радикальная традиционность, междисциплинарная цифровизация и так называемый наиболее реальный вариант. В условиях последней траектории DH-специалист — многопрофильный исследователь, который, кроме научной деятельности, занимается менеджментом и междисциплинарными проектами в IT-компаниях. Например, цифровой гуманитарий автоматизирует простые повторяющиеся задачи, такие как транскрибирование индексных карточек или создание системы тегов.
Более подробно о других вариантах развития Digital Humanities и о специалистах в этой области, читайте в полной версии статьи.
Время чтения: 11 минут.
🤖 «Системный Блокъ» @sysblok
Столетний пряник и космическая матрешка: 10 необычных экспонатов Госкаталога
Где можно найти и матрёшку с мордой собаки Стрелки, и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога музейного фонда России — цифрового архива экспонатов российских музеев и частных собраний. Его база данных уже содержит более 40 миллионов музейных предметов и регулярно пополняется.
🦌 Композиция из моржового клыка «В ожидании санрейса»
Скульптура изображает сцену жизни тундровых чукчей — ожидание санитарного рейса. Чтобы увидеть композицию вживую, нужно добраться до самого восточного населённого пункта России — села Уэлен Чукотского автономного округа.
🕊️ Платок с надписью «Молодёжь об’единяйся в борьбе за мир, против угрозы новой войны!»
Этот платок был создан в честь Третьего Всемирного фестиваля молодёжи и студентов, который проходил в 1951 году в Восточном Берлине. Слово «мир» на нём написано на двенадцати языках, а фраза из заголовка — на четырех: русском, немецком, английском и французском.
🎲 «Надежды исчезают по ходу игры»: настольная игра «Перестройка»
Сатирическая игра вышла в газете «Собеседник» в 1991 году. Вместо правил там такая информация: «В начале игры все получают надежды. Надежды (их роль могут выполнять разноцветные фантики) исчезают по ходу игры. В игре также участвует несколько конфет (карамелек, кусочков сахара, чёрных сухарей — в зависимости от того, что достанете)».
✍🏼 «До чорта уроков»: объяснительная записка школьника 1937 года
Школьник объясняет руководителю оркестра народных инструментов, почему не придёт на занятие: «так как у меня много (до чорта!) уроков». Но на этом не останавливается: приписывает в скобках «хорошая причина».
Посмотреть на столетний пряник в виде рыбы, композицию из моржового клыка «В ожидании санрейса» и «Абевегу русских суеверий» можно в полной версии статьи. Там же найдёте ещё несколько экспонатов и их краткую историю.
🤖 «Системный Блокъ» @sysblok
Память о репрессиях: Цифровая история Узбекистана в проекте Raqamli tarix
Узбекистан — солнечный, хлопковый, гостеприимный. Но в XX веке и тут проходили сталинские репрессии. Проект Raqamli tarix («Цифровая история») помогает сохранить память об этом периоде в истории страны. В одном месте собраны база данных о репрессированных, фотографии и видео, а также архивные материалы на трёх языках: узбекском, русском и английском.
Кратко: о чем статья?
В Узбекистане проводится масштабная работа по увековечению памяти соотечественников, незаконно репрессированных в годы сталинских репрессий в 1920–1950-е гг. Кроме физических мест памяти (музеев, памятников и мемориалов) существуют и проекты по сохранению историй жертв репрессий. Например, Raqamli tarix — «Цифровая история».
На платформе можно найти несколько разделов: от новостей до видеотеки с лекциями и подкастами. А для каждого человека, пострадавшего от репрессий, есть своя карточка с биографией, которую можно скачать.
Помимо Raqamli tarix изучать и сохранять наследие репрессированных в Узбекистане можно с помощью мобильного приложения Книги памяти Ташкента и трехязычного мультимедийного комплекса. Подробнее об этих возможностях и о платформе Raqamli tarix узнаете из полной версии статьи.
Время чтения: 7 минут.
🤖 «Системный Блокъ» @sysblok
Мир как набор стереотипов в глазах нейросети
Алгоритмы искусственного интеллекта не только генерируют изображения или тексты, но и воспроизводят общественные стереотипы. «Системный Блокъ» рассказывает, как и почему они это делают.
Кратко: о чем статья?
Причина предрассудков нейросетей — смещенные или искаженные данные, на которых они могут обучаться. Смещение происходит, когда в наборе данных одни элементы получают больший вес и/или лучше представлены, чем другие. Например, технология ИИ по оцениванию откликов на вакансии от Amazon присваивала меньшие баллы резюме со словом «женщина» и отсеивала кандидаток из учебных заведений для девушек. Этот случай называется смещением репрезентативности (Representation Bias): для обучения были представлены резюме преимущественно мужчин, в результате чего алгоритм решил, что мужчины предпочтительнее.
Предвзятость нейросетей грозит не только распространением искаженной информации и языка ненависти, но и появлением новых форм социальных стереотипов и дискриминации. Разработчики ИИ предлагают очевидное решение: тщательнее составлять базы данных для обучения. Тем не менее, мы не сможем полностью избавить нейросети от стереотипов, пока сами остаемся предвзятыми.
О других случаях предвзятости моделей и опасности, которой это грозит, читайте в полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
«Нас вообще все боятся»: Александра Архипова* о том, зачем фольклористы и социальные антропологи собирают слухи и считают репосты
От китайской медицины до американской конспирологии: «Системный Блокъ» поговорил с антропологом Александрой Архиповой и узнал, о чем могут рассказать лозунги митингующих и народные рецепты лечения Covid. А ещё — о сторонниках разных методов в исследованиях культуры, цифровых базах данных для фольклористов и причинах внесения в реестр иностранных агентов.
Кратко: о чем интервью?
Социальные антропологи, фольклористы и этнографы изучают, как люди воспринимают и как создают мир вокруг себя. Правда, пользуются разными методами: некоторые антропологи однозначно предпочитают количественные методы качественным, некоторые — наоборот. Александра Архипова старается их совмещать: например, как в исследовании анекдотов о Штирлице.
А ещё Александра уверена, что тот, кто умеет делать базу данных по сказкам и анекдотам, может и тексты плакатов на митингах анализировать, и слухи собирать. За первые полгода пандемии Covid-19 с помощью агрегатора текстов социальных сетей получилось собрать базу данных на два миллиона репостов и посмотреть, как распространялись слухи о болезни и лечении. Среди них есть очень старая история о том, что в вакцине содержатся тяжелые металлы, у которой было 500 тысяч репостов. Это — пример текста-реагента: ситуативного и отражающего плохо сформулированные страхи. Такие всегда возникают в ситуации социальной напряженности.
При этом слухи могут прийти к нам и из США, и из Китая, потому что сегодня они легко преодолевают национальные границы. Например, народная медицина у нас скорее китайская, а конспирологические теории — западные. Другое дело, что место таких теорий в российской жизни иное, чем в британской или в американской. В России их транслируют все социальные группы (в том числе политики). Плюс, конспирология всегда предлагает более удобное объяснение, чем какая-то наука, поэтому в некотором смысле конспирологи всегда выигрывают.
О том, как распространялся и распространяется нарратив о том, что на границах России обнаружили тайные лаборатории, и о том, как влияет на жизнь и работу статус иноагента, узнаете из полной версии интервью.
🤖 «Системный Блокъ» @sysblok
*признана в РФ иностранным агентом
Цифровые коллекции японского искусства
Как технологии открывают миру богатство культурного наследия? Японские гравюры, живопись и каллиграфию можно увидеть и изучать не только вживую, но и через интернет. Исследуем платформу Google Arts & Culture, цифровой ресурс Cultural Japan, базу данных японских гравюр на дереве Ukiyo-e Search и Центр исследования искусства Университета Рицумэйкан, которые позволяют соприкоснуться с оцифрованными произведениями японской культуры из любой точки мира.
🎌 Google Arts & Culture
Эта платформа объединяет более двух тысяч культурных учреждений из более чем восьмидесяти стран мира. При запросе «Japan» поисковая система Google Arts & Culture предлагает просмотреть 52 800 связанных с Японией экспонатов, 175 коллекций, 2 333 истории (онлайн-выставки) и 4 виртуальные галереи.
🏯 Cultural Japan
Cultural Japan включает в себя 133 базы данных и 1 718 202 элемента, доступных для поиска на английском и японском языках. Пользователи ресурса могут не только исследовать, но и создавать собственные виртуальные выставки: функция Self Museum позволяет выбирать произведения искусства и добавлять их в виртуальные галереи на сайте.
🎌 Japanese Woodblock Print Search
Эта база данных содержит изображения и метаданные по японским гравюрам из различных учреждений — всего более 213 000 гравюр из 24 коллекций по всему миру. Текстовый и графический поиск помогают исследователям находить новые копии гравюр, корректировать атрибуцию и идентифицировать гравюры.
🏯 The Art Research Center (ARC), Ritsumeikan University
В цифровых архивах Университета Рицумэйкан можно найти 80 баз данных, которые включают в себя изображения, тексты и метаданные, связанные с богатым культурным наследием Японии. Причем искать их можно не только по коллекции университета, но и по собраниям других учреждений и коллекционеров.
Узнать об истории этих проектов и посмотреть на интерфейс каждого можно на сайте.
🤖 «Системный Блокъ» @sysblok
Понять Льва Толстого: как векторно-семантические модели помогают литературоведам
Идиостиль — это авторский стиль писателя. И если на небольших стихах его изучать удобно, то вот на текстах Льва Толстого — очень непросто. Рассказываем, как филолог Борис Орехов использует векторно-семантические модели для анализа идиостиля Толстого.
Кратко: о чем статья?
Раньше полностью проанализировать корпус текстов Толстого — девяносто томов — было практически невозможно. Теперь такая перспектива появилась благодаря машинным методам. С помощью компьютерного моделирования контекстов в векторном пространстве можно понять, какие слова в корпусе текстов находятся ближе всего друг к другу. Говоря проще: определить, чем индивидуальный стиль писателя отличается от «обычного» русского языка.
В случае Толстого, например, обнаружилась разница между синонимичными «любовь» и «обожание». Оказалось, что глаголы «обожать» и «боготворить» в текстах писателя свидетельствуют о чувствах ложных и зыбких, а вот «любят» у классика по-настоящему.
Ещё одна интересная находка связана с полями: ближайшими соседями слова «поле» в текстах писателя оказались компоненты пейзажа («лес», «луг») и сельские термины, а батальная семантика поля боя встречалась реже.
Узнать больше об этом исследовании и подтвердить находки цитатами поможет полная версия статьи.
Время чтения: 6 минут.
🤖 «Системный Блокъ» @sysblok
Агрессивная сеть: кибербуллинг в цифрах
Кто чаще всего сталкивается с травлей в сети? Как часто жертвы кибербуллинга становятся агрессорами? В новом материале «Системного Блока» разбираемся с феноменом онлайн-агрессии среди детей, подростков и взрослых.
Кратко: о чем статья?
Понятие «буллинг» было впервые введено Дэном Олвеусом в 1993 году, а термин «кибербуллинг» канадский политик Билл Белси ввел четыре года спустя. Он предлагал понимать его как агрессивные действия, направленные на интернет-пользователя со стороны других пользователей различных социальных сетей.
Сегодня с кибербуллингом сталкиваются люди всех возрастов, но 56% — согласно исследованию «Постнауки» — составляют подростки. Более того, в 40% случаев жертвы травли в интернете вскоре сами становятся онлайн-агрессорами. При этом 25% чувствуют вину, а 26% понимают, что поступают неправильно.
Другое исследование, которое проводила компания Microsoft, показало, что от интернет-агрессии в социальных сетях страдали или страдают 50% опрошенных российских подростков. При этом каждый второй предпочитает отвечать агрессией на агрессию, а к родителям обращается только каждый пятый.
Подробнее о ситуации с кибербуллингом, о том, что о ней думаю шестиклассники и девятиклассники и о том, как защититься от агрессии в интернете, узнаете из полного текста статьи.
Время чтения: 4,5 минуты.
🤖 «Системный Блокъ» @sysblok
Кто какую часть произведения написал? Выясняем с помощью Stylo
Представьте, что у вас есть текст, написанный несколькими людьми. Как узнать, какие его части точно принадлежат тому или иному автору, если об этом нет никаких данных? Для этого в Stylo, библиотеке языка программирования R, существует функция rolling.classify. В новом гайде рассказываем, как она работает и чем может быть полезна в стилометрических исследованиях.
⚙️ Как это работает?
В основе работы rolling.classify лежит алгоритм, который обучается на корпусе текстов предполагаемых авторов. Затем он разбивает изначальный текст на части и определяет, кому какая принадлежит.
🔬 Эксперимент «Системного Блока»
Чтобы проверить функцию, мы составили единый текст из отрывков «Драмы на охоте» А. П. Чехова и «Жизни Арсеньева» И. А. Бунина и запустили rolling.classify (Важное замечание: у неё нет графического интерфейса, как у stylo, придется написать код вручную и скопировать пару команд из инструкции).
После запуска функции на выходе получается диаграмма, которая предлагает три варианта разбиения отрывков по авторам — от более вероятного к менее. В нашем случае она сразу показала достаточно точный результат, но, изменив несколько параметров, мы убедились, что иногда найти подходящие для текстов настройки с первого раза не так просто. Поэтому в реальности часто нужно совмещать количественный анализ с качественным. Например, обращаться к литературоведческим работам, в которых можно найти подтверждение найденным закономерностям.
Проследить за экспериментом от начала и до конца и узнать, как провести собственное стилометрическое исследование, можно благодаря туториалу на сайте.
Время чтения: 9 минут.
🤖 «Системный Блокъ» @sysblok
Тест: Перестаньте читать книги и начните их анализировать
Благодаря новому тесту «Системного Блока» узнаете, кто чаще говорит в пьесах Чехова, как выглядят графы комедии и трагедии и как гарантировано умереть в «Гамлете». В общем, какую информацию можно получить из корпусов художественных текстов с помощью дальнего чтения.
🤖 «Системный Блокъ» @sysblok
Карточный активизм. Как контр-картографирование помогает социальным меньшинствам
Может ли карта стать политическим инструментом? Как контр-картографирование создает альтернативную реальность? Узнаете из новой статьи «Системного Блока».
Кратко: о чем статья?
Главная идея контр-картографирования – отказ от восприятия карты как прямого отражения окружающей действительности. Сегодня геоданные наиболее активно используются именно корпорациями-гигантами и зачастую становятся средством воплощения желаемой реальности или навязывания каких-либо интересов. Контр-картографирование же открывает возможность для менее заметных групп населения (к примеру, социальных меньшинств) быть увиденными и услышанными.
Впервые этот термин использовала Нэнси Пелузо: она исследовала землевладения в лесах Индонезии с позиции их коренных жителей. Лесопромышленная компания воспринимала леса исключительно как ресурс, а контр-карты Пелузо стали альтернативным взглядом на территорию.
Среди контр-картографических инициатив есть и проекты, помогающие бездомным или малообеспеченным людям. На «альтернативных картах» Сан-Фарнциско и Ньюкасла отмечают дома, предназначенные под снос, а также места, в которых небезопасно устраиваться на ночлег.
О других проектах контр-картографов, а также о том, какие сервисы помогают создать собствтенные карты, узнаете из полного текста материала.
Время чтения: 3 минуты.
🤖 «Системный Блокъ» @sysblok
Религии Африки через данные: во что и как верит самый религиозный континент Земли
Конфессии Африки уникальны: здесь переход к христианству и исламу во многих сообществах произошёл всего за несколько десятилетий. С помощью собранных датасетов рассказываем об особенностях изменений в религиозной сфере и их последствиях для африканского континента и мира.
Кратко: о чем статья?
Переход от этнических религий к мировым во многих странах Африки произошел при жизни одного поколения. Такая скорость отразилась в синкретизме африканских верований: в них сосуществуют традиции мировых религий и этнические амулеты, суеверия, шаманы. Например, в Африке есть самостоятельная религия Христлам, а некоторые исследователи выделяют афрохристианство.
Доля религиозного населения превышает 80% во многих африканских странах, популярно установление государственных законов на основании Библии или Шариата, а службы некоторых «мегацерквей» собирают целые стадионы. Интенсивность религиозной конкуренции приводит к возникновению террористических и радикальных движений, конфронтации с государственными структурами.
Религиозная трансформация Африки обусловлена активной деятельностью европейских и североамериканских миссионерских обществ. Например, если к 1900 году доля христиан на Африканском континенте составляла 9%, то в 2015 году христианство стало крупнейшей религией региона. Религиозные организации Африки обеспечивают социальные лифты, которые создаются за счет внекультовой инфраструктуры (от образования до консалтинговых услуг).
Более подробно об особенностях мировых религий в Африке, трансформации верований континента в графиках, а также о том, почему этот регион называют «континентом надежды», читайте в полной версии статьи.
Время чтения: 4 минуты.
🤖 «Системный Блокъ» @sysblok
«Мужское» и «женское» в текстах Пушкина
Как в русской классике описывали женщин и мужчин? Вспоминаем материал «Системного Блока» о гендерном неравенстве в русской литературе и о том, как менялись герои и героини Пушкина от текста к тексту.
Кратко: о чем статья?
В первом исследовании текстов русских писателей XIX-XX века, «Системный Блокъ» изучил глаголы, свидетельства активности героя или героини, и прилагательные — прямые характеристики персонажа. Выяснилось, что женщины у Толстого, Пушкина и Достоевского обычно оказывались менее деятельными, более слабыми и сентиментальными. Мужчины при этом были решительны, важны, но практически ничего не чувствовали.
Правда, в случае Пушкина этот вывод позволили сделать «Евгений Онегин» и «Руслан и Людмила», а когда мы изучили «Повести покойного Ивана Петровича Белкина» и «Капитанскую дочку», всё оказалось куда сложнее.
Женщины в «Повестях Белкина» и «Капитанской дочке» чаще всего возражают, кричат и ожидают. У мужчин и женщин, исходя из анализа текстов Пушкина, одинаково активная позиция в произведениях, однако у мужчин образ складывается более рациональный, а у женщин – эмоциональный. Самый популярный мужской глагол — «думать». А ещё у мужчин часто встречается глагол «дать», а у женщин – «принять».
Подробнее о распределении действий, чувств и характеристик можно узнать из нашей инфографики или из полной версии статьи.
Время чтения: 6,5 минут.
🤖 «Системный Блокъ» @sysblok
Подборка каналов о данных и их визуализации от издания «Системный Блокъ»
Данные — это ткань цифрового мира, а визуализация данных — его язык. Превращение миллионов строк и тысяч колонок таблиц в понятные графики и диаграммы — большая наука, в которой технологии граничат с искусством. Сделали для вас подборку каналов о данных и их визуализации.
— @rationalnumbers — Рациональные числа
Световое загрязнение и неравенство в мире, самые популярные топонимы и статистика по ДТП в России, обнуления политических лидеров, частота использования букв алфавита в русском языке — в канале можно найти исследования и примеры интересных визуализаций данных. Материалы сгруппированы тематически, охватывают все сферы жизни на Земле и даже выходят на орбиту 🛰
— @nastengraph — Настенька и графики
Настя настолько любит инфографику, что замечает барчарты даже в рядом стоящих скалах ⛰ Здесь вы найдете советы по BI-разработке, дашборды, интересные графики и лайфхаки визуализации данных. Профессионалы могут следить за новостями из мира датавиза, новички — вдохновляться и осваивать современные инструменты.
— @chartomojka — Чартомойка
Как и следует из названия, здесь происходит что-то вроде «бизнес-линча» над визуализациями 🪓 Автор разбирает конкретные кейсы визуализации данных, анализирует ошибки и сильные стороны, даёт конкретные советы не только по матчасти, но и организации рабочего времени аналитика. Если вы только начали свой путь в датавизе и дата-сторителлинге, можно использовать канал как учебное пособие. Канал ведет автор книги «Графики, которые убеждают всех».
— @data_csv — data.csv
Канал о журналистике данных и дата-сторителлинге, который ведут аналитик Алексей Смагин и редактор дата-отдела независимого медиа Алеся Мароховская. Здесь можно найти интересные и впечатляющие дата-журналистские работы, красивую визуализацию данных и критические разборы действительно ужасных графиков 🤦 Выбор тем, как и предполагает жанр канала, авторский, а вкусу авторов блога можно доверять.
— @data_publication — Дата-сторителлинг
Эксперт по анализу и визуализации данных Андрей Дорожный рассказывает в канале о том, как работает дата-сторителлинг даже там, где вообще нет графиков. Увлекательно разбирает удачные нарративы, показывает, как устроена манипуляция данными (например, как англичане занижали 🤏 рост Наполеона в газетах), рассказывает об инструментах работы с данными, которые можно применять без программирования.
— @tochno_st — Если быть точным
Команда собирает данные о социальных проблемах в России и делится своими исследованиями и датасетами. Миграционный кризис, статистика по абортам, данные по онкологии, исследования преступности и экологических проблем — «Если быть точным» показывает, как много об общественных процессах могут рассказать данные, и даёт пример их профессиональной обработки и визуализации.
— @designing_numbers — Designing Numbers
Канал ведет Надя Андрианова — победительница Всероссийской премии по визуализации данных и дата-арту Moscow Datavis Awards и призерка международных премий Malofiej и Information is Beautiful Awards. В своем канале она не только любуется оригинальными решениями, но и рассказывает о том, как устроен дата-арт. Тут много референсов для тех, кто работает с данными, и вдохновения — для тех, кто создает цифровое искусство 👩🎨
— @awfulcharts — Отвратительные графики
Индекс Деда Мороза, продажи автобусов по регионам, обращение детей с деньгами — на слух трудно понять, что объединяет эти визуализации данных, но одного взгляда на них достаточно, чтобы убедиться: все они отвратительные 🤢 Этот канал — сборник вредных советов для тех, кто начинает работать с визуализацией, и умора для профессионалов.
— @sysblok — Системный Блокъ
Анализ и визуализация данных в культурных и общественных сюжетах. О чём писали в дневниках 1917 года? На какие «запрещенные» произведения вырос спрос последние годы? Сколько камер приходится на квадратный километр в Москве? Как выросло потребление алкоголя за последние 5 лет? «Системный Блокъ» станет вашим Вергилием в 9 кругах Big Data
Что говорит о дневниках 1917 года анализ данных?
В прошлом году «Системный Блокъ» проанализировал дневники очевидцев, которые собрал проект «1917. Свободная история», и выяснил, о чем в революцию писали чаще всего. Людей ожидаемо волновали восстания, Первая мировая война, броневики, голод, бедность… и в это же время Русские сезоны, последняя выставка Бубнового валета и «Смутное» Кандинского.
Кратко: о чем статья?
Чтобы разобраться в мыслях современников 1917 года, необходимо учитывать их уровень жизни и образования, социальный статус. Проанализировав их, мы выяснили, что в основном авторы дневников — люди с отличным образованием, достигшие определенного успеха в своей сфере. Поэтому интерпретации, которые можно получить на основе их текстов, отражают мысли не всего общества в тот момент, а скорее его верхнего слоя.
Среди тем, которые волновали этих людей, ожидаемо оказались революция и другие политические события. Но встречались и другие записи: о Первой мировой войне, об искусстве и об экзистенциальных вопросах.
Ключевые слова, позволившие выявить эти темы, и самые активные авторы дневников — в нашей инфографике. А подробности о том, как проводилось это исследование, — в полной версии статьи.
Время чтения: 13 минут.
🤖 «Системный Блокъ» @sysblok
Как получить литературную премию с помощью ChatGPT
Престижная литературная премия Японии закончилась скандалом: награду получила Риэ Кудан, написавшая 5% текста с помощью ChatGPT. «Системный Блокъ» рассказывает, может ли искусственный интеллект заменить писателей.
Кратко: о чем статья?
Риэ Кудан дебютировала в литературе недавно, но за три года карьеры успела стать лауреатом трех премий для начинающих авторов. В декабре 2023 года она получила четвертую литературную премию за свой новый роман «Токийская башня сочувствия», в котором есть фрагменты, созданные ChatGPT.
Писательница решила использовать ИИ для написания книги из-за ее сюжета: действие романа разворачивается в ближайшем будущем, существует здесь и своя нейросеть, к которой часто обращаются главные герои. Риэ Кудан хотела противопоставить искусственные слова ИИ словам, которые используют люди, и предложила читателям разымышление о сущности языка и его трансформациях в современную эпоху.
Более подробно о нашумевшем романе и об осмыслении в нём философских и лингвистических последствий применения нейросетей, читайте в полной версии статьи.
Время чтения: 6 минут
P.S. А ещё у нас есть инструкция, как создавать художественные произведения при помощи ChatGPT и не облажаться, которую мы сделали вместе с главредом издательства «Индивидуум».
🤖 «Системный Блокъ» @sysblok
Что такое K Nearest Neighbors?
Как компьютер сравнивает объекты для решения задач классификации и регрессии, рассказываем в материале «Системного Блока».
Кратко: о чем статья?
Идея, которая лежит в основе метода KNN, — если объекты похожи по одним характеристикам, то будут похожи и по другим. Этот алгоритм используется, например, в системах рекомендаций.
Есть два типа задач, которые можно решить с помощью K Nearest Neighbors — классификации и регрессии. Например, определить породу собаки по набору характеристик — задача классификации. Предсказать стоимость квартиры по её описанию — регрессии.
В обеих задачах выделяют объект — то, по чему делается предсказание, и целевую переменную — то, что надо предсказать. Если объекты «похожи», то их целевые переменные принимают те же (в случае классификации) или близкие (в случае регрессии) значения.
Предсказание целевой переменной делается на основе набора KNN с учетом рассчитанных расстояний между объектом и всеми объектами выборки. Само предсказание вычисляется по-разному в зависимости от задачи: это может быть голосование или усреднение. В случае породы собаки голосование работает так: когда есть 5 хаски и 2 маламута (K в этом случае равно 7), то предсказанием будет порода хаски.
Более подробно о предсказании целевой переменной, а также о сложностях, возникающих при применении метода К ближайших соседей, читайте в полной версии статьи.
Время чтения: 6 минут.
🤖 «Системный Блокъ» @sysblok
Новый, мертвый, хороший: визуализация текстов Гражданской Обороны
16 лет назад умер Егор Летов — икона русского панк-рока, живой мёртвый классик, актуальный сегодня и всегда. Ведь мы по-прежнему лёд под ногами майора, вокруг нас по-прежнему русское поле экспериментов, а всё летит туда, куда оно летело ещё при жизни Летова... Сегодня отличный день, чтобы переслушать «Мою оборону» и перечитать наше исследование текстов Летова.
💔 Я и мы
Мы собрали около 200 текстов Гражданской Обороны и еще одного проекта до 1997 года, автором которых был Егор Летов. Первое, что мы увидели — как из них постепенно исчезает я, уступая место местоимению мы.
❤️🩹 Здорово и вечно Хорошо и плохо
Язык Летова вполне разнообразен: слова, встретившиеся во всем корпусе только один раз составляют две трети всего словаря. При этом темы, конечно, повторяются из года в год и из альбома в альбом. Ключевая для творчества Летова — тема смерти. «Положительные» слова вроде хороший, смех, праздник, радость, веселый встречаются тоже, но на них всегда важно смотреть в контексте: у Летова «хороший царь» означает ровно противоположное, а «веселый сок» — это кровь.
Узнать о том, как менялась лексика в текстах Летова с 1985 до 1997 и какие глаголы, прилагательные и существительные были особенно характерны для альбомов разных периодов можно из полной версии статьи.
Время чтения: 7 минут.
🤖 «Системный Блокъ» @sysblok
Сегодня в колонии ИК-3 в Харпе погиб Алексей Навальный. Он умер в ШИЗО, куда его поместили в 27-й раз за последние 1,5 года. ШИЗО — это штрафной изолятор, место с тяжелыми условиями содержания, холодом и минимумом пищи. Навальный попадал туда за то, что «не держал руки за спиной», «регулярно расстегивал верхнюю пуговицу робы», «отказался представиться по форме» и за другие «провинности». Иногда между заключениями в изоляторе проходило меньше суток. По мнению представителя СПЧ Евы Меркачевой к смерти политика могло привести именно постоянное заключение в ШИЗО.
С августа 2022 Алексей Навальный провел в ШИЗО каждый второй день своего заключения. Несмотря на тяжелые условия, он до последних дней находил место иронии и оптимизму в своих посланиях из-за решетки. Мы едва ли найдем их сегодня. Мы соболезнуем семье, близким и соратникам политика.
🤖 «Системный Блокъ» @sysblok
Цвет антиутопии зеленый: цифровая рецензия на роман «Радио Мартын»
Гуманитарии осваивают цифровой мир и смотрят на литературные произведения через цифровую оптику. Это позволяет увидеть в толще текста неочевидные стилевые особенности текста. Мы проанализировали книгу «Радио Мартын» Филиппа Дзядко с помощью языка программирования R и отразили в цифрах уникальность авторского стиля писателя. Спойлер: в этом посте спойлеров нет, а вот в полной статье — очень даже.
Кратко: о чем статья?
Стиль романа – отрывистая, сухая речь с частыми повторениями одних и тех же словосочетаний. Чаще всего здесь встречаются предложения всего из трех слов, но вообще их длина колеблется от одного слова до шести.
Что же касается самих слов, самое употребительное прилагательное – другой – выводит на первый план инаковость главного героя антиутопии. Ещё в романе часто встречаются цвета, но только три — черный, белый и зеленый. Анализ словосочетаний, в которых они обычно употребляются, показал, что черный закономерно ассоциируется с чем-то тревожным и страшным, а белый — с приятными воспоминаниями о любви и домашнем уюте.
Если не боитесь спойлеров и хотите узнать, какое облако слов окружает зеленый и что происходит в предложении длиной в целую главу, переходите к полной версии материала.
Время чтения: 7 минут.
🤖 «Системный Блокъ» @sysblok
👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️
«Закатить глаза» или «поднять бокал»? Пройдите тест и узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
А если вы ещё думаете, переходить ли по ссылке, спойлер: в одном из вопросов нужно выбрать стихотворение про кота 😼
🤖 «Системный Блокъ» @sysblok
Как автоматически расшифровать аудио: пошаговая инструкция для Whisper
Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется все больше сервисов, которые умеют это делать автоматически. Рассказываем, как это сделать с помощью модели Whisper от OpenAI, и смотрим, насколько хорошо она справляется с русскоязычными записями.
👞 Шаг 0. Готовимся к работе и запуску Google Colab
Чтобы превратить аудио в текст с помощью Whisper, мы используем Python, потому что своего официального интерфейса у модели нет. Проще всего это сделать в Google Colab. Когда вы завели Colab-тетрадку, нужно настроить её так, чтобы она не «засыпала».
👟 Шаг 1. Загружаем аудио
Здесь мы напишем о самом простом, но и самом долгом способе загрузить файл. Его нужно просто выбрать с компьютера при помощи готовой функции из библиотеки files и вставить код из нашей инструкции.
👡Шаг 2. Делаем из аудио текст
Когда файл загружен, можно запустить программу, которая установит Whisper, применит его и запишет результат расшифровки в txt-файл. После этого останется открыть получившийся текст и поправить то, с чем машина не справилась.
🛼 Шаг 3. Метод Кондо: чистим текст
К сожалению, реплики собеседников придется разделять вручную, так как Whisper их не различает. А ещё кое-что придется переписать, потому что некоторые слова Whisper распознает неправильно (например, нам он предложил миросети вместо нейросетей). А вот знаки препинания Whisper расставляет неплохо, но иногда своеобразно. Например, придется разделить длинную фразу на пару предложений покороче или добавить тире. Наконец, названиям придётся добавить кавычки, но… это всё равно займет намного меньше времени, чем расшифровка вручную.
Скопировать необходимые коды и найти ещё два способа загрузки аудио (более сложных, зато более быстрых) можно в статье на сайте.
🤖 «Системный Блокъ» @sysblok
Что влияет на продовольственную безопасность?
«Системный Блокъ» подготовил инфографику о связи голода с географией, экономикой, погодными бедствиями и вооружёнными конфликтами.
О том, как число людей, страдающих от нехватки продовольствия, выросло за последние годы, из-за чего случается продовольственный кризис и насколько мир зависит от экспорта зерна из России и Украины, узнаете из наших карточек. А ещё больше информации о продовольственной безопасности найдете в этом посте.
🤖 «Системный Блокъ» @sysblok
О дивный «Визуальный мир»
При помощи записи движения глаз учёные изучают, как мозг человека понимает предложения и справляется с лингвистической неоднозначностью. Продолжаем серию материалов про айтрекинг и рассказываем об одном из направлений нейролингвистических исследований: экспериментальном методе «Визуальный мир».
Кратко: о чем статья?
Первое исследование в парадигме «Визуальный мир» было представлено в 1994 году в Нью-Йорке, но сама история этого айтрекинг-метода началась гораздо раньше. В 1974 году американский лингвист Роджер Купер выяснил, что в большинстве случаев взгляд человека останавливается на названном объекте ещё до того, как слово полностью произнесено.
Во время эксперимента по методике «Визуальный мир» испытуемые прослушивают устные инструкции и по-разному взаимодействуют с некоторыми предметами: смотрят на них, двигают, дотрагиваются. Среди предметов обязательно есть объект-мишень, который используется в устной инструкции, и объект-конкурент, название которого похоже на название мишени по звучанию или значению (например, candle и candy). Ещё есть отвлекающие объекты-дистракторы. Запись движений глаз в «Визуальном мире» позволяет отследить обработку предложения во время его звучания.
Какие исследовательские проблемы решают с помощью «Визуального мира» и как с ним экспериментируют на русском языке — читайте в полной версии статьи.
Время чтения: 4 минуты.
🤖 «Системный Блокъ» @sysblok
«Нам надоели префиксы и инфиксы, что мы можем для людей сделать?»: Ольга Драгой о настоящем и будущем нейролингвистических исследований
Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. А еще нейролингвисты работают прямо в операционных, помогая хирургам сохранить способности пациента (от речи до игры на гитаре) во время операций на мозге.
О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой — директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.
🎓 От университета до Мегагранта
Когда Лаборатория нейролингвистики НИУ ВШЭ только появилась, в ней занимались клинической лингвистикой, афазиологией, но с большим налётом современной экспериментальной науки. А уже через год лаборатория выросла от университетской до международной, получила большие гранты, и возможности значительно расширились. Появились проекты в областях нейрохирургии и картирования речи.
⛰️ Об экспедиции в адыгейский аул
Не главная, но важная часть исследований лаборатории — экспедиции. Например, в Адыгее сотрудники лаборатории сделали первый эксперимент с видеоокулографом, изучали чтение на адыгейском полисинтетическом языке и сравнивали с русским, смотрели, есть ли у участников-билингвов особые техники чтения. Спойлер: есть, билингвы «приземляются» глазами не в центр слова, а ближе к началу, и делают это и в русском, и в адыгейском языке.
🧠 О будущем нейролингвистики в медицине
Есть надежда, что с помощью машинного обучения можно будет по записанной речи определять психические патологии: например, депрессию или расстройства шизофренического спектра. А из идей, которые предстоит реализовать в более далекой перспективе, — синтез речи по нейрональной активности. Если пациент, например, парализован, периферически он не может передать сигнал из моторной коры на органы артикуляции. Нейролингвистам нужно будет поймать этот сигнал и перевести его в акустическую волну, оречевить его. То есть пациент заговорит своей моторной корой, не подключая щёки, губы, язык.
О других целях и проектах лаборатории, об интересе программистов и специалистов по машинному обучению к нейролингвистике, а также о стандартизированных тестах, приложениях для Android и внедрении ИИ читайте в полной версии интервью.
🤖 «Системный Блокъ» @sysblok
Коллегия выборщиков Ирана: кто и как туда попадает
Иранский совет экспертов — избирательный орган, состоящий из духовенства. Эксперт института классического Востока и античности НИУ ВШЭ Илья Васькин проанализировал данные о членах Совета экспертов и обнаружил, какие изменения происходили в политизированной части иранского духовенства с 1983 года.
Кратко: о чем статья?
Совет экспертов ирана состоит из духовенства, исповедующего ислам шиитского толка, государственную религию. Будущие представители этого духовенства обязательно проходят социализацию через семинарию, шиитское духовенство иерархично, для него важны религиозные организации. Духовенство сыграло большую роль в Исламской революции в 1979 году.
Задача Совета экспертов — избрание Верховного руководителя Ирана и контроль за его деятельностью. Члены СЭ, мужчины, в основном немолодые политики, обучались в семинариях, у некоторых из них есть светское образование в области права, философии или теологии.
Иранское духовенство в Совете экспертов устойчиво и не сильно менялось с годами. Значительную роль при наборе в СЭ играют связи и взгляды.
О других отличительных чертах шиитского духовенства, а также более подробный анализ Совета экспертов Ирана, читайте в полной версии статьи.
Время чтения: 15 минут.
🤖 «Системный Блокъ» @sysblok
Тест: зима бёрдвотчеру не помеха! Определите птицу по фотографии
Наблюдать за птицами можно даже зимой: в новом тесте предлагаем вам отличить галку от грача, вспомнить, как выглядит иволга, и узнать пару необычных фактов о голосовании за птицу века (что? да!)
Кстати, о сервисах, которые помогают изучать природу и заниматься бёрдвотчингом мы рассказывали здесь.
🤖 «Системный Блокъ» @sysblok
«Долой копирайт!»: история и философия open source
Всегда ли контент, программа или информация кому-то принадлежат? Многие компьютерные разработчики ещё с 1980-х поддерживают идеи свободного программного обеспечения, или open source. «Системный Блокъ» изучил историю этого движения и разобрался, как его философия влияет на наше общество.
Кратко: о чем статья?
Один из базовых принципов open source гласит, что пользователь может не только свободно скачивать программу, но также изменять и дорабатывать её.
Самый известный проект в истории open source — это операционная система Linux, разработанная в начале 1990-х годов. Сегодня это одна из самых популярных операционных систем, которая имеет множество разновидностей, дистрибутивов. Почти каждый дистрибутив Linux имеет свою эстетическую или функциональную особенность. Например, Elementary по дизайну очень напоминает MacOS, а приватный дистрибутив TAILS Эдвард Сноуден использовал для передачи журналистам секретных сведений.
Другой пример — мессенджер Telegram. Серверная часть Telegram защищается лицензией с закрытым исходным кодом, но клиенты распространяются под под лицензией GNU GPL (GNU General Public License), которая обеспечивает пользователям четыре базовые свободы: запуск программы с любой целью, изучение её функционала, распространение и улучшение программы.
Узнать о других известных проектах, об «отце-основателе» движения open source и о том, как эта философия меняет мировое законодательство, узнаете из полного текста статьи.
Время чтения: 16,5 минут.
🤖 «Системный Блокъ» @sysblok
От книжного рынка до камер в Москве: подборка инфографик «Системного Блока»
Наш дата-отдел регулярно исследует открытые данные и рассказывает о процессах в обществе и культуре России и мира с помощью инфографики. В этом посте собрали материалы прошлых лет о кино, песнях и метро России.
📸 Камеры в Москве
Москва входит в топ-30 городов по покрытию камерами: в городе как минимум 193 000 камер. Самая большая плотность покрытия — в Центральном округе, там на квадратный километр приходится 198 камер. Больше информации — в нашем посте.
🚇 Метро в России
По количеству открытых станций метро в России тоже лидирует Москва: за 12 лет в стране построили меньше станций метро, чем в одной Москве в 2021 году. Например, в Санкт-Петербурге станцию Театральную не могут открыть с 2008 года. О текущей ситуации и перспективах метро в других городах можно узнать здесь.
📚 Книжный рынок
Политика России в 2022 году сильно сказалась на книжном рынке. Среди последствий: отсутствие полиграфического оборудования, интерес к «запрещенным» произведениям и изменения в топе самых издаваемых авторов. Подробнее — в тексте поста.
🎬 Кино по заказу Минкульта
С 2014 года Министерство культуры публикует приоритетные для кинопроизводства темы. Среди них — популяризация героизма и неоколониальная политика стран англосаксонского мира. Правда, большинство приоритетных фильмов не окупается в прокате. Узнать больше об этой статистике можно тут.
🎤 О чем поет Родина
В 2016 году появился официальный «каталог патриотической музыки». Оказалось, что каждое третье произведение из 8 тысяч позиций каталога посвящено войне. Прежде всего — Великой отечественной. О других войнах и темах в песнях каталога, можно узнать из инфографики и этого поста.
🍾 Кому на Руси пить хорошо
Ещё одна важная и неочевидная статистика о России — потребление алкоголя в стране. Рост потребления алкоголя с 2018 по 2022 год мы отобразили на карточке, а о производстве рассказали здесь.
🤖 «Системный Блокъ» @sysblok
Как устроена оцифровка дневников: Михаил Мельниченко о проекте «Прожито» и его перезапуске
Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.
Кратко: о чем интервью?
За несколько лет работы проекта «Прожито», волонтеры расшифровали и разметили 640 тысяч дневниковых записей с середины XVIII века и почти по наши дни. Но для некоторых документов визуальная и материальная составляющая важны не меньше, чем текст. Например, Ольга Берггольц прибивала дневник ко дну табуретки, чтобы спрятать: в одной из тетрадей есть дырка посередине. А дневники инженера Эдуарда Яновича — настоящий музей советской повседневности с таблицами состояний человека и фантиками из-под конфет. Чтобы сохранить и это, началась разработка цифрового архива.
Ещё один важный этап в жизни проекта — переход в Европейский университет в Санкт-Петербурге. Он позволил сконцентрироваться на исследовательской деятельности и развиваться в новых направлениях. Теперь «Прожито» издаёт книги (например, о том, как вели свои дневники эвакуировавшиеся из осаждённого города ленинградцы) и создает демократический архив, в котором есть документы людей, не оставивших заметного следа в культуре.
Документы проекта используются по-разному. В рамках совместной образовательной программы ЕУСПб и Яндекса ПАНДАН, например, была создана языковая модель, которая пишет подростковые дневники. А некоторые люди благодаря проекту находят своих родственников и через них даже воссоединяются с другой ветвью семьи.
Чтобы узнать больше о дневниках, о волонтерах, которые с ними работают, и о том, как внутрення структура проекта пришла от «все занимаются всем» к делению на департаменты, переходите к полной версии интервью.
🤖 «Системный Блокъ» @sysblok