sysblok | Unsorted

Telegram-канал sysblok - Системный Блокъ

10752

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join

Subscribe to a channel

Системный Блокъ

Тест «Художник или нейросеть»: отличите настоящую картину от сгенерированной

Кибер-арт постоянно противопоставляют классической живописи, но между ними намного больше общего, чем нам кажется. Сможете ли вы отличить Босха от нейроБосха? Пройдите тест и узнайте, насколько хорошо вы распознаете картины, созданные алгоритмом.

Читать полностью…

Системный Блокъ

Сталин, чучхе, Ким Ир Сен: о чём говорят заголовки северокорейской прессы

Северная Корея имеет совершенно заслуженную репутацию закрытого общества. Интернета в КНДР практически нет, за прослушивание иностранного радио грозит уголовное наказание, а подавляющему большинству граждан государство запрещает выезд за рубеж. Пресса остаётся одним из немногих доступных источников о положении дел в стране. Специалист по Северной Корее, ведущий научный сотрудник университета Кунмин (г. Сеул) Фёдор Тертицкий исследовал заголовки главной партийной газеты КНДР и обнаружил, как в них отражались идеологические изменения и внешнеполитические приоритеты страны.

Кратко: о чем
статья?

Основным материалом для этого исследования послужил список всех заголовков (с 1951 по 1993) главной газеты КНДР «Нодон синмун». Сама газета была основана в 1946 году как полный аналог советской «Правды», но в качестве пропагандисткой оставила свой прообраз далеко позади.

Поскольку Северная Корея была создана по образцу сталинского СССР, а многие государственные институты КНДР были скопированы из Советского Союза, в заголовках «Нодон синмун» регулярно появлялся и сам Сталин. Правда, только при своей жизни: после XX съезда КПСС в 1956-м году упоминания о нем сошли на нет. А вот слово «Вождь» никуда не исчезло, количество его упоминаний — наоборот — увеличилось вместе с количеством упоминаний Ким Ир Сена с 1967 года. Отчасти это связано с тем, что в начале мая 1967 года в КНДР в атмосфере глубокой тайны состоялся XV пленум IV созыва ЦК Трудовой партии Кореи, который учредил в стране «систему единомыслия».

Ещё один аспект северокорейской реальности, свет на который проливает «Нодон синмун», — это внешняя политика страны. Например, на графике упоминаний СССР хорошо видно «холодное двадцатилетие» в советско-северокорейских отношениях, начавшееся в 1961 году и закончившееся в самом конце брежневской эпохи.

О том, как в заголовках отразилось агрессивное противостояние между Пекином и Пхеньяном, как в газете говорили о социализме и о коммунизме (спойлер: о социализме — гораздо чаще) и что в «Нодон синмун» писали об официальной идеологии «чучхе» и Ким Чен Ире, узнаете из графиков и их анализа в полной версии статьи.

Время чтения: 17,5 минут.

Читать полностью…

Системный Блокъ

Telegram-спектакль «Невидимый Басмач»: как чат-бот может продлить жизнь театру

Как воссоздать театральный опыт в Telegram? Поставить спектакль — затратное дело: долгая подготовка, репетиции, декорации, реквизит, потом нужно собрать труппу и публику в одном месте и в одно время. Можно ли преодолеть ограничения и создать спектакль, который всегда доступен, и как в этом могут помочь цифровые методы? Рассказывают постановщицы Telegram-спектакля.

Кратко: о чем статья?

«Невидимый Басмач» — это (пост)документальный спектакль-прогулка по учебному корпусу Высшей школы экономики в Москве, который поставили его студентки и студенты в 2022–2023 учебном году. Спектакль рассказывает о жизни корпуса, раскрывая детали университетского быта, которые остаются за пределами аудиторий.

В основу сценария легли рассказы студентов Старой Басманной и дословно воспроизведённые монологи реальных людей — вербатимы. Также в спектакле были использованы фотографии и звуки, записанные в корпусе и непосредственно поблизости. 

Чтобы спектакль состоялся снова, достаточно сохранить маршрут-нарратив и в нужных местах включить записи голосов актёров. С этим прекрасно справляется бот-проводник, который присылает инструкции по переходу по корпусу, предлагает прослушать вербатимы, изучить дополнительные материалы и поисследовать пространство самостоятельно, каждый раз ожидая ответа зрителя, чтобы продолжить рассказ. И хотя в живом спектакле было много интерактивных моментов, некоторые из них нашли воплощение в игровых механиках бота. Правда, в телеграм-версию спектакля не вошли танцевальный перформанс внутри умного гардероба.

Узнать больше о спектакле и боте, а заодно собрать бинго типичной лекции можно благодаря полной версии материала.

Время чтения: 11,5 минут.

Читать полностью…

Системный Блокъ

Сегодня день памяти жертв политических репрессий. В этот день предлагаем вам перечитать наше интервью с человеком, который потратил несколько десятилетий на цифровое увековечивание памяти о репрессиях, — Алексеем Бабием.

В интервью «Системному Блоку» Алексей Бабий рассказал, что может дать интернет гражданским активистам, как опыт работы на советских ЭВМ 70-х годов помогает ему обеспечивать сохранность данных о репрессиях и почему современным «облачным НКО» не страшна ликвидация.

Читать полностью…

Системный Блокъ

Подборка лингвистических каналов от издания «Системный Блокъ»

Погружение культуры в цифру началось с языка. И сегодня, в эпоху ChatGPT и нейропоэзии, пространство текстов остается главным двигателем цифровой революции. Подготовили для вас подборку каналов о словах и языке.

— @UznalSlovoУзнал новое слово
Знаете, что такое конечка, мелтсы или шеверюшка? Лингвист и автор словарей Борис Иомдин ежедневно рассказывает об одном слове русского языка, которое он узнал в этот день, а читатели голосуют, известно ли им такое слово, и обсуждают его значения. Затем автор публикует «облака» новых слов со статистикой их известности.

— @waurdaО словах и не только
Что чаще делают от зависти — краснеют, чернеют или зеленеют? Как называли антиваксеров 100 лет назад? Как завоевать Константинополь с помощью гугл-транслейта? Лингвист и популяризатор науки Александр Пиперски предлагает лингвистические задачки, делится этимологическими изысканиями, социокультурными маргиналиями и наблюдениями о фонетических феноменах.

— @portalgramotaruГрамота.ру
Ставить ли запятую во фразе «женись на ком хочешь»? Откуда взялось выражение «как пить дать»? Помимо привычных разборов сложных случаев правописания и лингвистических казусов, в канале «Грамоты.ру» есть подборки свежих исследований специалистов по языкам, находки в классике русской поэзии и рассказы о современных технологиях в лингвистике.

— @TDvTGТотальный диктант
Здесь, как ни странно, никто не предлагает писать под диктовку. И канал не ограничивается информацией только об акции, которая проходит раз в год. Здесь можно разобрать сложные случаи правописания, больше узнать о современной литературе и авторах текстов Тотального диктанта, а еще посмотреть полезные лекции. В общем, подготовиться и узнать много нового!

— @LingvoedЛингвоед
Почему разным языкам мира так сложно даются нейтральные названия для половых органов? Как Набоков готовил яйца? Лингвист и специалист по интернет-коммуникации Валерий Шульгинов загадывает лингвистические загадки, даёт этимологические выкладки, делится фрагментами своих лекций и статей, приглашает на встречи, посвящённые в том числе IT в лингвистике.

— @greatetymologyЭтимология каждый день
Почему квартира по-английски плоская (flat) и что общего между планетами и планктоном? На канале Игоря Осмоловского можно поразгадывать этимологические загадки и узнать много неожиданного о привычных словах, например, что Петроград и Ташкент — это одно и то же, а «мент» означает не «мой единственный надёжный товарищ», а «плащ, накидка».

— @ealdengliscИстория английского языка
Канал лингвиста-энтузиаста Таира Кубаниязова будет интересен не только любителям истории языка в целом, истории английского языка и Англии, но и фанатам компаративистики и этимологических изысканий. Если тот факт, что very (очень) родственное слову «вера» в русском языке, не оставляет вас равнодушными, вы найдёте здесь много интересного.

— @istoki_slovaВосстание редуцированных
Популяризатор лингвистики и сторонница «доказательной филологии» Светлана Гурьянова опровергает мифы о русском языке и рассказывает о его истории. Правда ли, что «слоняться» — от слова «слон», а «урод» — тот, кто стоит «у рода»? Знаете ли вы, что нелюбимое многими сокращение «Питер» использовали еще Пушкин и Грибоедов? Если вы страдаете от лингвистического пуризма, то вам сюда.

— @sysblokСистемный Блокъ
Как устроено ударение в 160 тысячах любительских стихов? Как работают онлайн-тесты оценки вашего словарного запаса? Почему если бы не лингвист А. А. Зализняк, мы бы не смогли ничего «заяндексить»? Здесь вы не пропустите ни один громкий сюжет из современных цифровых исследований языка и культуры.

Читать полностью…

Системный Блокъ

DALL·E не сдается

Компания OpenAI, создавшая ChatGPT, в начале октября выпустила новую версию своей нейросети для генерации изображений — DALL·E 3. Она намного лучше предыдущей справляется с задачами: точнее следует запросу, умеет создавать реалистичные картинки и портреты людей, владеет большим количеством стилей. Нейросеть даже может вставлять в изображения текст из запроса, но пока только на английском. На территории России доступ к ней закрыт OpenAI, но в других регионах нейросеть можно протестировать на сайте Bing Image Creator и в платной подписке ChatGPT Plus.

Мы сгенерировали для вас несколько картинок, чтобы вы тоже могли оценить прогресс DALL·E.

Читать полностью…

Системный Блокъ

Страх и удивление в 2000 языков: семантика эмоций и природа вариативности языка

Ученые давно задаются вопросом, есть ли у человеческих эмоций универсальные корни или они различаются в культурах. Чтобы выяснить это, они обратились к тезаурусу, составленному на материале 2474 языков. «Системный Блокъ» вспоминает, как лингвисты выясняли особенности представлений об эмоциях в разных культурах.

Кратко: о чем статья?

Обратившись к тезаурусу из более чем 2000 языков, исследователи создали сети слов среди 20 языковых семей (групп языков, имеющих общие корни). Благодаря ним они сравнили эмоциональный словарь во всем мире.

Например, ученые поняли, что в одних языках слова, обозначающие «удивление», имеют семантическую близость со словами, обозначающими «страх», в других — с более положительными чувствами, такими как «счастье». Это можно считать одним из случаев дифференциации на основе эмоциональной окраски (положительной или негативной). Другой частый критерий — активация (уровень возбуждения, который эмоции вызывают).

Узнать, какую роль в сходствах и различиях значений играет география, и посмотреть, как соотносятся надежда, ненависть, гордость и счастье в австронезийских и индоевропейских языках, можно в полной версии статьи.

Время чтения: 2,5 минуты.

Читать полностью…

Системный Блокъ

Вы Лев Толстой на словах или на деле? Викторина по редким словам из корпуса текстов писателя

Кого Лев Толстой называл голышом, и где в усадьбе тырла? Кем лучше быть ― келарем или щелкопёром? Писатель был знатоком редких и диковинных слов. Пройдите наш тест и попробуйте отгадать их значения. Сможете ли вы сравниться с графом Толстым в эрудиции?

Читать полностью…

Системный Блокъ

Женщины в IT: существует ли гендерное неравенство?

Нобелевская премия 2023 присуждена за исследование роли женщин в экономике и причин дискриминации женщин в оплате труда. Проблема гендерного неравенства очень заметна и в сфере IT. «Системный Блокъ» изучил, какова доля женщин в IT, сколько девушек готовы обучаться компьютерным наукам и какие стереотипы ограничивают их на рынке труда.

Кратко: о чем статья?

Доля женщин в сфере информационных технологий с каждым годом растёт: в мире доля IT-специалисток за последние четыре года увеличилась до 25%. Тем не менее разрыв в численности и в зарплате сохраняется. Например, во время получения высшего образования мужчины в пять раз чаще намереваются работать в области инженерии и компьютерных наук, в системе высшего образования США женщины составляют лишь 38% бакалавров в традиционных областях STEM (естественные науки, технология, инженерия и математика), а в России разница в заработной плате между специалистами разного пола, имеющими одинаковую квалификацию, составляет 28%.

У такой ситуации несколько причин, но если кратко — все дело в стереотипах. Так, существует популярное мнение о том, что математика не для девочек. Несмотря на то что женщины, имеющие детей, демонстрируют более эффективную работу в коллективе, руководители часто отдают предпочтение трудоустройству мужчин, опасаясь, что женщины внезапно могут уйти в декрет. Кроме того, есть стереотип о том, что «женский склад ума» не подходит для IT-сферы.

Подробнее о том, как проявляется гендерное неравенство в области компьютерных наук в России и за рубежом, а также каковы его причины, читайте в полной версии статьи.

Время чтения: 8 минут.

Читать полностью…

Системный Блокъ

Научим любить Родину… и мать твою: о чем говорят в «Разговорах о важном»

С сентября 2022 года в российских школах идут «Разговоры о важном». Это внеклассные уроки, направленные, по словам авторов идеи, на «укрепление традиционных российских духовно-нравственных ценностей» и «воспитание патриотизма» среди российских школьников. Ко дню учителя «Системный Блокъ» изучил содержание этих уроков, применив метод тематического моделирования.

Кратко: о чем статья?

На главном сайте «Разговоров о важном» в течение года выкладывались видео- и аудиоматериалы, сценарии уроков и методические рекомендации. Сейчас там размещены материалы 2023 года: инициатива продолжается в школах и в этом учебном году.  

Мы скачали 175 методических рекомендаций: по 5 файлов к каждому уроку, – собрали информацию из пункта «Формирующие(ся) ценности» и посчитали количество упоминаний одних и тех же ценностей. Главными ценностями, согласно замыслу авторов, оказались «патриотизм» и «любовь к родине». Также в тройку лидеров с большим отрывом от остального списка входят «самореализация/развитие/самоопределение» и «историческая память/преемственность поколений» — не менее 80 уроков для разных возрастов затрагивали каждую тему. Для сравнения, «милосердие» упоминается в рекомендациях к 9 урокам, «гуманизм» — к 4. 

О том, какие темы обсуждаются и какие слова встречаются в «Разговорах о важном» чаще всего, а также о том, как выяснить это с помощью тематического моделирования, читайте в полной версии статьи.

Время чтения: 8,5 минут.

Читать полностью…

Системный Блокъ

Что общего у литературы и биологии, или как развивались Digital Humanities в России

Точные методы в гуманитарных науках появились задолго до компьютеров — и в России их история превышает уже полтора века. Вспоминаем, как филологи, историки, лингвисты, математики и другие исследователи развивали количественные подходы к анализу литературы, языка и других гуманитарных объектов — и создавали базу для становления на российский почве.

Кратко: о чем статья?

История количественного литературоведения в нашей стране началась более ста лет назад — с работ поэта Андрея Белого. В 1910-х годах он разработал свою методику исследования метра и ритма, а затем изучение поэзии квантитативными методами продолжил Московский лингвистический кружок (МЛК). Именно из МЛК выросли лингвистические кружки в Праге, Копенгагене, Нью-Йорке и впоследствии — Международная лингвистическая ассоциация.

Одной из важных фигур в МЛК был Борис Ярхо. В своей «Методологии точного литературоведения» (1936) он объяснял литературу в биологических понятиях эволюции и рассматривал подобно живому организму. В 50-е и 60-е годы на смену биологической перспективе пришла математическая. Благодаря ней появились планы по разработке Машинного фонда русского языка и идея создания корпуса, подобного сегодняшнему Национальному корпусу русского языка.

Подробнее о главных этапах и лицах в истории Digital Humanities (DH) в России, а также о сходствах и различиях российского и мирового опыта DH — читайте в полной версии статьи.

Время чтения: 10,5 минут.

Читать полностью…

Системный Блокъ

Кому на Руси пить хорошо: какой алкоголь сегодня можно найти в магазинах и кто его покупает

Похвастаться стабильностью в кризисные времена может не каждая отрасль. Но вот кто точно в России не несёт убытки, так это рынок алкогольной продукции. Казалось, санкции должны были сократить и объёмы производства, и ассортимент. Однако ни производить, ни пить россияне меньше не стали. Разбираемся, в чём здесь может быть дело.

Кратко: о чем статья?

После 24 февраля 2022 года крупные западные компании, занимающиеся производством алкоголя, либо полностью ушли с российского рынка, либо ограничили поставки продукции. Однако проблемы труднодоступности известных западных марок ощутимы для относительно малого числа россиян. 75% рынка крепкого алкоголя приходятся на водку, которая преимущественно производится внутри страны.

Больше всего её, кстати, выпускают в ноябре и декабре, поскольку для показателей розничной продажи алкоголя характерна сезонность, и производители ориентируются на спрос. Шампанское чаще всего покупают к новогоднему столу, а пиво, наоборот, — пьют преимущественно летом.

Правда, российские пивовары рискуют сильно пострадать в ближайшем будущем: в стране почти не производится хмель и до санкций его всегда закупали в западных странах. Кроме того, повысятся цены на алюминиевые банки.

О проблемах, с которыми могут столкнуться виноделы, и их потенциальном решении, а также о том, где в России пьют больше и меньше всего, читайте в полной версии материала.

Время чтения: 10 минут.

Читать полностью…

Системный Блокъ

Интернет на службе коммунизма: как СССР создавал свою электронную сеть

В конце 60-х гг. не только США разрабатывали компьютерные сети. В СССР также строили грандиозные планы по созданию системы, которая в конечном итоге поможет привести страну к коммунизму. Рассказываем, почему из амбициозного проекта ОГАС и других проектов советского интернета ничего не получилось.

Кратко: о чем статья?

Первым создать «советский интернет» предложил ученый Анатолий Китов. В начале 1950-х он увлекся кибернетикой, а затем предложил построить всесоюзную компьютерную сеть (написав об этом Никите Хрущеву). Правда, из этой идеи ничего не вышло.

Зато новый проект советского интернета — Общегосударственную автоматизированную систему учёта и обработки информации (ОГАС) — предложил математик и кибернетик Виктор Глушков. ОГАС должен был собирать информацию со всех предприятий СССР и предлагать экономические решения для наиболее эффективного управления плановым хозяйством. Однако по подсчетам экономистов проект обошелся бы стране слишком дорого, и правительство не хотело делегировать свою власть компьютерным системам. Поэтому после многих рассмотрений и доработок ОГАС окончательно закрылся.

Зато сегодня опыт Китова, Глушкова и других советских кибернетиков активно изучают экономисты и историки как в России, так и за рубежом. 

О том, почему им интересна история советского интернета, когда кибернетика перестала считаться лженаукой и какие проекты автоматизации плановой экономики были в других странах, читайте в полной версии статьи.

Время чтения: 10,5 минут.

Читать полностью…

Системный Блокъ

Мандельштам или Некрасов: какому поэту подражает нейросеть?

В рамках недавнего эксперимента Бориса Орехова нейросеть подражала одному из русских поэтов, а студенты-филологи — определяли, чей стиль она воспроизводит. Предлагаем и вам отгадать, на чьем корпусе LSTM-модель научилась писать следующие строки.

А ещё даём небольшую подсказку: у нейросети не было цели написать качественное и связное четверостишие, ей нужно было только уловить особенности поэтического стиля, чтобы читатель явно понял, кто перед ним — Борис Пастернак или Петр Вяземский.

И карточки не слышал.
Он был уж добрый свет,
Но как бы мог прибавил
Какой-то бедного покой.

Читать полностью…

Системный Блокъ

Что вы знаете об абьюзерах: тест об участниках домашнего насилия

Некоторое время назад мы предлагали вам пройти тест о домашнем и партнерском насилии и вспомнить, кто и как часто с ним сталкивается. В новом тесте разбираемся с абьюзом и с авторами насилия.

Что заставляет человека жестоко обращаться с близкими? Какие предпосылки могут быть у такого поведения? Неужели абьюзер — это приговор?

Читать полностью…

Системный Блокъ

«Писатели vs Нейросети»: технологии, экзамены и советы редактора

Как нейросети генерируют художественныые тексты и стилизуются под конкретных авторов? Если писатель и ChatGPT напишут текст по одному запросу, чем будут отличаться эти тексты и почему? Какие лайфхаки стоит учесть, если вы решили генерировать художественные произведения? «Системный Блокъ» сделал серию постов о нейросетях-писателях.

Как это (не) работает: технологии нейросети-писателя

Специфика обучения нейросетей зависит от того, какие именно художественные тексты мы хотим получить, скажем, прозу или поэзию. Или, что ещё важнее, нужен ли нам нарративный — рассказывающий историю — или «‎лирический»‎ текст? Сюжетные тексты даются моделям тяжелее (хотя с короткими историями неплохо справляется ChatGPT). Зато нейросети вполне справляются с подражанием конкретному автору, если не считать часто встречающиеся грамматические ошибки. О том, из-за чего они возникают и в какие ещё ограничения современных нейросетей мы упираемся при написании художественных текстов — читайте на сайте.

Как писать художественные тексты с нейросетями и не облажаться: советы редактора

Если вы решили создать произведение с помощью нейросети, помните, что даже у самых умных из них хромает сцепка с реальностью. Чтобы история не выглядела фальшиво, лучше сразу задать фантастический или абстрактный сеттинг. Ещё один приём для работы с языковыми моделями — смешать стили и жанры. Например, они легко смогут переписать «Колобка» как скандинавский триллер. А вот с персонажами и редактурой моделям явно придётся помочь. Об этом — в полном тексте статьи.

«С экзамена в тюрьму с ChatGPT»: чей рассказ лучше, нейросети или писателя?

Вместе с изданием «Подтекст» мы придумали сюжет для небольшого рассказа и предложили написать его ChatGPT и петербургскому писателю Александру Сорге. И оказалось, что подход нейросети к тексту о мстительном студенте намного более консервативен. Например, её повествование велось от третьего лица и строго в прошедшем времени. Именно такой нарратив — самая частая и популярная форма прозы. Впрочем, нужно отдать ChatGPT должное: текст получился связным, законченным, в нем прослеживается сюжет. Прочитать оба рассказа и их сравнение можно в полной версии статьи.

Читать полностью…

Системный Блокъ

«Я колебался между любовью к истории и любовью к точным наукам»: интервью с Леонидом Бородкиным об исторической информатике, цифровой истории и их месте «под зонтиком» DH

Как математические методы позволяют моделировать исторические процессы? Как складывались отношения российских исторических информатиков с международным сообществом? Где историк может использовать нейросети и 3D-моделирование? «Системный Блок» обсудил это с Леонидом Бородкиным — историком и основоположником исторической информатики.

Кратко: о чем интервью?


Сейчас переходы из области математики в гуманитарные науки происходят всё чаще. Хотя раньше это было редкостью. Первые работы на стыке истории и математики были сделаны уже в 1962 году, но название междисциплинарного направления — историческая информатика — вошло в лексикон только 30 лет спустя, когда была учреждена ассоциация «История и компьютер». И если в 1960-х все модели и методы приходилось создавать в узком кругу, то в 90-е российские ученые стали участниками мирового сообщества «компьютерных историков»: их приглашали на европейские конференции ассоциации «History and Computing» и включали в международные проекты.

Областей применения у исторической информатики оказалось много: благодаря стилометрии проверялось авторство текстов, приписанных Ивану Грозному и первому русскому митрополиту Илариону. Другая задача заключалась в реконструкции истории текста одного из древнейших памятников славянской юридической мысли — Закона Судного людем (ЗСЛ).

Сегодня отношение к точным методам и цифровым технологиям на исторических кафедрах изменилось. Курс по информатике и математике стал обязательным для всех второкурсников истфака МГУ. Отдельный интерес для студентов представляют нейросети и 3D-моделирование. Нейросети помогают в решении содержательных, аналитических задач: например, в работе на базе более 300 тысяч анкет тех, кто был репрессирован. А 3D-моделирование позволяет реконструировать разрушенные храмы и даже устраивать виртуальные туры с возможностью интерактивного взаимодействия с 3D-моделью объекта.

Подробнее об исторической информатике и её предполагаемом ребрендинге, а также о цифровой публичной истории и взаимодействии с разными направлениями в Digital Humanities — в полном тексте интервью.

Время чтения: 45 минут.

Читать полностью…

Системный Блокъ

«Цифровые» методы в музее и в магистратуре: блог ИТМО

Сегодня делимся с вами новыми статьями из блога Центра цифровых гуманитарных исследований Университета ИТМО. Рассказываем, чему учит магистратура Digital Humanities и как студенты применяют знания на практике: например, на выставке «Первая позиция. Русский балет», проходившей в «Манеже».

Этими самыми руками

В DH-магистратуре в ИТМО люди учатся делать и проекты, и исследования, и совмещение этих двух подходов может многому научить. Такое образование забирает ощущение, что цифровой мир вырастает сам по себе, а методы — просто инструменты. По мнению Полины Колозариди, руководительницы DH магистратуры в ИТМО, главное, чему оно учит, — каждый день признавать, что это одни и те же (собственные) руки, голова, глаза понимают роскошь и ужас цифровизации и делают, делают, делают её.

А ещё в цифровой гуманитаристике всегда есть риск, что пожертвовать придётся именно тем, ради чего всё и затевается. Из любви к культуре — превратить её в коллекцию образцов, выставленных в музее. Из интереса к науке — разложить её на схемы, которые вытравят всё живое из открытий и сомнений. 

О том, на какие «душные» вопросы отвечают абитуриенты, с какими последствиями цифровизации работают студенты и как с этим связан «Пушкин Цифровой», можно узнать из материала на сайте.

Зритель на первой позиции: взламывая техники наблюдателя

Студентки магистратуры ИТМО по Digital humanities провели серию ридингов о кураторстве и зрительском опыте. Например, обсудили, как задуманный куратором маршрут и другие посетители мешают свободному перемещению по выставке, а одни и те же объекты экспозиции могут вызвать у разных посетителей противоположные отклики.

А ещё — пришли к выводу, что выставка, состоящая только из вспомогательных средств, тоже возможна. В таком случае текст-описание объекта сам по себе станет экспонатом. И если объект спустя время мы вряд ли сможем с точностью вспомнить, то текстовая память о нём будет более достоверна, чем вымышленное представление. 

О том, как на зрительский опыт влияют мультимедиа и как посетители взаимодействуют с цифровыми и не-цифровыми объектами выставок, читайте в полной версии текста.

Читать полностью…

Системный Блокъ

Русалка села на шпагат: как нейросети генерируют картинки и подменяют понятия

Многие видели фейковую фотографию папы римского в белом пуховике. Фейк оказался настолько реалистичным, что встал вопрос о том, где границы прогресса искусственного интеллекта. Авторы «Системного Блока» провели эксперимент с генерацией изображений, чтобы выяснить, как алгоритмы справляются с абстрактными понятиями, фразеологизмами и многозначными словами.

Кратко: о чем статья?

Экспериментируя с нейросетями, мы не только предлагали вам угадать, какая из них лучше справится с заданием, но и выяснили, что ИИ игнорирует отрицание. Например, рисует мужчину с усами по запросу «мужчина без усов». Аналогично ИИ не воспринимает частицу «не» и не справляется с генерацией изображений на основе негативных промтов.

Если же мы заменяли в задании предлог «без» на наречие «только» (вместо фразы «человек без органов» использовали подсказку «человек только из кожи»), FusionBrain неверно интерпретировала значения слов и рисовала мужчину в кожаном костюме. Более того, поскольку нейросеть как бы хватается за знакомую ей фразу и выстраивает вокруг неё визуализацию, для неё «человек только из кожи» — это человек откуда-то, а не состоящий только из чего-то.

ИИ не справился и с генерацией изображений на основе пословиц и фразеологизмов. Нейросеть давала визуализацию, которая не соответствовала ни образному, ни буквальному значению выражений. Зато соответствовала английским эквивалентам пословиц!

А о том, как ИИ справлялась с оксюморонами и выражениями, основанными на многозначности слов, и отказалась ли визуализировать мем «смешная нарезка детей», посчитав это неэтичным, можно узнать из полного текста статьи.

Время чтения: 10,5 минут.

Читать полностью…

Системный Блокъ

Знатный борщ, Чапаев и НКРЯ: подборка материалов по лингвистике
 
Сегодня предлагаем вспомнить лингвистические тексты (и тесты!) «Системного Блока». Отвечаем на пять вопросов «как» и на один — «зачем».
 
Как трансформируется язык в интернет-пространстве?
 

В интернет-пространстве смысл может быть спрятан в отдельных символах языка, будь то строчная буква вместо прописной или «б» в слове «маленбкий». А уже в 2007 году американские ученые выяснили, что только 29% респондентов использовали точки в конце сообщений, потому что с точками они воспринимались как неискренние. О строчных буквах вместо прописных, перерождении скобок, намеренных ошибках и кампании “CAPSoff” узнаете из полного текста статьи.
 
Как менялись значения слов в русском языке на протяжении XVIII-XIX веков?
 
Когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой? Какое значение слова «привет» было самым первым? Мог ли борщ быть «знатным» в XVII веке? Вспоминаем вместе с тестом на лингвистическую интуицию.
 
Как изменился Национальный корпус русского языка после редизайна?
 
НКРЯ — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Не так давно в НКРЯ обновился дизайн, появились новые функции и корпуса «Русская классика» с черновиками и редакционными вариантами произведений и корпус детской литературы «От 2 до 15». Подробнее о работе с новой версией сайта – в нашем посте.
 
Как бабка, гаишник и Чапаев распределились по подкорупсам НКРЯ?
 
Сможете ли вы отличить фэнтези от средневековья и гороскопов, а смс-ки – от форумов? Проверьте, пройдя тест по словам, характерным для разных подкорпусов НКРЯ.
 
Как превратить ботвинью в гаспачо?
 
Ещё один материал про НКРЯ посвящен параллельному корпусу – коллекции текстов, где для каждого текста хранятся его переводы на другой язык (или языки). В одном из них – русско-китайском – сейчас чуть менее 4,5 миллионов слов и более тысячи документов, включая перевод «Анны Карениной». О том, как пользоваться этим корпусом, какие у него преимущества и как суп на квасе превратился в гаспачо, – узнаете из нашего поста.
 
Бонус: Зачем нужен «Прагматикон» (и что это такое)?
 
Если вы тоже учили языки с помощью сериалов, то замечали, что их герои вместо простых «нет» или «да» произносит не всем знакомые выражения вроде no way или you bet. Это примеры дискурсивных формул — коротких устойчивых ответов, которые мы используем в разговорной речи. Такие выражения плохо представлены в словарях и в случае русского почти не встречаются в учебниках для иностранцев. Зато ими занимается исследовательская группа Школы лингвистики НИУ ВШЭ, разработавшая ресурс Прагматикон. О том, как им пользоваться, узнаете из полной версии статьи.

Читать полностью…

Системный Блокъ

Нейросети-художники

Предлагаем вам взглянуть на самые успешные нейросети для генерации изображений. Сегодня расскажем о двух популярных моделях: Stable Diffusion с открытым исходным кодом и DALL·E 2 от компании OpenAI. Они обе вышли в 2022 году и с тех пор несколько раз обновлялись.

В сердце этих нейросетей — похожие технологии: они являются диффузионными (создают изображения из случайного информационного шума), обе работают с текстовыми запросами благодаря модели CLIP (подробнее о ней мы писали здесь), обладают примерно одинаковым количеством параметров: около 3,5 миллиардов.

Однако у Stable Diffusion есть два важных отличия. Во-первых, ее обучали на датасете большего размера: около 2 миллиардов изображений против 650 миллионов у DALL·E 2. Во-вторых (и это главное) — Stable Diffusion использует технологию, которой нет у второй нейросети: она работает не с изображениями, а с их векторными представлениями, которые предоставляет отдельная программа-автокодировщик. Эта технология имеет два преимущества: векторные представления намного компактнее оригинальных изображений и содержат только самую важную информацию о них. Благодаря этому модель обучается и работает значительно быстрее.

Вы можете сами оценить, насколько разные результаты получаются у Stable Diffusion и DALL·E 2. Мы сгенерировали с их помощью две картинки: одну — с котятами, по подробному запросу, который написала ChatGPT (стоит заметить, что запрос не поместился до конца в ограниченное пространство для текста у DALL·E 2), а вторую — с фотореалистичным изображением девушки на улице Нью-Йорка.

Попробуйте угадать, какой набор из двух картинок принадлежит более сложной Stable Diffusion, а какой — DALL·E 2!

Читать полностью…

Системный Блокъ

Как распознать тексты и сделать корпус для исследования: пошаговая инструкция

В новой статье «Системного Блока» разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов.

Кратко: о чем статья?

Оптическое распознавание символов (OCR) — это преобразование отсканированных документов в машиночитаемый текст, по которому можно искать и который можно редактировать. Превращение цифровых копий книг в распознанный машиночитаемый текст предполагает три этапа: сбор коллекции документов, распознавание текста с помощью OCR и вычитка.

Для оптического распознавания текста существуют разные инструменты, в том числе десктопные, мобильные и веб-приложения. Например, можно воспользоваться ABBYY FineReader PDF или Tesseract. FineReader предлагает много функий для работы с текстом и вычитки, а ещё ему знаком русский язык не только в новой, но и в старой орфографии. Если же этот вариант не подходит, есть Tesseract — программная библиотека, с которой можно работать через командную строку или с использованием Python-оболочки.

Подробную инструкцию по работе с каждым из инструментов, информацию о том, как проверить распознанный текст на полноту и точность, и некоторые ресурсы, где можно найти оцифрованные копии книжных и периодических изданий, найдёте в полной версии статьи.

Время чтения: 12 минут.

Читать полностью…

Системный Блокъ

Правда глаза колет: 150 лет истории айтрекеров

Айтрекинг, или регистрация движений глаз, используется в психолингвистике и психологии, исследованиях зрительной системы и в устройствах взаимодействия между человеком и компьютером. «Системный Блокъ» уже писал про айтрекинг и паттерны чтения.

А в этом материале рассмотрим историю айтрекеров. Готовы ли вы поместить на своё веко тупую иглу, передающую движения глаз в виде звука? А надеть гипсовую контактную линзу, соединённую с рычагом, записывающим движения глаза на барабан? А прикрепить к глазу радиоантенну на резиновой присоске? Всё это приходилось делать участникам айтрекинговых экспериментов до изобретения бесконтактных технологий.

Кратко: о чем статья?

Интерес к изучению движений глаз возник за много веков до появления первых айтрекеров. Особенности зрения интересовали Аристотеля, древнеримского медика и хирурга Клавдия Галена и средневекового ученого Ибн аль-Хайсама.

История айтрекеров же полноценно началась в 1883 году, когда М. Ламар вместе с Л. Жавалем использовали для наблюдений прибор, трансформировавший движения глаз испытуемого в звук, улавливаемый экспериментатором. Но у технологий конца XIX века были очевидные недостатки, поэтому постепенно разрабатывались устройства, не требующие непосредственного крепления глаза к регистрирующей поверхности.

В последние годы технологии позволяют создавать айтрекеры, не требующие фиксации головы. Они представляют собой очки или шлем с двумя вмонтированными видеокамерами: одна из камер записывает изображение, которое видит испытуемый, а вторая фиксирует изображение глаза с помощью отражённого света. Испытуемого в таких очках можно отправить в магазин, в музей или за руль автомобиля.

Подробнее о важных именах и вехах в истории айтрекинга, а также о том, какие ограничения связаны с такими исследованиями в психолингвистике, читайте в полном материале.

Время чтения: 14 минут.

Читать полностью…

Системный Блокъ

Что читают в 2023? Тест на знание книжного рынка в России

После 24 февраля 2022 года необратимые изменения произошли практически во всех сферах жизни. Издательское дело не стало исключением. Как издательства разбирались с запретом на пропаганду ЛГБТ? Какой процент в ассортименте книжных магазинов составляет доля… книг? Кто отобрал у Стивена Кинга первенство в российском книжном рейтинге?

Наш тест поможет понять, насколько хорошо вы разбираетесь в сегодняшних реалиях книготорговли.

Читать полностью…

Системный Блокъ

Учителя-мужчины в школе: сколько их и что они преподают

5 октября в России и в мире отмечается День учителя. К празднику «Системный Блокъ» решил проверить, правда ли, что в школе работают в основном женщины, сколько всё-таки учителей-мужчин и какие предметы они ведут. Ответы на эти вопросы мы искали в открытых данных Минпросвещения.

Кратко: о чём статья?

Согласно открытой статистике Минпросвещения в последние шесть лет в среднем 83% всех работников школы — это женщины. Единственная мужская специальность в современной общей школе — это мастера производственного обучения: 68% преподавателей-мужчин. Правда, это исчезающая профессия: на начало прошлого учебного года всех мастеров обоих полов было меньше тысячи человек.

Правда, в ряде регионов распределение сильно отличается, особенно там, где доля мужчин значительно выше среднего. В трёх регионах — Дагестане, Якутии и Чечне — мужчин в профессии аномально много: они составляют почти пятую часть всех учителей, а в средних и старших классах учителей-мужчин 24–26%. В частных школах ситуация тоже несколько отличается, возможно, потому что в них меньше бюрократической волокиты и выше зарплаты. Впрочем, учителя в них составляют всего 2% от общего числа учителей в России.

О самом «мужском» и самых «женских» предметах, а также о гендерном дисбалансе в школах других стран узнаете из полного текста материала.

Время чтения: 7 минут.

Читать полностью…

Системный Блокъ

Утечка в IT: как эмигранты создали бренд русского программиста

«Если проблема нерешаема, мы предлагаем её русским», — заявил в 2007 году президент Intel Russia Стив Чейз. Эти слова говорили о большой популярности русских программистов на глобальном рынке IT. Предпосылки к высокой востребованности IT-специалистов из России были заложены в конце XX века, когда зарубежные компании познакомились с технарями, покинувшими Советский Союз и Россию. Разбираемся, как русский программист стал мировым брендом.

Кратко: о чем статья?

Многие программисты, эмигрировавшие за границу или развивавшие IT в постсоветской России, начинали свой путь в советских физико-математических школах. При этом возможности попрактиковаться именно в программировании в Советском Союзе были ограничены, а информатика как полноценный учебный предмет появилась в советских школах только после 1985 года, когда был взят курс на компьютеризацию образования.

После школы путь к программированию лежал через технические специальности высшего образования. И хотя студенты-физики и инженеры редко имели опыт написания программ, когда они покидали страну, сфера IT оказывалась для них наиболее удобной. Туда можно было попасть благодаря относительно простому (при наличии математической и инженерной базы) обучению и связям с другими русскими эмигрантами, уже занимающимися программированием. Диаспоры, сложившиеся в результате тесных коммуникаций внутри эмигрантской среды и за её пределами, стали решающим фактором для превращения русских программистов в узнаваемое сообщество. А затем транснациональные связи укрепили бренд русского программиста и вывели его с уровня диаспор на глобальный рынок.

Подробнее о том, когда и почему специалисты покидали СССР, как России удалось остановить наибольшую волну эмиграции 1990–2000-х годов и как работает концепция «утечки мозгов» читайте в полной версии статьи.

Время чтения: 13 минут.

Читать полностью…

Системный Блокъ

Стилометрия кинодиалогов: шесть жанров в поисках автора

Какие закономерности можно обнаружить в речи персонажей, если фильмы относятся к одному жанру? Меняется ли стиль диалогов в зависимости от сценариста или режиссёра? Похожи ли все фильмы одной франшизы друг на друга? Ответы на эти вопросы — в новом материале «Системного Блока».

Кратко: о чем
статья?

Исследование Яна Рыбицкого и Агаты Холобут (оба — Ягеллонский университет, г. Краков) посвящено анализу кинодиалогов с помощью стилометрии и сентимент-анализа (оценки эмоциональности кинодиалогов). Для него ученые собрали многожанровый корпус транскрибированных кинодиалогов из 178 англоязычных фильмов, охватывающий около 84 лет жизни киноиндустрии.

Фильмы разделили на шесть групп: мелодрама/женское кино, вампиры и супергерои. По жанру это романтика, триллер и экшен/приключения. Благодаря стилометрическому анализу выяснилось, что некоторые из них легко делятся на подргруппы. Например, диалоги в романтических фильмах о вампирах явно отличаются от диалогов в хоррорах на ту же тему. «Сумерки», кстати, демонстрируют постепенное «сгущение красок»: первые две части скорее романтичны, а дальнейшие становятся ближе к жанру ужасов. А многие франшизы блокбастеров с точки зрения стилометрии оказываются близки друг другу. Среди них «Пираты Карибского моря», «Матрица», «Властелин Колец» и «Хоббит».

О том, к какому жанру стилометрия отнесла «Титаник», какие фильмы оказались самыми «радостными» и чья стилистика — Квентина Тарантино или Альфреда Хичкока — более явно выражена в диалогах их героев, узнаете из полного текста статьи.

Время чтения: 8,5 минут.

Читать полностью…

Системный Блокъ

Поясни за стиль. Какому поэту подражает нейросеть?

Цифровые филологи научились «измерять стиль»: у «Системного Блока» есть подборка статей о стилометрии и гайд о том, как провести собственное стилометрическое исследование. Нейросети зашли еще дальше: современные технологии уже позволяют выделять стиль текстов и даже подражать ему (об этом мы писали здесь). Сегодня мы расскажем о новом эксперименте Бориса Орехова, в котором исследователь оценивает, насколько хорошо модель может скопировать узнаваемый авторский стиль.

Кратко: о чем статья?

Исследуя тот или иной авторский стиль, мы фокусируемся не только на том, что сказано, но и на том, как сказано. И если нам необходимо воспроизвести стиль определенного поэта, на помощь могут прийти нейросети. Чтобы проверить, насколько хорошо им это удается, Борис Орехов обратился к трем LSTM-моделям, обученным на корпусах Николая Некрасова, Осипа Мандельштама и раннего Бориса Пастернака.

Студентам-филологам предлагали три случайно выбранных сгенерированных четверостишия и просили определить, на чьём корпусе стихотворений училась нейросеть. Подражание Некрасову студенты определили верно в 40,4% случаях, Мандельштаму — в 43,6%, а Пастернаку — в 48,9%.

О том, можно ли считать этот результат успешным и как на него влияла честность студентов, узнаете из полного текста статьи.

Время чтения: 5,5 минут.

Читать полностью…

Системный Блокъ

Юдифь и Саломея: как мифические девицы искусство делили

Помните ли вы истории двух библейских героинь Юдифь и Саломеи? C помощью Викиданных мы выяснили, какая из двух героинь пользуется большей популярностью, и попытались понять почему. Всё самое главное — в наших карточках, а подробности — в этом посте.

Читать полностью…

Системный Блокъ

Персоналисткие диктатуры, как они живут и как погибают

Половина диктатур в мире — персоналистские. Именно они наименее склонны к демократизации и чаще других режимов начинают и эскалируют вооруженные конфликты.

Что мы знаем о персоналистских авторитарных режимах, диктатурах и возможностях перехода к демократии? Разбираемся с политологом Эрикой Франц, специалисткой по авторитарным режимам.

Читать полностью…
Subscribe to a channel