Telegram-канал sysblok - Системный Блокъ: Unsorted - каталог телеграмм

sysblok | Unsorted

Subscribe to a channel

Telegram-канал sysblok - Системный Блокъ

10752

«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Финалист премии «Просветитель» sysblok.ru vk.com/sysblok fb.com/sysblok instagram.com/sysblok/ Присоединяйтесь к команде: sysblok.ru/join

Subscribe to a channel

Системный Блокъ

15 May 2023 18:00

Уникальные книжные памятники онлайн: от старинных карт Сибири до мохнатого «лесного чюда»

«Книжные памятники» — один из самых амбициозных проектов по перенесению книжного культурного наследия на цифровые носители. «Системный Блокъ» рассказывает, как и зачем происходит оцифровка книг и других материалов, и советует, на какие из них стоит взглянуть в первую очередь.

Кратко: о чем статья?

Одна из основных целей оцифровки — сохранить оригинальные издания в лучшем состоянии, так как появляется возможность обращаться к электронным версиям. Кроме того, такой проект решает ещё одну важную задачу — популяризировать и демократизировать профессиональное знание, поэтому ресурс интересен не только специалистам, но и не связанным с областью людям.

Проект оцифровывает материалы, обладающие признаками памятника (учитывается, например, хронология и материальная ценность). У всех сканов документов есть библиографическое описание, которое позволяет сортировать памятники на сайте проекта по году появления, языку, месту издания, автору и другим параметрам.

Найти оцифрованные материалы можно на сайте проекта. Здесь собраны не только книги, но и старинная реклама, разговорники или русский лубок. А из поваренной книги XVIII века можно узнать «710 правил, по которым всяк может лучшим вкусом желаемыя кушанья приготовлять».

О том, для чего еще оцифровывают документы, зачем проводят экспертизу памятников, а также на какие еще материалы стоит обратить внимание, узнаете из полного текста статьи.

Время чтения: 8 минут.

Читать полностью…

Системный Блокъ

11 May 2023 17:02

Как дообучить языковую модель писать в стиле Достоевского

Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.

Кратко: о чем статья?

Fine-Tuning — это способ улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок. Благодаря нему языковую модель можно обучить генерировать тексты в самых разных стилях: от комментариев из Одноклассников до прозы Лермонтова. Для fine-tuning достаточно нескольких мегабайтов текстов, что примерно эквивалентно 10-15 произведениям.

При этом дообучение любых нейросетей требует вычислительные мощности, то есть GPU (видеокарты). Работать с видеокартой бесплатно можно с помощью сервиса Google Colab, в который как раз можно вместить самую маленькую версию русскоязычной модели ruGPT3. А в качестве данных можно взять готовый корпус, состоящий из 34 произведений Достоевского.

Если четко следовать инструкции, модель, подстраиваясь под стиль Достоевского, сгенерирует, например такую фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…». На этом примере видно, что она уловила такие архаичные формы, как «кофею», словоерс «нет-с» и некоторые другие особенности поэтики писателя.

Полный подробный текст инструкции для дообучения модели на корпусе Достоевского, построчно прокомментированный скрипт для обучения языковых моделей и примеры других результатов найдёте в полном тексте статьи. Если будете обучать модель на текстах других писателей (или — тоже Достоевского) — обязательно делитесь в комментариях результатами.

Время чтения: 19 минут.

Читать полностью…

Системный Блокъ

10 May 2023 15:00

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем новом материале.

Кратко: о чем статья?

За последние пару лет в НКРЯ появились не только новые тексты, но и новые корпуса. Один из наиболее важных — панхронический, позволяющий находить тексты от средневековых до современных. В другом новом корпусе, «Русская классика», собраны не только основные тексты, но также черновики и редакционные варианты произведений. Наконец, для корпуса «От 2 до 15» был проведен масштабный опрос о самых популярных произведениях среди детей разных возрастов. В итоге в корпус вошли 75 наиболее популярных прозаических произведений зарубежных и отечественных авторов от «Гарри Поттера» до «Денискиных рассказов».

Среди других изменений — новые функции: поиск коллокаций, частотность выдачи и автоматическое снятие омонимии. А ещё — портреты слова и корпуса. Узнать о них больше, посмотреть портрет слова «чипсы» и познакомиться с другими обновлениями можно благодаря полному тексту статьи.

Время чтения: 10,5 минут.

Читать полностью…

Системный Блокъ

06 May 2023 09:01

Цифровые архивы и базы данных по истории ХМАО–Югры для школьных уроков и проектов

Как увлечь школьников историей страны? Лучше всего — с помощью настоящих свидетельств из прошлого: писем с фронта, фотографий, музейных предметов и реальных архивных документов. Пойти в музей можно не всегда — но сегодня множество музеев оцифрованы. Об использовании цифровых архивов и электронных баз по истории Ханты-Мансийского автономного округа на уроках рассказывает учитель и блогер «Системного Блока» Юлия Папанова.

🏛️ Сводная база музеев ХМАО-Югры

В каталоге можно найти 283 783 экспоната из 32-х музеев округа. Среди них — оцифрованные документы, фотографии, картины, предметы прикладного искусства, быта и этнографии, предметы археологии и нумизматики.

Эта база дает большие возможности для «визуализации» прошлого: можно предложить ученикам определить, что это и как использовалось, классифицировать предметы, расположить их в правильной хронологии, подготовить описание выставки и т.п. А ещё — проанализировать материалы, из которых сделаны предметы одежды, быта и культа, и сделать выводы о том, с кем торговали жители средневековой Югры.

🗺️ Виртуальный музей «История ссылки и спецпереселений в Ханты-Мансийском автономном округе – Югре. 1920-1950-е гг»

На сайте проекта представлены предметы быта, документы, фотографии, письма и интерактивная карта. Благодаря отдельным разделам можно узнать больше о жизни в ссылке и вкладе спецпереселенцев в развитие округа.

Автор блога использовала для урока, посвященного теме «Большого террора», архивно-следственное дело Куриковых, манси по национальности, приговоренных к смертной казни в 1937 году. А один из её учеников сделал исследование, в рамках которого привел доказательства, что это дело было сфабриковано.

👨‍👩‍👧‍👦 Генеалогический портал «Связь поколений Югры»
Этот портал — один из проектов Службы по делам архивов Югры. Его цель – помочь всем желающим в изучении своей родословной. На портал загружено более 280 метрических книг в период с 1730 по 1928 годы, в которых содержатся 704 308 записей о рождении, браке и смерти жителей автономного округа.

Ученики, чьи предки жили в автономном округе более ста лет назад, могут составить свое генеалогические древо на основе материалов портала.

О других базах данных и вариантах их использования узнаете из полного текста на сайте.

Читать полностью…

Системный Блокъ

04 May 2023 19:10

Шифропанки — анархисты интернета

В конце 80-х годов опасения, что госструктуры будут контролировать зарождающийся интернет, привели к возникновению движения шифропанков. Эти интернет-активисты выступали за конфиденциальность в киберпространстве. Шифропанки совершенствовали технологии криптографии, которые сегодня лежат в основе криптовалют и известных проектов Tor и WikiLeaks. Разбираемся, как шифропанки хотели изменить общество и интернет.

Кратко: о чём статья?

Основатели движения шифропанков — Тимоти Мэй (Timothy C. May) и Эрик Хьюз (Eric Hughes) уже в 1980-х считали, что Интернет рискует стать платформой, в которой информация о человеке может быть легко получена государством и его институтами. В 1988 Мэй написал свой «Манифест криптоанархиста», а Хьюз в «Манифесте шифропанка» 1992 года предложил несколько вариантов защиты данных: анонимная пересылка почты, электронные деньги и цифровые подписи.

Шифропанки рассматривали конфиденциальность как базовое и неотъемлемое право человека. Впоследствии Джуллиан Ассанж (Julian Paul Assange), единственный шифропанк не из США, сместил этот фокус в сторону прозрачности благодаря «WikiLeaks», его проекта по публичному обнародованию секретных документов государств и корпораций.

В своих технологиях и идеях шифропанки вдохновлялись политическими идеологиями, научной фантастикой, хакерской этикой и контркультурой. Романы «Подлинные имена» Вернора Винджа, «Игра Эндера» Орсона Скотта Карда и «Нейромант» Уильяма Гибсона, например, высоко ценились участниками движения и считались источниками их мировоззрения.

О том, как на шифропанков повлиял один из самых известных хакеров в истории интернета и роман «1984» Джорда Оруэлла, а также о том, как развивается движение сегодня — в полном тексте статьи.

Время чтения: 9 минут.

Читать полностью…

Системный Блокъ

25 April 2023 18:37

Испытание ботаника: тест по растениям России из Цифрового гербария МГУ

Сможете отличить одуванчик от подорожника? Проверьте, насколько хорошо вы знаете растения — узнайте их по изображению из гербария.

Цифровой гербарий МГУ — самая крупная в России база растений. В нем собраны более 1 млн оцифрованных образцов растений со всего мира. Попробуйте угадать растение по изображению из гербария в викторине ниже, а полная версия теста будет ждать вас на сайте.

Читать полностью…

Системный Блокъ

20 April 2023 07:30

«Цифровой концлагерь»: как закон о повестках через «Госуслуги» взбудоражил россиян

В России вступил в действие закон, объявляющий повестку из военкомата врученной вне зависимости от ее получения призывником Теперь повестку достаточно направить гражданину через «Госуслуги», разместить в электронном реестре или выслать заказным письмом. «Системный Блокъ» изучил изменение запросов в Яндексе в связи с этой новостью. Рассказываем, как Россияне отреагировали на новый закон повышенным интересом к «цифровым повесткам», «цифровому концлагерю» и удалению аккаунта на «Госуслугах».

Кратко: о чем статья?

Законопроект, который делает физическое вручение повесток из военкомата необязательным, лежал в думе с 2018 года, но после внесения радикальных изменений в текст он промчался через Госдуму, Совет Федерации и получил подпись президента РФ в течение трех дней. Хотя закон был принят к весеннему призыву, потенциально он касается всех военнообязанных, а не только срочников.

Интересно, что до апреля 2023 «цифровые повестки из военкомата» россияне не искали в принципе. До этого «цифровыми повестками» интересовались с декабря прошлого года, но не в военном контексте, а в связи с ЕАЭС (Евразийский экономический союз). Одновременно с интересом к цифровым повесткам из военкомата вновь возрастает частотность поискового запроса «цифровой концлагерь», который уже встречался и ранее. Его последний пик пришелся на ноябрь 2021 года — вероятно, это было связано с COVID-19 и QR кодами.

Среди других популярных запросов — удаление аккаунта на «Госуслугах». Подробнее о его статистике, а также о «фейковых» цифровых повестках, на которые жаловались ещё осенью — в полном тексте статьи.

Время чтения: 4 минуты.

Читать полностью…

Системный Блокъ

16 April 2023 18:50

Пасха в эмиграции: открытка недели

Сегодня православные христиане отмечают Пасху — один из самых важных праздников в христианской традиции. На 2022-23 гг. пришелся новый всплеск эмиграции из России. Некоторые эмигранты второй год подряд будут отмечать Пасху вдали от дома, в новых для себя городах и странах. Такой опыт в истории России уже был: ровно столетие назад. Отмотаем время на 100 лет назад и погрузимся в 1923 г.

Мы публикуем здесь текст пасхальной открытки, отправленной Яшей брату Мише в апреле 1923 г. из сербского города Нови-Сад (где и сейчас опять много русских эмигрантов) в город Суботицу. Прочитать комментарий волонтёра «Пишу тебе» можно в полной версии статьи.

«Н. Сад. 5/4-23 г. Руски Одбор Христос воскресе, милый мой брат Миша, может быть хоть теперь откликнешься. Я был болен 2 месяца. Воспаление легких. Сейчас чувствую довольно неплохо. Как ты живешь? Целую и жду твоего письма. Яша»

Читать полностью…

Системный Блокъ

11 April 2023 18:46

Хактивизм: кто и как ведет борьбу в киберпространстве

Сайт Госуслуг «упал» после объявления в России мобилизации. Rutube обрушился 9 мая 2022 года и не работал три дня. Некоторые российские радиостанции и телеканалы в феврале 2023 года сообщали о несуществующей воздушной тревоге. За этими и другими подобными событиями стоят так называемые хактивисты. Что ими движет? Как их действия влияют на мир? Кто они: герои или преступники? Разбираемся в истории хактивизма в нашем материале.

Кратко: о чём статья?

Если цель обычных хакеров — обогатиться, то цели хактивистов, которых также называют «этичными хакерами», обычно благороднее, они взламывают компьютеры и системы не в корыстных целях, а в интересах нуждающихся. Например, группировка DarkSide взламывала ИТ-системы крупных компаний, шифровала их данные и вымогала деньги, а затем… перевела по десять тысяч долларов в благотворительные фонды. Они, правда, отказались от средств, полученных незаконным путём.

Другая история связана с вирусом GoodWill («добрая воля»): чтобы вернуть зашифрованные данные на компьютере, пользователю нужно было отдать немного одежды нуждающимся, оплатить чей-либо больничный счет и т.д. Выполнение заданий приходилось документировать в соцсетях, чтобы получить ключ к расшифровке данных.

Некоторые хактивисты используют свои навыки в идеологических целях. Чаще всего они прибегают к одному из трёх видов атак:

• DDoS-атака: на сервера посылается так много запросов, что они «падают», и неугодный сайт перестает работать.
• Дефейс: на правительственных или корпоративных сайтах во время теле- и радиоэфиров размещаются политические лозунги.
• Кража и публикация частной информации в Интернете: обычно жертвами становятся силовики, чиновники и другие лица, связанные с институтами власти.

Узнать о первом и последнем в истории хактивизма случае, когда судебное дело решилось в пользу хакеров, трагедии, которая привела к созданию «Закона Аарона», карте доносчиков и других важных для истории хактивизма прецедентах можно из полного текста статьи.

Время чтения: 12,5 минут.

Читать полностью…

Системный Блокъ

03 April 2023 15:00

Шахматный “дуатлон”

Шахматы и го — две древние интеллектуальные игры, которые в компьютерную эпоху стали важными «экзаменами» для искусственного интеллекта. В шахматы компьютер одолел человека еще до появления нейросетей, в го — относительно недавно. А можно ли скрестить шахматы и го с помощью питона и устроить шахматный дуатлон? Оказывается, да! Рассказывает блогер «Системного Блока» Борис Орехов.

♟️ Почему именно го?
У шахмат и го много общего: две соперничающие стороны, черный и белый цвет игровых элементов, клетчатая структура квадратного игрового поля, борьба за пространство как стержневая идея. Но самое главное — в го и шахматы можно играть на одной и той же доске одновременно.

♟️ В чем интерес?
Во-первых, так можно легко разнообразить шахматы, сохранив их в изначальном виде. Во-вторых, объединение нескольких видов состязаний в одно всегда увеличивает спортивный интерес.

♟️ Как выиграть?
Когда партия в одну из игр заканчивается, то заканчивается и вторая игра. Если шахматная партия закончилась раньше партии в го, то к очкам, в которые преобразуются шахматные успехи, добавляются баллы за игру в го. Если же партия в го завершилась раньше шахматной, то здесь понадобится помощь шахматных движков — программ, которые умеют количественно оценивать позицию, высчитывая преимущество игрока. После к очкам за шахматы прибавляются очки за игру в го.

О том, почему инженерам шахматы уже не так интересны, как дуатлон может повлиять на проклятье ничьих и что такое компьютерное преимущество, узнаете из полного текста поста в блоге.

Читать полностью…

Системный Блокъ

31 March 2023 18:31

«Присоединение на паузе»: как российских военных перенаправили из Южной Осетии в Украину

Российские военнослужащие — это люди, которые, согласно статистике погранслужб, крайне редко покидают пределы страны. Но с 2014 года военные из РФ активно въезжали в Южную Осетию, которая пока не решила, готова ли она входить в состав России. В 2021-2022 на фоне подготовки и начала вторжения в Украину этих поездок стало гораздо меньше.

Кратко: о чём статья?

Вся статистическая информация, собираемая Росстатом, хранится в единой базе статистических данных — ЕМИСС. Один из показателей — Выезд граждан России. Это открытые данные погранслужбы ФСБ РФ о количестве людей, выезжающих за рубеж, стране их выезда и целях поездки. Военные в статистике погранслужбы помечены отдельно. «Системный Блок» обнаружил, что с 2014 года количество раз, когда военнослужащие пересекали границу Южной Осетии, резко увеличилось, а пик поездок пришелся на 2020-2021 годы.

В 2020 Минобороны РФ отправило военных медиков на помощь в Южную Осетию, которая переживала напряженные события. В середине года, во время наибольшего распространения ковида, в республике наблюдалась большая нехватка специалистов, особенно реаниматологов. Впрочем, резкий рост числа военных после 2019 года может быть связан не только с помощью республике в сложной ситуации с ковидом, но и с обстановкой в соседних странах-участницах ОДКБ (Организации Договора о коллективной безопасности, в которую входят шесть государств: Россия, Беларусь, Казахстан, Кыргызстан, Армения и Таджикистан).

О том, с чем был связан рост количества поездок в 2014 году, чем закончились протесты в 2020 и что происходит с референдумом «об интеграции с Россией» сейчас — читайте в полном тексте статьи.

Время чтения: 5 минут.

Читать полностью…

Системный Блокъ

27 March 2023 17:01

GPT-4 — новая языковая модель от OpenAI

Новая нейросеть семейства GPT не только точнее, надёжнее и безопаснее GPT-3 и ChatGPT. Еще она умеет работать с изображениями. Благодаря этому GPT-4 лучше понимает окружающий мир, а самое главное – способна объяснять мемы ¯\_(ツ)_/¯

Кратко: о чём статья?

GPT-4 отлично справляется с классическими задачами на понимание естественного языка, опережая все существующие языковые модели (в том числе PaLM от Google). Превосходно достигается не только на английском, но и на других языках, в том числе и на малоресурных: например, даже на малоресурсном уэльском GPT-4 проходит тестирование лучше, чем PaLM на английском.

Ещё GPT-4 реже «выдумывает» факты, нежели ChatGPT и лучше понимает, когда можно безопасно ответить на запрос пользователя, а когда нужно отказать в ответе. И самое главное — новую языковую модель можно попросить объяснить мем. Правда, кроме многочисленных результатов тестирования и примеров работы, про GPT-4 больше ничего неизвестно – технические детали OpenAI решила не раскрывать.

О том, насколько точны ответы GPT-4 на вопросы из разных сфер, кто может получить доступ к этой языковой модели и как она может помочь с научной статьёй или предложить рецепт по фотографии — узнаете из полного текста статьи.

Время чтения: 3 минуты.

Читать полностью…

Системный Блокъ

23 March 2023 13:30

Что такое transfer learning в обучении нейросетей

Как нейросеть, обученная под одну задачу, решает другую? Может ли она использовать свой «предыдущий опыт»? Почему это важно и почему корпорации спешат внедрить эту технологию? Рассказываем о популярном методе «переноса знаний» в машинном обучении на примерах языков, ягод и Достоевского.

Кратко: о чем статья?

Нейросети, обученные под одну задачу, можно научить решать другие, похожие. Отсюда и название метода трансферного обучения — мы будто «переносим» (от англ. transfer — передача) предыдущий опыт решения проблемы на новую, еще не решенную. Например, чтобы модель научилась писать тексты в стиле Достоевского, оптимально взять уже готовую русскоязычную версию GPT-3, найти в интернете оцифрованные версии произведений писателя (например, здесь) и дообучить модель на новых текстах.

Плюс, поскольку нейросеть представляет собой последовательность слоев, где каждый слой — математическое преобразование входных данных, в машинном обучении мы можем выбирать, какие слои нейросети нам обучать, а какие — нет. Если мы не хотим обновлять, то есть обучать, какие-то слои, в терминологии глубинного обучения — мы их «замораживаем». Скажем, чтобы нейросеть, уже умеющая определять разные ягоды, научилась распознавать больную клубнику, нужно будет «заморозить» слои, распознающие голубику, малину и клюкву.

Трансферное обучение скрыто и в нашей повседневной жизни: смартфон, который использует детекцию лица вместо пароля дообучается на лице конкретного пользователя; модераторы сайтов используют нейросети для блокировки неприемлемых постов или видео, как это, например, делает YouTube — их модель постоянно дообучается на новых наборах токсичных данных, чтобы лучше распознавать негативный контент.

Больше подробностей о том, как работает transfer learning, а также о других примерах его применения и экологии в IT-сфере — узнаете из полного текста статьи.

Время чтения: 7 минут.

Читать полностью…

Системный Блокъ

21 March 2023 18:02

Как это устроено: мастерские «Пишу тебе»

Команда проекта «Пишу тебе» каждый месяц проводит специальные мастерские, во время которых все желающие узнают, как правильно расшифровывать почтовые открытки. Участники мастерских могут не только поработать с текстами, но и узнать истории людей, стоящих за их отправкой: отправителей и получателей. Кто-то приносит свои открытки, которые пополняют коллекцию «Пишу тебе».

Кратко: о чём статья?

Первая мастерская по расшифровке дореволюционных открыток состоялась 30 сентября 2022 года в Нижнем Новгороде. Её участникам рассказали об истории появления почтовых открыток и открытках, отправленных из будущего в прошлое (спойлер: всё дело в григорианском и юлианском календарях). Затем была мастерская на междисциплинарной конференции в нижегородском корпусе НИУ ВШЭ, выставка почтовых открыток с новогодними и рождественскими поздравлениями и мероприятия в разных городах, деревнях и посёлках Нижегородской области.

Не меньший интерес представляют открытки и для исследователей. Например, на научно-методическом семинаре «Цифровая среда» участники обратили внимание на проблему авторства массового источника и проблему «повторяющихся» открыток с одинаковыми изображениями, но разными текстами.

В марте «Пишу тебе» примет участие в зимнем хакатоне, организованном Факультетом гуманитарных наук и Факультетом информатики, математики и компьютерных наук Нижегородской Вышки на базе Информационного центра по атомной энергетике (ИЦАЭ), а в апреле планируется выставка открыток из коллекции проекта в Москве. Узнать больше о грядущих и прошедших событиях, организованных командой проекта, можно из полного текста статьи.

Время чтения: 9 минут.

Читать полностью…

Системный Блокъ

19 March 2023 16:30

Замкнутый круг: в каких городах России не строят метро, но обещают

Москва лидирует в России по количеству открытых станций метро: за 12 лет во всей России построили меньше станций метро, чем в одной Москве в 2021 году. «Системный Блокъ» рассказывает о городах, где метро строят очень медленно или не строят совсем.

Кратко: о чем статья?

Пока в Москве каждый год вводят что-то новое (новая большая Кольцевая линия стала самой длинной кольцевой в мире), остальные города сильно отстают по количеству построенных и запланированных станций. Например, с 2012 по 2022 год в Москве из 76 намеченных станций открыли уже 65, а в Санкт-Петербурге с 2008 года не могут открыть Театральную станцию. В некоторых городах-миллионниках (к примеру, в Челябинске и Красноярске) строительство метро началось и прекратилось в советское время.

Отсутствие больших средств в федеральном бюджете — основная причина, по которой не получается построить новые участки метро вне столицы. Однако шанс найти деньги увеличивается, если случается важное международное событие.

О том, каковы перспективы подземного транспорта и как с ним обстоят дела в Новосибирске, Екатеринбурге и других городах, узнаете из полного текста статьи.

Время чтения: 7 минут.

Читать полностью…

Системный Блокъ

12 May 2023 14:30

Русско-китайский параллельный корпус

Параллельный корпус — это корпус, состоящий из оригинального текста и его переводов на другие языки. Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. «Системный Блокъ» рассказывает про Русско-китайский параллельный корпус.

Кратко: о чем статья?

Русско-китайский параллельный корпус — часть НКРЯ (Национального корпуса русского языка), масштабный проект, существующий с 2016 года, созданный учеными и студентами из российских и китайских университетов.

На данный момент корпус состоит из чуть менее 4,5 миллионов слов и более тысячи текстов самых разных жанров и стилей. Можно искать работы определенного автора, жанра, периода или конкретные произведения. Кроме того, важная особенность Русско-китайского параллельного корпуса — возможность выбрать вариант китайского языка.

Преимущество корпуса — коллекция переводов, через которые можно прослеживать межъязыковые отношения между исходной и переводной культурами. Например, можно искать варианты перевода безэквивалентной лексики или сравнивать употребление слов, обозначающих какие-либо концепты, которые в двух культурах не совпадают по смыслу. Так, воспользовавшись корпусом, можно узнать, что слово «ботвинья», обозначающее холодный суп на квасе, на китайский переводят как «гаспачо».

О поддерживаемых форматах ввода, создании параллельных корпусов и перспективах Русско-китайского параллельного корпуса, узнаете из полного текста статьи.

Время чтения: 12 минут.

Читать полностью…

Системный Блокъ

11 May 2023 09:00

Лермонтов или Толстой?

Сегодня снова предлагаем вам угадать, в стиле какого писателя нейросеть сгенерировала текст. А ещё — скоро выложим материал с подробной инструкцией о том, как самостоятельно научить ruGPT3 такому трюку.

«Я вышел за хлебом к булочнику. Я помню, как он схватил меня сзади и потащил куда-то; но я не хотел идти туда... И вдруг мы очутились на площади: это был тот самый сквер с фонтаном в саду у Марфы Петровны (там теперь ее дом). Вот этот сад! Это то самое место было тогда здесь во время пожара вместе со мною под судом? Так ты помнишь его?»

Читать полностью…

Системный Блокъ

09 May 2023 14:31

Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?

Сегодня День Победы. День, когда мы вспоминаем всех, кто ушел на войну. Вернувшихся и не вернувшихся. А это десятки миллионов людей. Почти никого из них уже нет в живых: ни тех, кто погиб прямо там, ни тех, кто дожил до Победы. Но остались архивы. Предлагаем вам посмотреть на историю ВОВ через историю призыва и архивных документов.

Кратко: о чём статья?

В 2020 году «Системный Блокъ» исследовал большую базу записей о перемещениях солдат в журналах военно-пересыльных пунктов. Оказалось, что у каждой республики была своя история участия в войне и свой портрет призыва.

Призыв в РСФСР, Казахстане и Киргизии был схож и довольно стабилен на протяжении войны. По ходу войны призывной возраст снижался, а самый большой подъем призыва в РСФСР ожидаемо совпал с началом Великой Отечественной войны. В нем существенна доля взрослых людей старше 22 лет — были призваны резервисты, запасники, отставники.

Совершенно другой портрет призыва наблюдается в республиках, которые были полностью оккупированы в годы войны — Белорусской, Украинской ССР и республиках Прибалтики. Поскольку основной удар первых месяцев войны пришелся на них, провести полноценный призыв удалось далеко не везде, а после оккупации территории он стал невозможен и продолжился только после освобождения. Именно поэтому в Белоруссии призыв в 1944 году был самым многочисленным. Цифры свидетельствуют: несмотря на угон людей на работы в Германию и массовые расправы над местным населением, после отступления Вермахта освобожденные территории все еще могли обеспечить массовое пополнение рядов Красной армии.

Узнать подробности об особенностях призыва в оккупированных республиках, о спаде призыва в 1943 в республиках Кавказа и о трудовом призыве в Узбекской, Таджикской и Турменской ССР можно из полного текста статьи. Там же можно найти динамическую визуализацию данных, содержащую информацию по 14 основным республикам СССР.

Время чтения: 25 минут.

Читать полностью…

Системный Блокъ

05 May 2023 14:01

Бот ChatGPT против человека и других роботов

Новости о развитии искусственного интеллекта попадают на первые полосы различных медиа, а про ChatGPT слышно из каждого утюга. При этом, различным моделям ИИ приходится конкурировать по степени «разумности» не только с человеком, но и между собой. Разбираемся с конкуренцией между моделями ИИ, между ИИ и человеком, преимуществами и недостатками бота ChatGPT и его аналогов, а также моральной ответственностью и человеческим снобизмом.

Кратко: о чем статья?

Сегодня умение нейросетей писать бизнес-планы, тексты для копирайтеров и коды для программистов большинство воспринимает как невероятный прорыв в технологиях. При этом голосовые помощники, которые 12 лет назад вызывали не меньший восторг, уже не кажутся такими революционными: ChatGPT способен написать книгу о ядерной физике, а Siri даже не может переключить трек. Правда, даже у самых современных нейросетей есть свои недостатки: например, основная проблема GPT-4 (подробнее об этой модели — в нашем материале) в том, что она не подключена к интернету и, соответственно, оперирует только информацией, которую получила до сентября 2021 года. И пока Google экстренно дорабатывает свой бот Bard с доступом к сети, Microsoft уже опередил всех своих конкурентов и интегрировал технологию ChatGPT в поисковик Bing, встроенный в браузер Microsoft Edge.

Что же касается сравнения возможностей искусственного и естественного (человеческого) интеллектов, по мнению когнитивного лингвиста Ноама Хомского, самым большим недостатком ИИ является отсутствие способности не только описывать настоящее, но также говорить о том, чего нет, что могло и не могло бы произойти. Машина все еще не справляется с теми задачами, которые требуют человеческого жизненного опыта — разговаривать на любые темы (тест Тьюринга), ориентироваться в пространстве и решать бытовые задачи (кофе-тест Уозняка), а также реализовывать сенсомоторные навыки (парадокс Моравека).

О мнениях специалистов на счет развития ИИ и желании пользователей спровоцировать нейросети — в полной версии статьи (а ещё в ней есть мемы).

Время чтения: 12,5 минут.

Читать полностью…

Системный Блокъ

01 May 2023 14:01

«И вообще хочу на пенсию!»: подборка открыток про труд

Вчитываясь в открытки, что люди отправляли друг другу в прошлом, мы можем не только проследить, сколь распространенным в СССР было пожелание «успехов в труде (или работе)», но и узнать про личный профессиональный опыт учителей, врачей, военных, рабочих заводов и колхозов. В сегодняшней подборке открыток — первая казачка-шофер, учительница, устраивающаяся в киоск, предсказания «экстрасенсши» на карьеру, вечно задерживающаяся зарплата и прочие трудовые будни. В этом посте делимся двумя текстами из подборки.

🔮 Экстрасенсша нагадала

«Дорогие Нина Семёновна и Лидия Алексеевна! Поздравляю вас с Пасхой! Наконец-то кончается зима и наступает время обновления и очередная волна оптимизма. Желаю, конечно, здоровья и мужества. По сравнению с горячкой и волнениями первых 2х месяцев, теперь относительный порядок и спокойствие. Главное — имею уже работу по специальности, среди приятных доброжелательных людей, вобщем [^в общем], просто здорово! (как мне нагадала экстрасенсша). Я о вас помню и буду терпеливо ждать писем, разумеется и сам буду писать, пока не забыл по-русски. Привет родным и знакомым. Обнимаю вас и целую Андрей».

🏭 Хождение по заводам
«Дорогие папа и мама! Вчера получил Вашу открытку. Семян белой акации конечно захвачу, их тут пропасть. Хождение по заводам уже почти закончили. Теперь только пишем отчеты. По одному цеху нам уже отчет подписали. Жара стоит по-прежнему. Снимаю, но проявлять здесь не отдавал ещё. Хотя может быть попробую. О юге пока ничего точно не известно, хотя ходят слухи, что в Москве об этом хлопочут. Если поедем на юг, то я напишу об этом. Вот пока и все о нашей жизни. Всем приветы Крепко целую. Валя. 24/VI.54».

Комментарии волонтёров проекта «Пишу тебе» и остальные открытки про чудодейственную мазь, работу писарем, нехватку учителей и истинное счастье найдёте в полной версии статьи на сайте.

Читать полностью…

Системный Блокъ

21 April 2023 17:20

Миссия России, деградация Европы: какие патриотические фильмы заказывает Минкульт РФ

С 2014 года Министерство культуры России публикует приоритетные для кинопроизводства темы, у которых есть все шансы получить господдержку. Следуя этим рекомендациям, режиссеры сняли, например, «Крым» и новые «А зори здесь тихие...». Рейтинги у этих фильмов на Кинопоиске низкие, но это не останавливает «патриотический продакшн» в РФ. Разбираемся, что для нас снимут в 2023 и насколько это будет в духе времени.

Кратко: о чем статья?

В ноябре 2022 года пресс-служба Министерства культуры России опубликовала список приоритетных в кинопроизводстве тем для получения господдержки на 2023 год. По этому списку режиссеры выбирают будущие сюжеты для фильмов, чтобы потом попросить финансовой поддержки у Фонда Кино и Минкульта.

Такие документы публикуют с 2014 года. Среди кинотем из года в год есть повторяющиеся: от защиты традиционных ценностей до многообразия культур России. Есть и милитаристские темы об истории военных побед и миротворческой миссии России. К 2023 списки заметно изменились и увеличились в среднем на 4-5 пунктов. Теперь режиссерам предлагают снимать кино о популяризации героизма, самоотверженности российских воинов в ходе специальной военной операции и неоколониальной политике стран англосаксонского мира.

При этом военное кино в основном не окупается в широком прокате, а средний балл на Кинопоиске у фильмов, финансируемых из бюджета — 6,4. При этом средний рейтинг остального российское кино про войну за последние 30 лет (240 фильмов, не считая короткого метра) — 4,62. Иначе говоря, если исключить накрутку рейтингов, господдержка пошла фильмам на пользу.

О том, какое участие в финансировании принимают медиахолдинги, сколько миллиардов Фонд Кино выделил на военное кино на безвозвратной основе и какие ещё темы оказались востребованными в этом году — в полном тексте статьи.

Время чтения: 6 минут.

Читать полностью…

Системный Блокъ

17 April 2023 17:00

Путешествие по Свердловской области: Верхотурский кремль и Харитоновский парк

Сегодня рассказываем о двух «Путешествиях с открыткой»: в историю Харитоновского парка в Екатеринбурге и кремля в Верхотурье. Чтобы доехать от одного до другого на машине потребуется четыре часа, чтобы прочитать оба материала — 11,5 минут.

🏰 Верхотурский кремль
В XVII веке, когда было основано Верхотурье, эта территория была окраиной молодого русского государства. Она играла роль форпоста на пути освоения Сибири. Расположенный здесь кремль был последней по времени строительства русской каменной крепостью такого масштаба. Времена осад к тому времени остались в прошлом, поэтому Верхотурский кремль с самого начала имел в основном представительскую функцию. Увидеть его историческую реконструкцию, узнать, как описывал территорию кремля немецкий естествоиспытатель и посмотреть на фотографии Троицкого собра в 1900-е и сегодня можно благодаря полной версии статьи на сайте.

🌳 Первый общественный парк Екатеринбурга

Общественные сады и парки в дореволюционной России были редкостью. Фактически они появились к концу XVIII-началу XIX века из-за популярности романтизма. Превратить в такой парк «пустопорожнее» место в 1808 году решил купец Л. И. Расторгуев, а благоустройством занялся его зять — П. Я. Харитонов. Правда, процесс затянулся, так что первым в Екатеринбурге общественным садом для отдыха парк с открытки стал почти тридцать лет спустя, а его планировка окончательно сложилась только в 1840-х годах. Узнать о судьбе Парка в XX веке и сравнить план 1856 года с советскими и современными фотографиями можно, обратившись к полному материалу.

Читать полностью…

Системный Блокъ

14 April 2023 08:02

Верните мне мой 2013: что происходит с открытыми государственными данными в России

Открытые данные существуют в России с 2013 года. Тогда был принят закон об обязательной публикации государственной отчетности. Но уже много лет доступ к таким данным сокращается. В 2022 процесс «закрытия» данных ускорился. Рассказываем, какой государственной статистики стало меньше в открытом доступе за последние три года.

Кратко: о чём статья?

В начале февраля 2023 года Валентина Матвиенко предложила ввести мораторий на государственные закупки до конца «спецоперации». Это, по ее мнению, позволит эффективно освоить «выделяемые средства для развития страны и инвестиций в экономику». Эксперты Трансперенси Интернешнл-Р* утверждают, что это может поставить под угрозу конкуренцию за бюджетные средства страны: скорее всего, заказчики смогут отказаться от конкурсных процедур и не публиковать данные о закупках в Единой информационной системе (ЕИС).

Это не первые государственные данные, находящиеся под угрозой закрытия с начала полномасштабного военного конфликта в Украине. Проект «Если быть точным» в своем в своем Telegram-канале указал как минимум 14 закрытых с 24 февраля источников государственных открытых данных.

В конце февраля был принят закон, разрешающий правительству приостанавливать обновление любой государственной статистики. Неизвестно, какие данные окажутся закрытыми следующими, поскольку теперь федеральные и региональные органы власти могут в любой момент самостоятельно прекратить публиковать свою отчетность.

О том, какие данные стали закрытыми ещё до 2022 года, к чему это привело и под какими предлогами ограничивался доступ — в полном тексте статьи.

Время чтения: 3 минуты.

*признан в РФ иностранным агентом

Читать полностью…

Системный Блокъ

07 April 2023 17:00

WWW вместо СССР: 30 лет спустя

7 апреля — день рождения Рунета. В этот день в 1994 году была зарегистрирована доменная зона RU. Вспоминаем, какой путь прошел Рунет за эти 30 лет, в спецпроекте «WWW вместо СССР» от «Системного Блока». В нём мы решили посмотреть на известные и не очень события 30 лет спустя с точки зрения информационных технологий и рассказать на примерах о том, как интернет-конференции, соцсети и мобильные игры уже повлияли и влияют прямо сейчас на общественно-политические процессы.

Кратко: как устроена статья?

Команда проекта отобрала события, разбила их по темам и разнесла на три таймлайна (1991-2000, 2001-2010, 2010-2021): от запуска универсальной интернет-энциклопедии 15 января 2001 года до блокировки Трампа в социальных сетях в январе 2021.

А ещё снабдила комментариями экспертов и специалистов. Делимся с вами тремя цитатами:

🌉 Полина Колозариди, академический руководитель DH-магистратуры в ИТМО, проводница цифровой инфраструктуры и исследований о мосте в разные стороны

Интернета в СССР не было, а в России и других постсоветских странах он появился. Мы не знаем, был ли бы интернет таким как мы его знаем, продержись Советский Союз ещё лет 10, 20 или 30. Но мы точно знаем, что сетевое общение стало для людей важным способом поддерживать связь. Во-первых, с теми, кто говорит с ними на одном языке: например, русском или армянском, вне зависимости от того, где оказались носители языка в начале 1990-х годов. Во-вторых, важна была и международная связь между университетами или банками. Это было так же важно в начале существования Глобальной Сети Интернет (30 лет назад это высокопарное название звучало куда уместнее, чем сегодня). Интернет оказался мостом в разные стороны, и до сих пор работает на объединение разных групп. И кстати, на разъединение тоже.

💬 Дмитрий Руденкин, кандидат социологических наук, доцент УрФУ об общении

Подарив невиданную степень свободы перемещения и выбора образа жизни, информационные технологии тут же умудрились поставить человека в ситуацию, когда информацию о нем постоянно собирает даже его собственный телефон. Предоставив возможность для общения с любым человеком в любой точке мира, информационные технологии минимизировали личное общение между людьми и практически полностью перевели его в бездушный онлайн. Сегодня перед человеком встаёт множество вопросов, которые даже в голову никому бы не пришли еще менее полувека назад.

⚔️ Даниил Скоринкин, главный редактор «Системного блока» об обоюдном оружии

Году в 2011-м наивно хотелось верить, что наличие децентрализованной медиасреды сделает авторитаризмы, держащиеся на телевизоре и полицейской дубинке, нежизнеспособными. К 2021-му все уже поняли, что это не так. Информационные технологии оказались таким же обоюдоострым орудием, как меч, письменность, автомат Калашникова и деление атомного ядра.

Посмотреть таймлайны, узнать, что в 2021 году говорили о развитии информационных технологий другие эксперты, и подумать, соотносится ли это с реальностью 2023 года, можно благодаря полному тексту статьи.

Читать полностью…

Системный Блокъ

01 April 2023 17:10

Смех и слезы в интернете

1 апреля вспоминаем наш материал про 😄, 🤣 и 🤡. Рассказываем, как люди начали пользоваться эмотиконами — и как теперь их семантику изучают компьютерными методами. Посвящается тем, кто хотя бы раз не мог понять, ироничен 👍 или нет.

Кратко: о чём статья?

Во второй половине XX века с развитием технологий, позволяющих расширить границы письменного общения, люди стали писать чаще, больше и короче. В 1969 году Владимир Набоков хотел «придумать какой-нибудь типографический знак, обозначающий улыбку», а уже в 2000-х эмодзи захватили мессенджеры и Интернет.

Сегодня эмодзи и их значения активно изучаются специалистами в области NLP (Natural Language Processing), которые создали целую Emoji-арифметику. Для векторных представлений смайликов было разработано «правило суммы значений». Для обычной модели word2vec (подробнее о ней — в этом материале) его часто описывают так: король-мужчина + женщина = королева. А ещё с 2017 года Яндекс.Переводчик умеет переводить тексты в эмодзи, используя «словарный» алгоритм: переводчик выбирает изображение, в описании которого используется введенное слово. Вот так, например, он представляет «Системный Блокъ» сегодня: ⚙️ ⚒.

Сравнить этот перевод с предложенным в 2020, узнать, как модели обучали на постах из социальных сетей и по каким критериям оценивалась близость разных эмодзи можно из полного текста статьи.

Время чтения: 8 минут.

Читать полностью…

Системный Блокъ

30 March 2023 17:31

Цифровой Ван Гог: на грани вечности

Сегодня 170 лет Винсенту Ван Гогу — художнику, столь же непризнанному при жизни, сколь и знаменитому после смерти. Некоторые знают о нём благодаря легенде об отрезанном ухе. Другие вспоминают его единственную проданную картину «Подсолнухи». Есть те, кто вдохновляется его биографией, письмами и поиском призвания как автора. Вспоминаем материал «Системного Блока» о цифровых проектах, которые будут полезны как исследователям, так и поклонникам Ван Гога.

Кратко: о чём статья?

В основе литературного корпуса «Vincent Van Gogh. Letters» лежат письма, которые Ван Гог писал и получал с 1853 по 1890-е годы. На сайте можно найти и прочитать 903 письма, 820 из которых отправил сам художник (причём 651 из них — брату Тео). Помимо материалов о художнике, исследователи также собрали архив его работ, черновиков и редакторских эссе, уделили внимание планам местности и биографии. Документы можно искать по ключевым словам, корреспондентам, периоду и месту написания.

Другой масштабный проект о жизни художника — анимационный полнометражный фильм «Ван Гог: С любовью, Винсент». Команда из 100 художников два года создавала вручную 62450 кадров на холсте согласно технике Ван Гога. Каждый из них перетекает друг в друга, из-за чего фильм воспринимается как одна большая живая картина. Ещё одну ожившую картину создал цифровой художник Петрос Врелис, сделав интерактивным изображение «Звездной ночи», одной из самых известных картин Ван Гога.

Узнать больше о том, как создавался проект «Vincent Van Gogh. Letters» и о том, как «оживляли» картины художника авторы разных выставок можно из полного текста статьи.

Время чтения: 9,5 минут.

Читать полностью…

Системный Блокъ

26 March 2023 14:01

Как работает GPT-3 — предшественница самой продвинутой языковой модели

14 марта состоялся релиз GPT-4 — самой продвинутой языковой модели на сегодняшний день. Если вы не успели разобраться с её предшественницей, GPT-3, предлагаем вспомнить нашу статью 2021 года. GPT-3 отлично справлялась написанием целых эссе на заданную тему, удачно отвечала на вопросы, а также писала стихи и программный код. «Системный Блокъ» рассказал, как она работает.

Кратко: о чем статья?

Для обучения GPT-3 применялись прорывные методы контекстного обучения: модель, ранее уже предобученная на огромном корпусе текстов, должна выполнить задачи, предсказав ответ по аналогии с предложенными примерами. Это не обучение модели с нуля, а дообучение, которое требует значительно меньше времени и ресурсов.

Во время контекстного обучения для решения каждой задачи GPT-3 применялось три вида настроек. Few-Shot learning — «обучение в несколько приемов», когда на вход предобученной модели подается описание задачи на естественном языке и несколько примеров ожидаемых результатов. Например, задание на перевод с англиского на французский может быть таким: «sea otter → loutre de mer» и «peppermint → menthe poivrée», а теперь переведи «plush giraffe». One-Shot learning — «однократное обучение», то же, что FS, но дается лишь один пример. И, наконец, Zero-Shot метод — «нулевое», лишь инструкция на естественном языке, никаких примеров.

Примененные методы обучения позволили добиться отличных результатов. GPT-3, например, значительно превосходит другие модели при переводе с французского, немецкого и румынского языков на английский. Отвечая на вопросы об устройстве мира с точки зрения физики, модель показала в среднем 81% точности понимания доказанных фактов о мире.

О преимуществах и недостатках обучения GPT-3, архитектуре строения модели и других результатах обучения узнаете из полного текста статьи.

Время чтения: 8 минут.

Читать полностью…

Системный Блокъ

22 March 2023 16:31

Учить(ся) DH в эпоху GPT

Эта неделя — неделя GPT в «Системном Блоке»: рассказываем о том, как функционируют и справляются со своими задачами языковые модели. Преподаватели программы цифровых гуманитарных исследований ИТМО Гавриил Беляк и Полина Колозариди спросили ChatGPT о том, как технологии AI (Artificial intelligence) меняют цифровую гуманитаристику (DH), устроили критический разбор ответа, а еще обсудили, что будет, когда модели семейства GPT станут обычной частью учебного процесса.

Кратко: о чём статья?

GPT-3 считает, что «искусственный интеллект может революционизировать цифровые гуманитарные науки, обеспечивая более эффективный и сложный анализ больших наборов данных, а также способствуя новым формам сотрудничества и интерпретации», но отмечает и ряд проблем. Например, «интеграция ИИ в DH поднимает важные этические и юридические вопросы, связанные с конфиденциальностью данных, интеллектуальной собственностью и доступом к информации».

В системе производства знания GPT как интерфейс — это глобальная филологическая революция. Риторика и композиция текста оказываются средством производства, а умение анализировать текст является эволюционным преимуществом в новой среде. В начале 2000-х Яндекс потратил кучу сил, чтобы научиться обрабатывать запрос: «дорогой Яндекс, как мне купить подешевле холодильник рядом с домом?» Но к тому времени, как это удалось, мы уже давно писали: «купить холодильник дешево СПб».

Интересно, что в случае с GPT мы видим симметричный процесс. В ответ на интерфейс на естественном языке мы для получения более точных результатов немедленно изобрели специальные приёмы, которые развились в целые языки и методологии промптов. Основной приём, который они используют для детализации результата или обхода блокировок, связан с созданием условной или предполагаемой ситуации, набора правил. Именно такой запрос наиболее близок к логике обучения, лежащей в основе архитектуры сети.

Правда, науки и их каноны скреплены не столько языком, сколько практиками, включая подспудные и порой нерефлексивные действия. В науке важно умение задавать критические вопросы и проявлять чуткость не только к канону или дисциплинарной истории, но и к настоящему. О том, как с этим справляются GPT — в полном тексте беседы на сайте.

Время чтения: 16,5 минут.

Читать полностью…

Системный Блокъ

20 March 2023 16:31

«Крейсер “Россия”», новый роман Достоевского и другие фантазии ChatGPT

Читали ли вы знаменитый роман Достоевского «Девять пятых»? А «Крейсер “Россия”» Льва Толстого? Мы тоже не читали. А вот ChatGPT знает такие романы и даже может пересказать их сюжет. И это не единственное, о чем безбожно врет самая известная нейросеть нашего времени. Подробный разбор фантазий ChatGPT с участием четырех настоящих (живых, не искусственных) ученых — в блоге Бориса Орехова.

🤖 Как работает ChatGPT?

ChatGPT — это система, построенная на мощной нейронной сети, в основе которой архитектура «трансформер». Суть этой нейронки в том, что она умеет предсказывать следование слов друг за другом, чему она научилась на текстах из интернета. «Словами» при этом могут быть самые разные вещи: от знаков препинания до математической нотации. Чем больше задача, стоящая перед ChatGPT, похожа на языковую, тем лучше нейросеть с ней справляется. А вот работать калькулятором на уровне миллионов-миллиардов у искусственного интеллекта не выходит, потому что такие числа редко встречаются в текстах, а значит, у ChatGPT мало шансов их увидеть и запомнить. Хотя мы привыкли, что машины считают лучше людей, в математике ChatGPT будет допускать ошибки.

📚 А как у неё с литературой?

ChatGPT допускает фактические ошибки даже на уровне школьной программы. Да, она прочла всю Википедию, но фактчекинг после работы нейросети нужен все равно основательный. Льву Толстому она, например, приписывает роман «Крейсер “Россия”», «Ревизора» Гоголя и «Отцов и детей» Тургенева. Достоевский же, согласно нейросети, написал четыре великих романа, один из которых — выдуманный.

🎞️ А как у неё с кино?

Если кратко: главные роли в советском фильме «Любовь и голуби» сыграли Леа Сейдж и Эмили Блант, а лучшую экранизацию «Анны Карениной» в 2017 году снял Кирилл Серебренников (спойлер: нет, он такую не снимал).

🇬🇧 Может, надо просто спросить её по-английски?

Если задавать запросы не на русском, а на английском языке, ChatGPT действительно часто даёт более точные ответы. Правда, если спросить про что-то, что не у всех на слуху, искусственный интеллект может зарапортоваться. В ответ на вопрос о самом известном романе Пелевина нейросеть не только предложила неочевидную «Жизнь насекомых», но и породила при пересказе какой-то странный аналог «Скотного двора» Оруэлла, потому что не знает содержания текстов. В её пересказе «Отцов и детей», кстати, появился старый казак Бердяев, а вот ни Базарова, ни Кирсанова не обнаружилось.

О том, кому СhatGPT приписывает основание компании Yandex, какие проблемы у нейросети возникают на этапе интерпретации текста и владеет ли она специальной терминологией, узнаете из полного текста поста в блоге.

Читать полностью…

Системный Блокъ

15 March 2023 18:49

Demhack 6: хакатон по защите свободы и приватности в интернете

25-26 марта состоится хакатон, посвященный свободе, приватности и исследованиям интернета от коллег из Privacy Accelerator. Эти темы часто оказываются в фокусе у «Системного Блока», и мы стараемся смотреть на них через призму данных. На хакатоне появится возможность стать ближе к нашей команде и поработать вместе — мы принесем несколько датасетов и тем от нашего дата-отдела. Подать заявку на участие можно до конца 16 марта. Призовой фонд хакатона — 120 тысяч рублей.

Темы исследований от издания «Системный Блокъ»

📣Импортозамедление: как снизилась скорость интернета в России после вторжения в Украину

В регионах России скорость интернета снизилась в среднем на 7%. При этом в Москве она выросла на треть. Мы предлагаем исследовать данные РКН об инфраструктуре связи в России: какие операторы работают в регионах и какую скорость предлагают. Дополнительно исследовать, как на их предложения повлияли санкции: известные планы развития, тарифы и т.д.

📣От Оксимирона до Ансамбля Христа Спасителя: что признавали экстремизмом в РФ до и после 2022

В 2022 году зарегистрировано на 50% больше преступлений экстремистской направленности. А что становится экстремизмом в интернете и является угрозой государству? Изменилось ли преследование за распространение экстремистских материалов за последний год?

📣 Самоизоляция Рунета: какие российские онлайн-ресурсы недоступны из-за границы

Предлагаем исследовать, как выглядит российский интернет извне, какие государственные и общественно значимые ресурсы доступны теперь только через VPN.

Читать полностью…

Subscribe to a channel