Нейросеть Сбера способна генерировать тексты на 61 языке

По инф. Телеинформа

20 Июля 2023 г.

Сбер открыл доступ к нейросетевой модели генерации текста для русского языка ruGPT-3.5 13B, сообщает пресс-служба банка.

Её дообученная версия лежит в основе сервиса GigaChat. Также банк выложил новую версию модели mGPT 13B – самую большую из семейства многоязычных моделей Сбера, способную генерировать тексты на 61 языке. Обе модели доступны на HuggingFace, и их могут использовать все разработчики (модели опубликованы под открытой лицензией MIT от английского MIT License – лицензия открытого и свободного программного обеспечения, разработанная Массачусетским технологическим институтом).

ruGPT-3.5

Внутри GigaChat находится целый ансамбль моделей – NeONKA (NEural Omnimodal Network with Knowledge-Awareness). Для его создания нужно было выбрать базовую языковую модель, которую потом можно было обучать на инструктивных данных. Russian Generative Pretrained Transformer версии 3.5 с 13 миллиардов параметров (ruGPT-3.5 13B) – новая версия нейросети ruGPT-3 13B.

Это современная модель генерации текста для русского языка на основе доработанной исследователями Сбера архитектуры GPT-3 от OpenAI. Модель ruGPT-3.5 13B содержит 13 миллиардов параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования. Длина контекста модели составляет 2048 токенов. Она обучена на текстовом корпусе размером около 1 Тб, в который, помимо уже использованной для обучения ruGPT-3 большой коллекции текстовых данных из открытых источников, вошли, например, часть открытого сета с кодом The Stack от коллаборации исследователей BigCode и корпусы новостных текстов. Финальный чекпоинт модели – это базовый претрейн для дальнейших экспериментов.

Модель также доступна на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub. В обучении модели участвовали команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI.

mGPT

Также в открытом доступе опубликована многоязычная модель mGPT 13B под открытой лицензией MIT. Версия mGPT 13B содержит 13 миллиардов параметров и способна продолжать тексты на 61 языке, включая языки стран СНГ и малых народов России. Длина контекста модели составляет 512 токенов. Она была обучена на 600 Гб текстов на разных языках, собранных из очищенных и подготовленных датасетов multilingual C4 и других открытых источников.

Модель может использоваться для генерации текста, решения различных задач в области обработки естественного языка на одном из поддерживаемых языков путём дообучения или в составе ансамблей моделей.

Модель также доступна на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub.

– Сбер как ведущая технологическая компания выступает за открытость технологий и обмен опытом с профессиональным сообществом, ведь любые разработки и исследования имеют ограниченный потенциал в замкнутой среде. Поэтому, мы уверены, что публикация обученных моделей подстегнёт работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, создавать на их базе собственные технологические продукты и решения. Пробуйте, экспериментируйте и обязательно делитесь полученными результатами, – говорит старший вице-президент, CTO, руководитель блока «Технологии» Сбербанка Андрей Белевцев.

По инф. Телеинформа

Расскажите об этом своим друзьям!

Ксения Собчак задолжала налоговой более 5 миллионов рублей

Ресторан журналистки Ксении Собчак задолжал Федеральной налоговой службе (ФНС) 5,6 миллиона рублей. Об этом сообщает издание «Страсти».
Лайма Вайкуле переживает за российскую молодёжь

Певица Лайма Вайкуле выразила мнение, что Россию настигнут времена СССР, поэтому артистка переживает за отечественную молодежь. Своим мнением исполнительница поделилась в беседе с «Латвийским радио 4».
Владимир Машков о съёмках в кино: «Даже не рассматриваю приглашения»

Народный артист России, председатель Союза театральных деятелей (СТД) РФ Владимир Машков рассказал о причинах своего отказа от съемок в кино. Его комментарий приводит MK.RU.
Юлия Высоцкая зарабатывает миллиарды на аптечном бизнесе

Ведущая передачи «Едим дома» Юлия Высоцкая заработала порядка 10 млрд рублей в качестве совладелицы сети аптек «Планета здоровья». Об этом сообщает «Звездач».
Дженнифер Лопес высказалась по поводу пятой свадьбы

Певица Дженнифер Лопес нечасто говорит о своей личной жизни. Но во время концерта в Испании рассказала, планирует ли выходить замуж в пятый раз.
Уголок шахматиста. Шахматный Иркутск 1945 года

Продолжаем знакомиться с шахматной хроникой 1945 года. Пока мы делаем это лишь по газете «Восточно-Сибирская правда», но не исключено, что в какой-то момент подключим и другие издания, выходившие в нашем регионе в ту пору. В прошлом выпуске мы осветили «тот цветущий и поющий яркий май», который, правда, в плане шахмат не был сколько-нибудь ярким, но главное свершилось – наступил мир.
Записка из прошлого

Новая подборка интересных фактов со всего света с комментариями нашего обозревателя.
Гонорары артистов предлагают обложить дополнительным налогом

Глава Федерального проекта по борьбе с коррупцией (ФПБК) Виталий Бородин предложил ввести дополнительный налог для звёзд российского шоу-бизнеса. Об этом пишет «Абзац».
Супруга Василия Ливанова о его самочувствии: «Ему много ещё чего предстоит»

Режиссёр Елена Ливанова в беседе с журналистами рассказала, как её супруг, народный артист РСФСР Василий Ливанов, отметит свой 90-летний юбилей.
Анфиса Чехова призвала маркировать на сайтах знакомств альфонсов, женатых и судимых мужчин

Телеведущая Анфиса Чехова выступила с неожиданной инициативой по отношению к мужчинам. Её слова передает Telegram-канал «Звездач».
Новая хозяйка дома обнаружила за шкафом тайную комнату

Когда покупаешь дом, обычно смотришь его со всех сторон, и внутри, и снаружи, и сюрпризов там точно быть не должно. Но вот жительница американского штата Вашингтон обнаружила в своем новом доме тайную комнату.
Приют для женщин, нуждающихся в реабилитации от зависимости, откроют в Петербурге

Открыть в Петербурге приют для женщин, которым нужна реабилитация от зависимости, планирует местная благотворительная организация «Ночлежка». Эта структура помогает бездомным. Приют будет называться «Дом на полдороги».
Военные врачи пойдут под суд за поборы с раненых бойцов спецоперации

Два уголовных дела о коррупции в 419-м военном госпитале Минобороны России будет рассматривать военный суд в Краснодаре. В получении взяток обвиняются три экс-руководителя медучреждения.
Дочь Анастасии Заворотнюк «с удовольствием посмотрит» ремейк «Моей прекрасной няни»

Дочь актрисы Анастасии Заворотнюк Анна призналась, что планирует посмотреть ремейк культового сериала «Моя прекрасная няня», в котором главную роль исполняла её мать, под названием «Няня Оксана».
В России увеличили штрафы для нерадивых родителей

Для родителей, не исполняющих свои обязанности, увеличены штрафы. Закон во втором и третьем чтениях приняла Госдума РФ.
Россиянка наняла для своего экс-супруга киллера

Не все пары, которые разошлись, потом мирно существуют. К примеру, у россиянки из Свердловской области были претензии к бывшему мужу по поводу его общения с ребенком. Из-за этого, да и вообще из личной неприязни женщина решила нанять бывшему благоверному киллера.
Навести в доме порядок стоит в день памяти Сергия Радонежского

В православии есть немало памятных дат. Так, 18 июля люди вспоминают о Сергии Радонежском. В Русской церкви это один из самых почитаемых святых. Он был основателем Троице-Сергиевой лавры, духовным покровителем, помогал многим людям. Отличался скромностью, трудолюбием. В миру был Варфоломеем.
Режиссёра Юрия Кару похоронят на Троекуровском кладбище

Заслуженного деятеля искусств РФ кинорежиссера, сценариста Юрия Кару похоронят 22 июля на Троекуровском кладбище.
На Сахалине медведь поел шашлыки отдыхающих

Взрослый медведь – так себе компания для людей. И им на Сахалине он испортил отдых на природе.
Россияне ждут август, чтобы наесться по приемлемым ценам

Много разных продуктов то и дело своими ценами устремляются ввысь. А вот в августе ряд продовольственных товаров подешевеет. На что ждать снижения?

Тэги:

сбербанк

Нейросеть Сбера способна генерировать тексты на 61 языке

ruGPT-3.5

mGPT

У нас есть похожие статьи и новости: