Популярные темы

Для создания модели казахского языка Kaz LLM начали собирать данные

Дата: 27 июня 2024 в 16:06


Для создания модели 
казахского языка Kaz LLM начали собирать данные
Стоковые изображения от Depositphotos

Для создания и запуска большой модели казахского языка АО «Национальные информационные технологии» («НИТ») приступает к использованию сервиса от лидера в области машинного обучения – Hugging Face. На базе платформы будет организован открытый сбор данных, к которому может присоединиться профессиональное сообщество Казахстана и держатели открытых данных, сообщает корреспондент центра деловой информации Kapital.kz со ссылкой на пресс-службу «НИТ».

Что такое Hugging Face?

Hugging Face – ведущая платформа, предназначенная для обмена исследованиями в области машинного обучения, на базе которой пользователи могут разрабатывать инструменты и создавать ИИ-модели. Пользователи платформы взаимодействуют с открытым исходным кодом, что делает искусственный интеллект более доступным и поощряет культуру обмена знаниями и прогрессом. Hugging Face помогает делиться моделями ИИ, которые далее в своей работе используют другие компании, включая Google, Microsoft Corp., Amazon, Meta Platforms Inc и другие. За 2023 год на платформе было зарегистрировано более 1,2 млн пользователей, а только в январе 2024 года сайт посетили почти 30 млн человек. В числе самых активных пользователей сервиса жители США, Китая, Японии и Индии.

Для чего это нужно?

Создание современной языковой модели казахского языка – это важный шаг к укреплению цифровой независимости Казахстана и продвижению национальной культуры в глобальном цифровом пространстве. Первым этапом к созданию любой языковой модели является сбор данных.

В результате общего сбора данных и будет создана высококачественная модель обработки казахского языка (NLP). В будущем это поможет не только улучшить автоматический перевод, но и повысить качество и точность обработки текстов на казахском языке в целом.

Представители профессионального IT-сообщества и держатели открытых данных могут присоединиться к сбору. Сбор данных будет осуществляться на специально созданном аккаунте АО «НИТ». Пользователи могут, авторизовавшись на платформе, загружать файлы на аккаунт huggingface.co/nitec. Загрузке подлежат текстовые файлы разных стилей и жанров на казахском языке в форматах txt, .csv, .json.

IrbisGPT обучена на большом наборе данных на казахском языке

Как глобальные тренды ИИ влияют на экономику Казахстана

Cisco инвестирует $1 млрд в ИИ-стартапы

Поставщик ИИ-решений для медицины Tempus AI готовится к IPO

Подпишитесь на недельный обзор главных казахстанских и мировых событий

По сообщению сайта kapital.kz

Поделитесь новостью с друзьями