← Все новости

GLM-Image от Zhipu AI: открытый доступ к китайской нейросети

Разработчики из Zhipu AI открыли доступ к модели GLM-Image, способной генерировать картинки по тексту и референсам. Нейросеть совершила прорыв в отрисовке иероглифов, но пока игнорирует кириллицу, заменяя её латинским транслитом.

GLM-Image от Zhipu AI: открытый доступ к китайской нейросети

Китайская технологическая компания Zhipu AI перевела свою свежую разработку GLM-Image в разряд программного обеспечения с открытым исходным кодом. Данная архитектура поддерживает два ключевых режима работы: создание визуального контента по текстовому описанию и модификацию существующих графических файлов.

На текущий момент основной веб-ресурс разработчиков z.ai еще не интегрировал новинку. Более того, функционировавшая ранее визуальная модель там отключена — пользователям доступны лишь инструменты вызова функций. Тем не менее, портал сохраняет возможность бесплатного тестирования текстовой версии GLM, которая демонстрирует конкурентоспособный уровень ответов.

Технические особенности и тесты

Первые испытания инструмента на мощностях платного провайдера fal.ai выявили значительный прогресс в типографике. В отличие от многих западных аналогов, GLM-Image безупречно отрисовывает сложные китайские иероглифы, не допуская слияния черт или искажения символов. Это указывает на использование колоссального массива специфических данных при обучении нейросети. Однако при попытке работы с русским языком наблюдается характерная особенность: вместо кириллических букв система использует латинскую транслитерацию.

Контекст

Zhipu AI является одним из «единорогов» китайского рынка искусственного интеллекта, стремясь создать полноценную альтернативу решениям от OpenAI. Публикация весов модели в открытый доступ — это стратегический шаг, направленный на формирование вокруг продукта сообщества независимых разработчиков, способных адаптировать технологию под конкретные бизнес-задачи.

Что это значит

Успех в генерации восточной письменности делает GLM-Image эталонным решением для азиатского региона, где точность начертания символов критически важна для маркетинга и дизайна. Для русскоязычного сегмента модель пока представляет интерес скорее как база для дальнейшего дообучения (fine-tuning), поскольку отсутствие прямой поддержки кириллицы ограничивает её использование в нативном виде. Переход к транслиту вместо генерации «галлюцинаций» из случайных палочек говорит о более строгом контроле структуры вывода, чем у моделей предыдущих поколений.

Источник: Хабр