Forklog 2025-10-21 12:06:32

DeepSeek представил технологию сжатия текста для ИИ

Китайский ИИ-стартап DeepSeek представил новый мультимодальный ИИ, способный обрабатывать большие и сложные документы с задействованием значительно меньшего количества токенов. DeepSeek-OCR применяет визуальное восприятие как средство сжатия информации. Система стала результатом исследования «роли визуальных энкодеров» для сжатия текста в больших языковых моделях (LLM). Благодаря такому подходу нейросети способны обрабатывать огромные объемы информации без пропорционального роста затрат на вычисления. «С помощью DeepSeek-OCR мы продемонстрировали, что сжатие текста через визуальные представления позволяет сократить количество токенов в 7–20 раз на разных стадиях контекста. Это открывает перспективное направление для решения проблемы длинной истории в LLM», — заявили в компании. DeepSeek-OCR состоит из двух основных компонентов: DeepEncoder — кодировщик; DeepSeek3B-MoE-A570M — декодер. Первый служит основным вычислительным ядром модели. Он сохраняет низкую активность в ходе обработки изображений высокого разрешения, одновременно достигая существенного уровня сжатия. Это позволяет сократить количество токенов. Декодер — модель Mixture-of-Experts с 570 млн параметров — отвечает за восстановление исходного текста. Архитектура делит нейросеть на несколько независимых подсетей — «экспертов», каждый из которых специализируется на своей части входных данных. Вместе они решают общую задачу. DeepSeek-OCR способна анализировать сложно структурированный визуальный контент, таблицы, формулы и геометрические схемы. По словам компании, это делает модель особенно полезной для применения в финансовой сфере и научных исследованиях. Она отметила, что DeepSeek-OCR достигала 97% точности декодирования. При коэффициенте 20х модель сохраняла около 60%. Это подчеркивает ее способность не терять информацию даже при экстремальном уровне сжатия. На OmniDocBench — эталонном тесте для оценки понимания разнообразных документов — DeepSeek-OCR превзошла ведущие модели оптического распознавания текста вроде GOT-OCR 2.0 и MinerU 2.0. При этом она использовала значительно меньше токенов. Напомним, в августе стартап обновил свою флагманскую ИИ-модель V3.

Прочтите Отказ от ответственности : Весь контент, представленный на нашем сайте, гиперссылки, связанные приложения, форумы, блоги, учетные записи социальных сетей и другие платформы («Сайт») предназначен только для вашей общей информации, приобретенной у сторонних источников. Мы не предоставляем никаких гарантий в отношении нашего контента, включая, но не ограничиваясь, точность и обновление. Никакая часть содержания, которое мы предоставляем, представляет собой финансовый совет, юридическую консультацию или любую другую форму совета, предназначенную для вашей конкретной опоры для любых целей. Любое использование или доверие к нашему контенту осуществляется исключительно на свой страх и риск. Вы должны провести собственное исследование, просмотреть, проанализировать и проверить наш контент, прежде чем полагаться на них. Торговля - очень рискованная деятельность, которая может привести к серьезным потерям, поэтому проконсультируйтесь с вашим финансовым консультантом, прежде чем принимать какие-либо решения. Никакое содержание на нашем Сайте не предназначено для запроса или предложения