Имя: Пароль:
1C
 
Документооборот 3. ТекстыФайлов и ТекстыВерсийФайлов
0 WhiteDragon93
 
04.10.24
10:55
Всех с пятницей

Вводные:
-Документооборот КОРП, редакция 3.0 (3.0.13.30);
-Файлы живут в базе, хранилище двоичных данных не развернуто;
-Полнотекстовый поиск отключен.
-Автор топика с ДО работал мало, потому и просит помощи

Проблема: порядка 350 ГБ занимают двоичные данные, такую базу, соответственно, тяжело обслуживать.

РегистрСведений.ТекстыВерсийФайлов - 115 ГБ
Справочник.ВерсииФайлов - 82 ГБ
РегистрСведений.ТекстыФайлов - 57 ГБ
РегистрСведений.ДвоичныеДанныеФайлов - 44 ГБ
Справочник.Файлы - 40 ГБ

Переносом файлов в тома избавляемся от объемов РС ДвоичныеДанныеФайлов, но остается еще ~300 ГБ.

Собственно, вопроса 2:

1. Верно ли я понимаю назначение текстов файлов и текстов версий файлов? Они используются только для полнотекстового поиска по текстовым образам и, если эта функциональность не востребована, можно от этих данных отказаться.

2. Здесь посложнее, вопрос дублирования текстовых образов в справочниках файлов и регистрах. В обработчиках обновлений 3.0.10.10 и 3.0.10.11 есть код переноса образов в регистры (база, о которой идет речь, проходила эти обновления), но алгоритмов очистки не нашел ни в одном обработчике вплоть до актуального релиза ДО и такие реквизиты как "УдалитьТекстХранилище" у справочника "Файлы" на месте. Кто-то занимался этим вопросом, можно их безопасно очищать? (нетиповой функционал оставляем за скобками)
1 maxab72
 
04.10.24
10:58
1. Да, для поиска в файлах по тексту после распознавания. Файлы же могут быть приложены как картинки, без текстового слоя.
2. Не интересовался. Поэтому ничего не скажу.
2 Eiffil123
 
04.10.24
11:12
(1) 1. не обязательно после распознавания. Подгружают например файл pdf, а в нем есть текстовый слой. Тогда он тоже будет извлечен для ускорения поиска.


В целом за заполнение этих регистров отвечает рег.задание "Извлечение текста". Если полнотекстовый поиск действительно не нужен, я бы сделал так:
1. отключил это рег.задание
2. Посмотрел недельку, что для новых документов проблем не возникает
3. Очистил бы записи в регистре (опять таки надо на новых документах посмотреть, нужно ли их полнотью удалять или только хранилищезначений очищать). Ну на всякий случай есть бэкапы, откуда эти регистры можно восстановить

после этого размер базы скорее всего не уменьшится, надо сделать шринк
3 WhiteDragon93
 
04.10.24
11:35
(2) рег. задание как раз было отключено и наполнение регистров происходило в рамках клиентских сеансов

Вот тут описано поведение системы в зависимости от ФО
https://its.1c.ru/db/pubdocflow300quest#content:133:hdoc:_top:%D0%B8%D0%B7%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5

В дополнение к своему второму вопросу из (0): прошелся поиском по конфигурации (версии из топика и последней актуальной на данный момент), поискал реквизит "УдалитьТекстХранилище", который есть у справочника файлов и версий файлов.

Встречается только в 2 модулях:
ОбщийМодуль.МиграцияДанныхИзВнешнихСистемДО21 - в паре функций модуля выполняется перенос в регистры текстов и очищение у самого справочника;
ОбновлениеИнформационнойБазыДокументооборотАрхив - выполняется только перенос в регистры без очищения хранилища значений в реквизите
4 WhiteDragon93
 
08.10.24
09:56
Дополню тему по результатам своих изысканий, может полезно будет

Очищение (присвоение пустого хранилища значений) реквизитов "УдалитьТекстХранилище" у справочника "Файлы" и "УдалитьТекстХранилище", "УдалитьИзвлеченныйТекст" у справочника "ВерсииФайлов" не повлекло за собой никаких последствий.

Вероятно, вендор не планирует удалять данные реквизиты, в виду ресурсоемкости заполнения, особенно на больших инсталляциях. С выхода обновления, в котором эти данные вынесли в отдельные регистры, прошло уже 1,5 года.

Если ваш ДО проходил обновление 3.0.10.20 от марта 2023, посмотрите, может есть возможность сократить размер базы.
Для оценки размера конкретных реквизитов можно использовать конструкцию РАЗМЕРХРАНИМЫХДАННЫХ() в запросе.

Обращаю внимание, что нетипового функционала в базе не было, предварительно анализируйте доработки

Так же и с очисткой РС "ТекстыВерсийФайлов" и "ТекстыФайлов" не возникло проблем, но компания не пользуется полнотекстовым поиском по файлам, эта информация для них не критична.
5 Eiffil123
 
08.10.24
12:40
(3) так можно оставить ФО "Извлекать только на сервере", а рег.задание выключить из рабочего места управления рег заданиями