Skip to content

Updates for text_extraction_benchmarks#546

Merged
NastyBoget merged 2 commits intoispras:developfrom
hellhoundisalab:update-dockerfile
Dec 5, 2025
Merged

Updates for text_extraction_benchmarks#546
NastyBoget merged 2 commits intoispras:developfrom
hellhoundisalab:update-dockerfile

Conversation

@hellhoundisalab
Copy link
Contributor

При запуске скрипты бенчмарков из под контейнера столкнулся с тем, что

  1. Скрипт падает на моменте вызова accsum
  2. .tiff и .jpeg изображения из тестируемого датасета не обрабатываются PdfImageReader()

Первый пункт вылечился линкованием /usr/lib/x86_64-linux-gnu/libutf8proc.so к /usr/lib/libutf8proc.so.1 (требуется accsum) и, потенциально, ручной установкой libutf8proc-dev. По второму пункту - добавил потерянные расширения в recognized_extensions.image_like_format, они распознаются opencv, который используется PdfImageReader.

@hellhoundisalab hellhoundisalab changed the base branch from master to develop October 1, 2025 15:33
@NastyBoget NastyBoget self-requested a review November 20, 2025 13:39
@NastyBoget NastyBoget added the bug Something isn't working label Nov 20, 2025
@NastyBoget NastyBoget merged commit 6715b4a into ispras:develop Dec 5, 2025
3 checks passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

bug Something isn't working

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants