georgian-io · benjaminye · Apr 2, 2024 · Apr 2, 2024 · truskovskiyk · Apr 2, 2024
diff --git a/src/__init__.py → llmtune/__init__.py b/src/__init__.py → llmtune/__init__.py
diff --git a/src/data/__init__.py → llmtune/data/__init__.py b/src/data/__init__.py → llmtune/data/__init__.py
diff --git a/src/data/dataset_generator.py → llmtune/data/dataset_generator.py b/src/data/dataset_generator.py → llmtune/data/dataset_generator.py
@@ -6,11 +6,8 @@
 
 import re
 from datasets import Dataset
-from rich.console import Console
-from rich.layout import Layout
-from rich.panel import Panel
 
-from src.data.ingestor import Ingestor, get_ingestor
+from llmtune.data.ingestor import Ingestor, get_ingestor
 
 
 class DatasetGenerator:

diff --git a/src/data/ingestor.py → llmtune/data/ingestor.py b/src/data/ingestor.py → llmtune/data/ingestor.py
diff --git a/src/finetune/__init__.py → llmtune/finetune/__init__.py b/src/finetune/__init__.py → llmtune/finetune/__init__.py
diff --git a/src/finetune/finetune.py → llmtune/finetune/generics.py b/src/finetune/finetune.py → llmtune/finetune/generics.py
@@ -1,5 +1,4 @@
 from abc import ABC, abstractmethod
-from typing import Union, List, Tuple, Dict
 
 
 class Finetune(ABC):

diff --git a/src/finetune/lora.py → llmtune/finetune/lora.py b/src/finetune/lora.py → llmtune/finetune/lora.py
@@ -5,7 +5,6 @@
 
 import bitsandbytes as bnb
 from datasets import Dataset
-from accelerate import Accelerator
 from transformers import (
     AutoTokenizer,
     AutoModelForCausalLM,
@@ -23,10 +22,10 @@
 from rich.console import Console
 
 
-from src.pydantic_models.config_model import Config
-from src.utils.save_utils import DirectoryHelper
-from src.finetune.finetune import Finetune
-from src.ui.rich_ui import RichUI
+from llmtune.pydantic_models.config_model import Config
+from llmtune.utils.save_utils import DirectoryHelper
+from llmtune.finetune.generics import Finetune
+from llmtune.ui.rich_ui import RichUI
 
 
 class LoRAFinetune(Finetune):

diff --git a/src/inference/__init__.py → llmtune/inference/__init__.py b/src/inference/__init__.py → llmtune/inference/__init__.py
diff --git a/src/inference/inference.py → llmtune/inference/generics.py b/src/inference/inference.py → llmtune/inference/generics.py
@@ -1,5 +1,4 @@
 from abc import ABC, abstractmethod
-from typing import Union, List, Tuple, Dict
 
 
 class Inference(ABC):

diff --git a/src/inference/lora.py → llmtune/inference/lora.py b/src/inference/lora.py → llmtune/inference/lora.py
@@ -4,20 +4,17 @@
 import csv
 
 from transformers import TextIteratorStreamer
-from rich.console import Console
-from rich.table import Table
-from rich.live import Live
 from rich.text import Text
 from datasets import Dataset
 from transformers import AutoTokenizer, BitsAndBytesConfig
 from peft import AutoPeftModelForCausalLM
 import torch
 
 
-from src.pydantic_models.config_model import Config
-from src.utils.save_utils import DirectoryHelper
-from src.inference.inference import Inference
-from src.ui.rich_ui import RichUI
+from llmtune.pydantic_models.config_model import Config
+from llmtune.utils.save_utils import DirectoryHelper
+from llmtune.inference.generics import Inference
+from llmtune.ui.rich_ui import RichUI
 
 
 # TODO: Add type hints please!

diff --git a/src/pydantic_models/__init__.py → llmtune/pydantic_models/__init__.py b/src/pydantic_models/__init__.py → llmtune/pydantic_models/__init__.py
diff --git a/src/pydantic_models/config_model.py → llmtune/pydantic_models/config_model.py b/src/pydantic_models/config_model.py → llmtune/pydantic_models/config_model.py
diff --git a/src/qa/__init__.py → llmtune/qa/__init__.py b/src/qa/__init__.py → llmtune/qa/__init__.py
diff --git a/src/qa/qa.py → llmtune/qa/generics.py b/src/qa/qa.py → llmtune/qa/generics.py
@@ -1,9 +1,9 @@
 from abc import ABC, abstractmethod
 from typing import Union, List, Tuple, Dict
 import pandas as pd
-from src.ui.rich_ui import RichUI  
+from llmtune.ui.rich_ui import RichUI
 import statistics
-from src.qa.qa_tests import *
+from llmtune.qa.qa_tests import *
 
 
 class LLMQaTest(ABC):
@@ -18,6 +18,7 @@ def get_metric(
     ) -> Union[float, int, bool]:
         pass
 
+
 class QaTestRegistry:
     registry = {}
 
@@ -27,18 +28,22 @@ def inner_wrapper(wrapped_class):
             for name in names:
                 cls.registry[name] = wrapped_class
             return wrapped_class
+
         return inner_wrapper
 
-    @classmethod 
+    @classmethod
     def create_tests_from_list(cls, test_name: str) -> List[LLMQaTest]:
         return [cls.create_test(test) for test in test_names]
 
-class LLMTestSuite():
-    def __init__(self, 
-                 tests:List[LLMQaTest],
-                 prompts:List[str],
-                 ground_truths:List[str],
-                 model_preds:List[str]) -> None:
+
+class LLMTestSuite:
+    def __init__(
+        self,
+        tests: List[LLMQaTest],
+        prompts: List[str],
+        ground_truths: List[str],
+        model_preds: List[str],
+    ) -> None:
 
         self.tests = tests
         self.prompts = prompts

diff --git a/src/qa/qa_tests.py → llmtune/qa/qa_tests.py b/src/qa/qa_tests.py → llmtune/qa/qa_tests.py
@@ -1,4 +1,4 @@
-from src.qa.qa import LLMQaTest
+from llmtune.qa.generics import LLMQaTest
 from typing import Union, List, Tuple, Dict
 import torch
 from transformers import DistilBertModel, DistilBertTokenizer
@@ -8,7 +8,7 @@
 from nltk.corpus import stopwords
 from nltk.tokenize import word_tokenize
 from nltk import pos_tag
-from src.qa.qa import TestRegistry
+from llmtune.qa.generics import TestRegistry
 
 model_name = "distilbert-base-uncased"
 tokenizer = DistilBertTokenizer.from_pretrained(model_name)
@@ -18,6 +18,7 @@
 nltk.download("punkt")
 nltk.download("averaged_perceptron_tagger")
 
+
 @TestRegistry.register("summary_length")
 class LengthTest(LLMQaTest):
     @property
@@ -29,6 +30,7 @@ def get_metric(
     ) -> Union[float, int, bool]:
         return abs(len(ground_truth) - len(model_prediction))
 
+
 @TestRegistry.register("jaccard_similarity")
 class JaccardSimilarityTest(LLMQaTest):
     @property
@@ -47,6 +49,7 @@ def get_metric(
         similarity = intersection_size / union_size if union_size != 0 else 0
         return similarity
 
+
 @TestRegistry.register("dot_product")
 class DotProductSimilarityTest(LLMQaTest):
     @property
@@ -69,6 +72,7 @@ def get_metric(
         )
         return dot_product_similarity
 
+
 @TestRegistry.register("rouge_score")
 class RougeScoreTest(LLMQaTest):
     @property
@@ -82,6 +86,7 @@ def get_metric(
         scores = scorer.score(model_prediction, ground_truth)
         return float(scores["rouge1"].precision)
 
+
 @TestRegistry.register("word_overlap")
 class WordOverlapTest(LLMQaTest):
     @property
@@ -116,6 +121,7 @@ def _get_pos_percent(self, text: str, pos_tags: List[str]) -> float:
         total_words = len(text.split(" "))
         return round(len(pos_words) / total_words, 2)
 
+
 @TestRegistry.register("verb_percent")
 class VerbPercent(PosCompositionTest):
     @property
@@ -129,6 +135,7 @@ def get_metric(
             model_prediction, ["VB", "VBD", "VBG", "VBN", "VBP", "VBZ"]
         )
 
+
 @TestRegistry.register("adjective_percent")
 class AdjectivePercent(PosCompositionTest):
     @property
@@ -140,6 +147,7 @@ def get_metric(
     ) -> float:
         return self._get_pos_percent(model_prediction, ["JJ", "JJR", "JJS"])
 
+
 @TestRegistry.register("noun_percent")
 class NounPercent(PosCompositionTest):
     @property

diff --git a/src/ui/__init__.py → llmtune/ui/__init__.py b/src/ui/__init__.py → llmtune/ui/__init__.py
diff --git a/src/ui/ui.py → llmtune/ui/generics.py b/src/ui/ui.py → llmtune/ui/generics.py
diff --git a/src/ui/rich_ui.py → llmtune/ui/rich_ui.py b/src/ui/rich_ui.py → llmtune/ui/rich_ui.py
@@ -7,8 +7,8 @@
 from rich.live import Live
 from rich.text import Text
 
-from src.ui.ui import UI
-from src.utils.rich_print_utils import inject_example_to_rich_layout
+from llmtune.ui.generics import UI
+from llmtune.utils.rich_print_utils import inject_example_to_rich_layout
 
 console = Console()
 

diff --git a/src/utils/__init__.py → llmtune/utils/__init__.py b/src/utils/__init__.py → llmtune/utils/__init__.py
diff --git a/src/utils/ablation_utils.py → llmtune/utils/ablation_utils.py b/src/utils/ablation_utils.py → llmtune/utils/ablation_utils.py
diff --git a/src/utils/rich_print_utils.py → llmtune/utils/rich_print_utils.py b/src/utils/rich_print_utils.py → llmtune/utils/rich_print_utils.py
diff --git a/src/utils/save_utils.py → llmtune/utils/save_utils.py b/src/utils/save_utils.py → llmtune/utils/save_utils.py
@@ -16,7 +16,7 @@
 
 from sqids import Sqids
 
-from src.pydantic_models.config_model import Config
+from llmtune.pydantic_models.config_model import Config
 
 NUM_MD5_DIGITS_FOR_SQIDS = 5  # TODO: maybe move consts to a dedicated folder
 

diff --git a/toolkit.py b/toolkit.py
@@ -8,13 +8,13 @@
 import torch
 import typer
 
-from src.pydantic_models.config_model import Config
-from src.data.dataset_generator import DatasetGenerator
-from src.utils.save_utils import DirectoryHelper
-from src.utils.ablation_utils import generate_permutations
-from src.finetune.lora import LoRAFinetune
-from src.inference.lora import LoRAInference
-from src.ui.rich_ui import RichUI
+from llmtune.pydantic_models.config_model import Config
+from llmtune.data.dataset_generator import DatasetGenerator
+from llmtune.utils.save_utils import DirectoryHelper
+from llmtune.utils.ablation_utils import generate_permutations
+from llmtune.finetune.lora import LoRAFinetune
+from llmtune.inference.lora import LoRAInference
+from llmtune.ui.rich_ui import RichUI
 
 hf_utils.logging.set_verbosity_error()
 torch._logging.set_logs(all=logging.CRITICAL)