openai[patch]: remove numpy dep (langchain-ai#18034)

al1p · Feb 27, 2024 · 6e618d8 · 6e618d8
1 parent 04bbfea
commit 6e618d8
Show file tree

Hide file tree

Showing 4 changed files with 204 additions and 115 deletions.
diff --git a/libs/partners/openai/langchain_openai/embeddings/base.py b/libs/partners/openai/langchain_openai/embeddings/base.py
@@ -18,7 +18,6 @@
     cast,
 )
 
-import numpy as np
 import openai
 import tiktoken
 from langchain_core.embeddings import Embeddings
@@ -209,9 +208,11 @@ def validate_environment(cls, values: Dict) -> Dict:
                 "please use the `AzureOpenAIEmbeddings` class."
             )
         client_params = {
-            "api_key": values["openai_api_key"].get_secret_value()
-            if values["openai_api_key"]
-            else None,
+            "api_key": (
+                values["openai_api_key"].get_secret_value()
+                if values["openai_api_key"]
+                else None
+            ),
             "organization": values["openai_organization"],
             "base_url": values["openai_api_base"],
             "timeout": values["request_timeout"],
@@ -346,8 +347,22 @@ def _get_len_safe_embeddings(
                     average_embedded = average_embedded.model_dump()
                 average = average_embedded["data"][0]["embedding"]
             else:
-                average = np.average(_result, axis=0, weights=num_tokens_in_batch[i])
-            embeddings[i] = (average / np.linalg.norm(average)).tolist()
+                # should be same as
+                # average = np.average(_result, axis=0, weights=num_tokens_in_batch[i])
+                total_weight = sum(num_tokens_in_batch[i])
+                average = [
+                    sum(
+                        val * weight
+                        for val, weight in zip(embedding, num_tokens_in_batch[i])
+                    )
+                    / total_weight
+                    for embedding in zip(*_result)
+                ]
+
+            # should be same as
+            #  embeddings[i] = (average / np.linalg.norm(average)).tolist()
+            magnitude = sum(val**2 for val in average) ** 0.5
+            embeddings[i] = [val / magnitude for val in average]
 
         return embeddings
 
@@ -456,8 +471,21 @@ async def _aget_len_safe_embeddings(
                     average_embedded = average_embedded.model_dump()
                 average = average_embedded["data"][0]["embedding"]
             else:
-                average = np.average(_result, axis=0, weights=num_tokens_in_batch[i])
-            embeddings[i] = (average / np.linalg.norm(average)).tolist()
+                # should be same as
+                # average = np.average(_result, axis=0, weights=num_tokens_in_batch[i])
+                total_weight = sum(num_tokens_in_batch[i])
+                average = [
+                    sum(
+                        val * weight
+                        for val, weight in zip(embedding, num_tokens_in_batch[i])
+                    )
+                    / total_weight
+                    for embedding in zip(*_result)
+                ]
+            # should be same as
+            # embeddings[i] = (average / np.linalg.norm(average)).tolist()
+            magnitude = sum(val**2 for val in average) ** 0.5
+            embeddings[i] = [val / magnitude for val in average]
 
         return embeddings