chore: setup o200k_base tokenizer #43

mbukeRepo · 2024-05-15T12:00:43Z

This PR integrates the new tokenizer for gpt-4o o200k_base.

Encoding file:
https://openaipublic.blob.core.windows.net/encodings/o200k_base.tiktoken 214

Closes #42

caugner · 2024-05-27T07:51:53Z

README.md

You might also want to update lines 5, 14, and 48-51:

gpt-tokenizer/README.md

Line 5 in 44ce38e

`gpt-tokenizer` is a highly optimized Token Byte Pair Encoder/Decoder for all OpenAI's models (including those used by GPT-2, GPT-3, GPT-3.5 and GPT-4). It's written in TypeScript, and is fully compatible with all modern JavaScript environments.

gpt-tokenizer/README.md

Line 14 in 44ce38e

- Support for all current OpenAI models (available encodings: `r50k_base`, `p50k_base`, `p50k_edit` and `cl100k_base`)

gpt-tokenizer/README.md

Lines 48 to 51 in 44ce38e

- https://unpkg.com/gpt-tokenizer/dist/cl100k_base.js

- https://unpkg.com/gpt-tokenizer/dist/p50k_base.js

- https://unpkg.com/gpt-tokenizer/dist/p50k_edit.js

- https://unpkg.com/gpt-tokenizer/dist/r50k_base.js

Thanks Claas, I applied the requested changes.

mbukeRepo added 4 commits May 15, 2024 13:38

chore: setup o200k_base tokenizer

13157df

feat: added o200k_base to encodings and configured it's specialTokens

2a9da2b

fix: add correct encoding for o200k_base

137e07b

feat: add o200k_base test plans

44ce38e

mbukeRepo marked this pull request as ready for review May 16, 2024 21:28

caugner reviewed May 27, 2024

View reviewed changes

mbukeRepo added 2 commits May 27, 2024 12:14

fix: update readme

0b33e1e

fix: add gpt-4o on readme as supported model

27b4e20

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

chore: setup o200k_base tokenizer #43

chore: setup o200k_base tokenizer #43

mbukeRepo commented May 15, 2024 •

edited

caugner May 27, 2024 •

edited

mbukeRepo May 27, 2024

	- https://unpkg.com/gpt-tokenizer/dist/cl100k_base.js
	- https://unpkg.com/gpt-tokenizer/dist/p50k_base.js
	- https://unpkg.com/gpt-tokenizer/dist/p50k_edit.js
	- https://unpkg.com/gpt-tokenizer/dist/r50k_base.js

chore: setup o200k_base tokenizer #43

Are you sure you want to change the base?

chore: setup o200k_base tokenizer #43

Conversation

mbukeRepo commented May 15, 2024 • edited

caugner May 27, 2024 • edited

Choose a reason for hiding this comment

mbukeRepo May 27, 2024

Choose a reason for hiding this comment

mbukeRepo commented May 15, 2024 •

edited

caugner May 27, 2024 •

edited