Service

GitHub - brody-0125/dart_sentencepiece_tokenizer: A lightweight, pure Dart implementation of SentencePiece tokenizer. Supports BPE (Gemma) and Unigram (Llama) algorithms.

brody-0125

2026.02.08

·GitHub·by 권준호

#BPE#Dart#SentencePiece#Tokenizer#Unigram

핵심 포인트

1`dart_sentencepiece_tokenizer`는 SentencePiece 알고리즘(BPE, Unigram)을 순수 Dart로 구현하여 경량화 및 메모리 효율성을 극대화한 토크나이저 라이브러리입니다.
2이 라이브러리는 인코딩/디코딩, 배치 처리, 스트리밍 등 LLM 토크나이징에 필요한 포괄적인 API와 HuggingFace 호환성을 제공하며, 최적화된 BPE 병합으로 높은 성능을 자랑합니다.
3웹, 서버, Flutter 등 다양한 Dart 환경에서 활용 가능하며, ONNX Runtime 통합 및 초당 50만 토큰 이상의 처리량을 통해 LLM 애플리케이션 개발을 효과적으로 지원합니다.

List<String>

Service

brody-0125

2026.02.08

·GitHub·by 권준호

#BPE#Dart#SentencePiece#Tokenizer#Unigram

1`dart_sentencepiece_tokenizer`는 SentencePiece 알고리즘(BPE, Unigram)을 순수 Dart로 구현하여 경량화 및 메모리 효율성을 극대화한 토크나이저 라이브러리입니다.
2이 라이브러리는 인코딩/디코딩, 배치 처리, 스트리밍 등 LLM 토크나이징에 필요한 포괄적인 API와 HuggingFace 호환성을 제공하며, 최적화된 BPE 병합으로 높은 성능을 자랑합니다.
3웹, 서버, Flutter 등 다양한 Dart 환경에서 활용 가능하며, ONNX Runtime 통합 및 초당 50만 토큰 이상의 처리량을 통해 LLM 애플리케이션 개발을 효과적으로 지원합니다.

List<String>