Searched refs:llama_runtime (Results 1 – 3 of 3) sorted by relevance
178 LlamaRuntime& llama_runtime, in digest_prompt() argument182 const auto prompt_token_batch_size = llama_runtime.GetTokenBatchSize(); in digest_prompt()217 logits = llama_runtime.Run(next_tokens); in digest_prompt()223 const auto logits_type = llama_runtime.GetModelOptions().model_output_type; in digest_prompt()229 LlamaRuntime& llama_runtime, in gen_response() argument237 llama_runtime.SwapModel(1); in gen_response()254 const auto logits_type = llama_runtime.GetModelOptions().model_output_type; in gen_response()265 llama_runtime.GetTokenIndex() < FLAGS_max_token_length) { in gen_response()267 void* logits = llama_runtime.Run({output_token}); in gen_response()302 LlamaRuntime& llama_runtime, in inference() argument[all …]
187 LlamaRuntime& llama_runtime, in digest_prompt() argument191 const auto prompt_token_batch_size = llama_runtime.GetTokenBatchSize(); in digest_prompt()226 logits = llama_runtime.Run(next_tokens); in digest_prompt()232 const auto logits_type = llama_runtime.GetModelOptions().model_output_type; in digest_prompt()238 LlamaRuntime& llama_runtime, in gen_response() argument247 llama_runtime.SwapModel(1); in gen_response()264 const auto logits_type = llama_runtime.GetModelOptions().model_output_type; in gen_response()274 llama_runtime.GetTokenIndex() < modeloptions_.max_token_length) { in gen_response()276 void* logits = llama_runtime.Run({output_token}); in gen_response()311 LlamaRuntime& llama_runtime, in inference() argument[all …]
56 LlamaRuntime& llama_runtime,60 LlamaRuntime& llama_runtime,65 LlamaRuntime& llama_runtime,