LLM合成データ作成
- 特定のプログラミング言語、特定ドメインのマルチターン会話に関するInstruction Tuning用の合成データ作成プロジェクトを担当
- データの質と多様性を担保するために、LLMのユースケースや要件をドメインエキスパートやLLMのプロバイダーと整理
- OSS-Instruct, SelfCodeAlign, Metacognitive Promptingなどをベースに合成パイプラインを整備
機械学習エンジニアとして、画像認識や LLM 領域のプロジェクトに従事
ロボティクス&AI領域でグラフニューラルネットワークを用いた人間状態認識を研究した後、
SaaS 企業でWebアプリケーションのバックエンド開発を経て現在に至る
システムエンジニアリング、AI、データサイエンス、ロボティクス、などが興味領域
This paper is a compilation of my master's thesis, which Yani graciously summarized and enhanced by adding comparisons with previous studies. The repository for the system used in the research is uploaded on my GitHub.