我正在做一个文本生成项目——任务是基本上以可读的方式表示统计数据。
我决定这样做的方式是基于模板的:每种数据类型都有一个模板,用于说明句子的形成方式以及可以使用哪些同义词。
我对某种 ML 技术是否可以支持这种基于模板的方法感到困惑。文本应该是唯一的——所以我需要一种优化唯一性的算法。
现在,有一些 API 解决方案可以在文本的末尾(甚至在文本的中间)给我唯一性分数——所以我的第一反应是尝试使用稀疏奖励的强化学习。模板可以表示为一棵树,算法遍历该树,最终在其行程中获得奖励。输入是它当前选择去哪里,输出是它决定去哪里。
这种方法的问题在于,在成功生成唯一文本后,它无法生成相同的文本(我的意思是可以,但得分为 0),这可能证明模型难以学习。网络上的许多文章也表明 RL 真的很难正确调整。
我现在处于预研究过程中,因此对于我应该如何处理这项任务的任何反馈表示赞赏。也许根本不需要机器学习?
你怎么看?我的直觉告诉我,这些问题应该已经建立了解决方案,而我只是在寻找错误的方法。
谢谢!