Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using Reinforcement Learning,2014, Hamidreza Modares, Frank L. Lewis, Fellow, IEEE
原系统状态和指令生成器的值函数形式是二次型的。LQT贝尔曼方程和LQT的ARE方…
Quadratic Form
题意:
一个n * n 的正定矩阵和一个n维的向量b,现在找一个x1,x2,…xn满足以下条件: 求这个式子,最后输出P * Q-1 mod 998244353.
题解:
参考 线性代数学过n阶正定的实矩阵等…
Motivation
假定我们现在有 N N N个作文样例,以及它们对应的人类评分和GPT评分。评分一共有 C C C个互斥类别,分别是{0,1,2,3}。现在我们要衡量人类评分和GPT评分的一致性。 一个很直观的想法是,画出混淆矩阵,然后将对角线上的值…