gpdftext (extrai o texto do pdf), agora é aquele lixo sem parágrafos, próximo passo é o libreoffice calc(!), duas ou três colunas para separar os parágrafos (essa é a parte triste, mas é melhor aqui que no writer, juro), mescla as linhas que compõe o parágrafo, desmescla, elimina as linhas em branco, repete, repete, repete…