Text2Neural | Etapa a II-a

Rezumatul Etapei

A doua etapă din cadrul proiectului denumită: „Construire corpusuri pentru antrenarea modelelor” din cadrul proiectului s-a desfășurat în anul 2017 și a constat în realizarea următoarelor categorii de activități:

Activități specifice managementului de proiect

Aceste activități au constat în:

– Monitorizarea implementării proiectului în parametrii de timp și cost agreați cu Autoritatea Contractantă;

– Realocarea resurselor umane (specialiștii în securitate informatică) în proiect, în funcție de bugetul alocat proiectului și expertiza necesară desfășurării activităților planificate;

– Gestionarea canalului de diseminare a informațiilor despre proiect.

Activități de cercetare industrială (Realizare model experimental, model funcțional, tehnologie de laborator etc.)

Activitățile specifice acestei categorii, realizate în cea de-a doua etapă a proiectului au constat în construirea acestui corpus de perechi de interogări în limbaj natural și SQL (de dimensiuni suficient de mari) și dezvoltarea unor modele complete (​end to end) care să poată fi antrenate folosind acest corpus.

Rezultatele obținute

Am introdus un set de date pentru antrenare și validare a interfețelor între limbaj natural și baze de date. SENLIDB este primul corpusul mare de antrenare pentru sisteme NLIDB bazate pe date (și nu pe reguli sau pe cunoștințe anterioare). Setul de date a fost folosit cu succes pentru a antrena de la cap la coada o rețea neurala – NNLIDB, folosind un model SEQ2SEQ cu atenție.

În comparație cu soluțiile existente pentru NLIDB, soluția noastră nu folosește reguli, euristici sau informații despre schema sau sintaxa SQL. Pe de alta parte, SQL-urile generate sunt imprecise și de aceea nu am comparat scorurile cu cele alte altor soluții. În schimb pentru modelul baseline de SEQ2SEQ cu atenție am verificat cat de similare sunt SQL-urile generate fata de cele adnotate manual (folosind BLEU, precizie și recall pentru sarcini mai simple – generarea corecta a numelor de tabele și de coloane).