Любопытная статья [1] и связанные с ней наборы данных [2] про WikiWebQuestions, набор данных SPARQL аннотированных данных из Wikidata и о том что большие языковые модели вроде LLaMa меньше галлюцинируют и точность их ответов повышается. Всячески полезное чтение и возвращение к вопросу о том насколько и как структурированные и качественно аннотированные базы данных могут повлиять на качество ИИ-инструментов. До сих пор в основе больших языковых моделей были очень большие базы текстов, а тут базы фактов. При всей неидеальности и неполноте Wikidata баз таких объёмов и такой структуризации одновременно очень мало.

Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23

#ai #opendata #wikidata #datasets #research #readings