소프트웨어학과 조현석 교수팀, '미주 계산언어학회 2025' 논문 발표

아주광장

NEW 소프트웨어학과 조현석 교수팀, '미주 계산언어학회 2025' 논문 발표

2025-05-15
332

우리 학교 소프트웨어학과·인공지능학과 조현석 교수팀이 자연어 처리 분야 국제학술대회 '미주 계산언어학회(NAACL) 2025'에서 논문을 발표했다.

지난 4월29일부터 5월4일까지 개최된 미국 뉴멕시코주 앨버커키에서 열린 '미주 계산언어학회(NAACL, Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics)'는 자연어처리와 컴퓨터 언어학 분야의 최신 연구를 다루는 세계적인 학회다.

이번 학술대회는 전 세계의 관련 연구자들과 Adobe, Apple, Baidu 등 세계적인 AI 기업들이 참여했으며, 총 3000여편의 논문 중 700여편만이 메인 컨퍼런스에 채택됐다.

우리 학교 조현석 교수(소프트웨어학과·인공지능융합학과) 연구팀은 이번 학회에서 ‘FLEX: 실행 오류를 최소화한 Text-to-SQL 신뢰도 평가 지표(FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark)'라는 논문을 발표했다. 해당 연구에는 우리 학교 소프트웨어학과·인공지능융합학과 조현석 교수와 인공지능학과 김희규, 전태양, 최승환 학생이 참여했다.

이 논문은 연구팀은 자연어를 SQL 쿼리로 변환하는 Text-to-SQL 시스템의 성능을 평가하는 새로운 방법론을 제안했다. 연구팀은 기존의 실행 정확도(Execution Accuracy) 평가 방식이 많은 오탐지(false positives)와 미탐지(false negatives)를 보인다는 문제점을 지적하고, 대규모 언어 모델(LLM)을 활용해 전문가 수준의 평가를 수행하는 'FLEX'라는 새로운 평가 지표를 개발했다.

연구팀은 FLEX 평가지표를 기존 평가 방식보다 전문가 판단과 더 유사한 평가 결과를 얻을 수 있음을 확인했다. 이를 수치로 보면, 전문가 판단과의 일치도(Cohen's kappa)가 기존 평가에서는 62점, FLEX를 사용하면 87.04점까지 증가시킬 수 있다. FLEX 평가지표는 포괄적인 맥락 분석과 정교한 평가 기준을 통해 더 정확한 성능 측정이 가능하다. 연구팀은 이 방법론을 사용하여 Spider와 BIRD 벤치마크에서 50개의 Text-to-SQL 모델을 재평가했고, 모델 성능이 평균 2.6% 이상 증가하는 것을 발견했다.

연구팀의 FLEX 평가 방법론은 GitHub를 통해 오픈소스로 공개되어 있어 누구나 활용할 수 있으며, Text-to-SQL 분야의 발전에 중요한 기여를 할 것으로 기대된다.

조현석 교수는 "이번 연구는 Text-to-SQL 시스템의 평가 방식을 근본적으로 개선해 더 정확하고 신뢰할 수 있는 성능 측정을 가능하게 했다는 점에 의의가 있다"라며 “이를 통해 자연어를 통한 데이터베이스 접근 기술의 발전에 기여할 수 있을 것"이라고 밝혔다.

이번 연구는 ▲아주대 인공지능융합혁신대학원 사업 ▲사람중심 인공지능 핵심원천기술개발 사업 ▲나노 및 소재기술개발사업 소재 글로벌 영커넥트 사업의 지원을 받았다.

*사진 왼쪽부터 아주대 소프트웨어학과·인공지능융합학과 조현석 교수, 인공지능학과 김희규,전태양, 최승환 학생

아주광장

Ajou News