초성 해석기 based on ko-BART

Last update: Oct 28, 2022

Related tags

Overview

초성 해석기

개요

한국어 초성만으로 이루어진 문장을 입력하면, 완성된 문장을 예측하는 초성 해석기입니다.

초성: ㄴㄴ ㄴㄹ ㅈㅇㅎ
예측 문장: 나는 너를 좋아해

모델

모델은 SKT-AI에서 공개한 Ko-BART를 이용합니다.

데이터

문장 단위로 이루어진 아무 코퍼스나 사용가능합니다. 단, 모델의 추론 성능은 데이터의 도메인이나 데이터의 양에 크게 의존하기 때문에 원하는 모델 성능에 맞는 코퍼스를 사용해주세요. ./data 디렉토리에 더미 데이터셋을 추가해두었으니, 더미 데이터셋과 동일한 형식의 코퍼스를 준비해두시면 됩니다.

학습

python run_train.py

추론

python run_inference.py --finetuned-model-path $FINETUNED_MODEL_PATH

예시

공개된 코퍼스로 학습한 모델의 추론 결과입니다.

초성: ㅂㄱㅍㄷ 	 예측 문장: 배고픈데
초성: ㅂㄱㅍㄷ 	 예측 문장: 배고프다
초성: ㅂㄱㅍㄷ 	 예측 문장: 배고프대

초성: ㄴㅁㄴㅁ ㅅㄹㅎㅇ 	 예측 문장: 너무너무 사랑해요
초성: ㄴㅁㄴㅁ ㅅㄹㅎㅇ 	 예측 문장: 너무너무 사랑했어
초성: ㄴㅁㄴㅁ ㅅㄹㅎㅇ 	 예측 문장: 나만너무 사랑해요

초성: ㄴㄴ ㄴㄹ ㅈㅇㅎ 	 예측 문장: 나는 너를 좋아해
초성: ㄴㄴ ㄴㄹ ㅈㅇㅎ 	 예측 문장: 누나 나랑 좋아해
초성: ㄴㄴ ㄴㄹ ㅈㅇㅎ 	 예측 문장: 너는 나를 좋아해

Notes

본 레포는 별도의 학습 데이터를 포함하고 있지 않습니다.
본 레포의 라이센스는 Ko-BART의 modified-MIT 라이센스를 따릅니다.

Todo

테스트 코드 추가

초성 해석기 based on ko-BART

Related tags

Overview

초성 해석기

개요

모델

데이터

학습

추론

예시

Notes

Todo

Owner

Dawoon Jung

A fast and lightweight python-based CTC beam search decoder for speech recognition.

Unsupervised Language Model Pre-training for French

Implementation of ProteinBERT in Pytorch

Visual Automata is a Python 3 library built as a wrapper for Caleb Evans' Automata library to add more visualization features.

Simple NLP based project without any use of AI

QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries

Quick insights from Zoom meeting transcripts using Graph + NLP

⛵️The official PyTorch implementation for "BERT-of-Theseus: Compressing BERT by Progressive Module Replacing" (EMNLP 2020).

The proliferation of disinformation across social media has led the application of deep learning techniques to detect fake news.

This repository contains the official release of the model "BanglaBERT" and associated downstream finetuning code and datasets introduced in the paper titled "BanglaBERT: Combating Embedding Barrier in Multilingual Models for Low-Resource Language Understanding".

BMInf (Big Model Inference) is a low-resource inference package for large-scale pretrained language models (PLMs).

A Python 3.6+ package to run .many files, where many programs written in many languages may exist in one file.

Codes to pre-train Japanese T5 models

Japanese Long-Unit-Word Tokenizer with RemBertTokenizerFast of Transformers

translate using your voice

NLP Overview

STT for TorchScript is a port of Coqui STT based on DeepSpeech to PyTorch.

Voice Assistant inspired by Google Assistant, Cortana, Alexa, Siri, ...

The source code of "Language Models are Few-shot Multilingual Learners" (MRL @ EMNLP 2021)

Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System