문장단위로 분절된 나무위키 데이터셋. Releases에서 다운로드 받거나, tfds-korean을 통해 다운로드 받으세요.

Overview

Namuwiki corpus

문장단위로 미리 분절된 나무위키 코퍼스.

목적이 LM등에서 사용하기 위한 데이터셋이라, 링크/이미지/테이블 등등이 잘려있습니다.

문장 단위 분절은 kss를 활용하였습니다.

라이선스는 나무위키에 명시된 바와 같이 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다.

사용법

Releases에서 직접 다운로드받은 후 사용하시거나, tfds-korean 패키지(카탈로그 페이지)를 이용해 사용하세요.

포맷

문서1
문장1
문장2
문장3

문서1 - 제목1
문장1
문장2
문장3

문서1 - 제목1 - 하위 제목1
문장1
문장2
문장3

...

예시

나성범 - 플레이 스타일 - 주루
2015 시즌 20-20 클럽에 가입한 경력을 갖고 있는 준족으로, 슬럼프를 겪었던 2016년과 부상으로 일찌감치 시즌을 마감한 2019년을 제외하고는 데뷔 이래 매년 두 자릿수의 도루를 기록했다.
상당한 거구의 사나이지만 팀 동료이자 리그를 대표하는 리드오프인 박민우보다도 순수 주력이 빠르다.
중심타선에 배치되는 타자임에도 어느 타구든지 가리지 않고 1루를 향해 전력질주를 하며, 이러한 플레이 덕분에 내야안타도 많이 생산해낸다.
그리하여 병살타가 될만한 타구도 본인의 발로 어찌어찌 모면하는 경우도 꽤 있다.
주루 센스 역시 좋은 선수이며 적극성 역시 뛰어난 편.
다만 2019 시즌 중반 십자인대가 파열되는 부상을 입으면서 예전처럼 적극적인 주루를 시도하지는 않게 되었다.

나성범 - 플레이 스타일 - 수비
KBO 리그의 대표적인 강견 외야수 중 하나로, 투수로서도 시속 150km/h에 육박하는 공을 던질 수 있을 정도의 강한 어깨를 자랑한다.
지금은 공격력을 살리기 위해 우익수로 전향을 했지만 데뷔 초 2년 간 풀타임으로 중견수를 소화했을 정도의 수비력을 갖춘 선수이다.
나성범의 수비 RAA는 데뷔 시즌부터 꾸준히 플러스를 기록하는 중이며, 덕분에 WAR 등등의 종합 지표에서 굉장한 이득을 보고 있다.
세이버메트릭스로 봐도 프로 데뷔 이후 스탯티즈 기준 통산 WAR이 28.44로 동 시기 전체 야수 중 4위를 기록하고 있다.
그러나 2018년 메이저리그 스카우터 말에 따르면 "어깨가 강한 것은 긍정적이다. 그러나 수비 당시의 풋워크나 전반적인 수비 능력은 좀 더 향상될 필요가 있다”라고 한다.
2019 시즌에는 주전 중견수로 낙점한 김성욱이 시즌 초반부터 크게 부진하면서 5년 만에 중견수 자리로 돌아왔지만 큰 무리없이 좋은 수비를 보여주었다.
2020년에는 부상 여파로 RNG가 1/10로 폭락했고, 사실상 풀타임 지명타자로 출장했다.

고려사항

이 스크립트 사용하기엔 파일 용량(>8GB)이 너무 큰데?

동적으로 처리할 수 있을 것 같긴한데, 32GB 머신에서 일단 다 로드해서 처리하는 중이예요. "미리 최소한으로 정제해서 사용하기 좋은 포맷으로 만들어두고, 후처리는 알아서 하면 되겠다"라는 생각이라 여러 파일로 나눠진 형태의 압축파일로 제공합니다. 메모리가 혹시 모자라시면 ijson 같은 라이브러리를 이용해서 수정하시거나 다른 램많은 분에게 부탁을 해주세요.


전처리 과정에서 오류가 있는 부분은 이슈로 알려주세요.

You might also like...
Releases(210301-210612)
Beyond Masking: Demystifying Token-Based Pre-Training for Vision Transformers

beyond masking Beyond Masking: Demystifying Token-Based Pre-Training for Vision Transformers The code is coming Figure 1: Pipeline of token-based pre-

Yunjie Tian 23 Sep 27, 2022
Using BERT-based models for toxic span detection

SemEval 2021 Task 5: Toxic Spans Detection: Task: Link to SemEval-2021: Task 5 Toxic Span Detection is https://competitions.codalab.org/competitions/2

Ravika Nagpal 1 Jan 04, 2022
Linear programming solver for paper-reviewer matching and mind-matching

Paper-Reviewer Matcher A python package for paper-reviewer matching algorithm based on topic modeling and linear programming. The algorithm is impleme

Titipat Achakulvisut 66 Jul 05, 2022
A single model that parses Universal Dependencies across 75 languages.

A single model that parses Universal Dependencies across 75 languages. Given a sentence, jointly predicts part-of-speech tags, morphology tags, lemmas, and dependency trees.

Dan Kondratyuk 189 Nov 29, 2022
Meta learning algorithms to train cross-lingual NLI (multi-task) models

Meta learning algorithms to train cross-lingual NLI (multi-task) models

M.Hassan Mojab 4 Nov 20, 2022
Telegram bot to auto post messages of one channel in another channel as soon as it is posted, without the forwarded tag.

Channel Auto-Post Bot This bot can send all new messages from one channel, directly to another channel (or group, just in case), without the forwarded

Aditya 128 Dec 29, 2022
A pytorch implementation of the ACL2019 paper "Simple and Effective Text Matching with Richer Alignment Features".

RE2 This is a pytorch implementation of the ACL 2019 paper "Simple and Effective Text Matching with Richer Alignment Features". The original Tensorflo

286 Jan 02, 2023
Word Bot for JKLM Bomb Party

Word Bot for JKLM Bomb Party A bot for Bomb Party on https://www.jklm.fun (Only English) Requirements pynput pyperclip pyautogui Usage: Step 1: Run th

Nicolas 7 Oct 30, 2022
🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.

English | 简体中文 | 繁體中文 | 한국어 State-of-the-art Machine Learning for JAX, PyTorch and TensorFlow 🤗 Transformers provides thousands of pretrained models

Hugging Face 77.1k Dec 31, 2022
nlp-tutorial is a tutorial for who is studying NLP(Natural Language Processing) using Pytorch

nlp-tutorial is a tutorial for who is studying NLP(Natural Language Processing) using Pytorch. Most of the models in NLP were implemented with less than 100 lines of code.(except comments or blank li

Tae-Hwan Jung 11.9k Jan 08, 2023
A python package for deep multilingual punctuation prediction.

This python library predicts the punctuation of English, Italian, French and German texts. We developed it to restore the punctuation of transcribed spoken language.

Oliver Guhr 27 Dec 22, 2022
Reproduction process of BERT on SST2 dataset

BERT-SST2-Prod Reproduction process of BERT on SST2 dataset 安装说明 下载代码库 git clone https://github.com/JunnYu/BERT-SST2-Prod 进入文件夹,安装requirements pip ins

yujun 1 Nov 18, 2021
Based on 125GB of data leaked from Twitch, you can see their monthly revenues from 2019-2021

Twitch Revenues Bu script'i kullanarak istediğiniz yayıncıların, Twitch'den sızdırılan 125 GB'lik veriye dayanarak, 2019-2021 arası aylık gelirlerini

4 Nov 11, 2021
RecipeReduce: Simplified Recipe Processing for Lazy Programmers

RecipeReduce This repo will help you figure out the amount of ingredients to buy for a certain number of meals with selected recipes. RecipeReduce Get

Qibin Chen 9 Apr 22, 2022
TPlinker for NER 中文/英文命名实体识别

本项目是参考 TPLinker 中HandshakingTagging思想,将TPLinker由原来的关系抽取(RE)模型修改为命名实体识别(NER)模型。

GodK 113 Dec 28, 2022
A simple Streamlit App to classify swahili news into different categories.

Swahili News Classifier Streamlit App A simple app to classify swahili news into different categories. Installation Install all streamlit requirements

Davis David 4 May 01, 2022
This is the 25 + 1 year anniversary version of the 1995 Rachford-Rice contest

Rachford-Rice Contest This is the 25 + 1 year anniversary version of the 1995 Rachford-Rice contest. Can you solve the Rachford-Rice problem for all t

13 Sep 20, 2022
💥 Fast State-of-the-Art Tokenizers optimized for Research and Production

Provides an implementation of today's most used tokenizers, with a focus on performance and versatility. Main features: Train new vocabularies and tok

Hugging Face 6.2k Dec 31, 2022
Unofficial Python library for using the Polish Wordnet (plWordNet / Słowosieć)

Polish Wordnet Python library Simple, easy-to-use and reasonably fast library for using the Słowosieć (also known as PlWordNet) - a lexico-semantic da

Max Adamski 12 Dec 23, 2022
Grapheme-to-phoneme (G2P) conversion is the process of generating pronunciation for words based on their written form.

Neural G2P to portuguese language Grapheme-to-phoneme (G2P) conversion is the process of generating pronunciation for words based on their written for

fluz 11 Nov 16, 2022